ManueldeReferenceTXM0.5 FR

From txm

Revision as of 14:11, 12 March 2011 by Sheiden (Talk | contribs)
(diff) ← Older revision | Current revision (diff) | Newer revision → (diff)
Jump to: navigation, search
TXM : Manuel de Référence
File:Logo TXM.pngversion 0.5
Copyright © - ANR Textométrie - http://txm.ens-lyon.fr


File:Creative Commons.pngCe documentest publié sous licence
Creative Commons BY-NC-SA


Table des mises à jour


13/03/10
Serge Heiden (SH) Création
02/07/10
Matthieu Decorde (MD) Mise à jour pour la version 0.4.7
15-29/07/10
SH Réécriture pour la version 0.4.7
27/08/10
SH Numérotation des titres, réorganisation du plan
08/10/10
Lauranne Bertrand Version française du manuel pour la 0.5
05/01/11
MD Synchronisation avec la version de release 0.5
14/01/11
SH Corrections
18/01/11
SH Corrections, ajout de la section sur les modules d'importation

N° d'édition : 529

Contenu : 98 pp., 19929 occ., 77 ill., 9 tab.

Date d'édition : 11/03/11, 15:43:45


Contents

Table des matières

[#__RefHeading__3797_940646461 1 Préface7]

[#__RefHeading__95186_1052622727 1.1 À qui s'adresse ce manuel ?7]

[#__RefHeading__95188_1052622727 1.2 Comment est organisé ce manuel ?7]

[#__RefHeading__95190_1052622727 1.3 Lectures complémentaires7]

[#__RefHeading__95192_1052622727 1.4 Accéder à la documentation de TXM en ligne8]

[#__RefHeading__95194_1052622727 1.5 Conventions typographiques8]

[#__RefHeading__94670_1052622727 2 Installer TXM9]

[#__RefHeading__95196_1052622727 2.1 Système requis9]

[#__RefHeading__3813_940646461 2.2 Windows9]

[#__RefHeading__3815_940646461 2.3 Linux11]

[#__RefHeading__12076_1876590214 2.3.1 Installation rapide11]

[#__RefHeading__12078_1876590214 2.3.2 Installation classique11]

[#__RefHeading__94672_1052622727 3 Premiers pas avec TXM12]

[#__RefHeading__95198_1052622727 3.1 Lancer TXM12]

[#__RefHeading__95200_1052622727 3.1.1 Sous Windows12]

[#__RefHeading__95202_1052622727 3.1.2 Sous Linux13]

[#__RefHeading__95204_1052622727 3.2 Utiliser les fenêtres, les menus, les barres d'outils et les raccourcis clavier14]

[#__RefHeading__3827_940646461 3.2.1 Interface graphique générale14]

[#__RefHeading__95206_1052622727 3.2.1.1 L'explorateur15]

[#__RefHeading__95208_1052622727 La vue « Corpus »16]

[#__RefHeading__95210_1052622727 La vue « Fichier » et l'éditeur de texte17]

[#__RefHeading__95212_1052622727 3.2.1.2 Les commandes18]

[#__RefHeading__95214_1052622727 3.2.1.3 Les icones22]

[#__RefHeading__95216_1052622727 icones d'objets22]

[#__RefHeading__95218_1052622727 icones des commandes22]

[#__RefHeading__95220_1052622727 3.2.1.4 Les menus principaux23]

[#__RefHeading__95222_1052622727 Menu « Fichier »23]

[#__RefHeading__95224_1052622727 Menu « Corpus »23]

[#__RefHeading__95226_1052622727 Menu « Outils »24]

[#__RefHeading__95228_1052622727 Menu « Aide »24]

[#__RefHeading__95230_1052622727 3.2.1.5 Les résultats25]

[#__RefHeading__95232_1052622727 3.2.1.6 Les messages26]

[#__RefHeading__95234_1052622727 3.2.2 Le gestionnaire de fenêtres26]

[#__RefHeading__95236_1052622727 3.3 Aide27]

[#__RefHeading__95238_1052622727 3.4 Travailler sur les corpus27]

[#__RefHeading__95240_1052622727 3.4.1 Introduction rapide27]

[#__RefHeading__95242_1052622727 3.4.2 Importer, exporter, charger des corpus27]

[#__RefHeading__95244_1052622727 3.4.3 Commandes d'import simples28]

[#__RefHeading__95246_1052622727 3.4.3.1 Importer un texte brut28]

[#__RefHeading__95248_1052622727 3.4.3.2 Importer un texte au format XML29]

[#__RefHeading__95250_1052622727 3.4.4 Le processus d'import avancé29]

[#__RefHeading__95252_1052622727 3.4.5 Exemple de module d'importation : Importer avec CNR+CSV31]

[#__RefHeading__95254_1052622727 3.4.6 Autres modules d'importation32]

[#__RefHeading__95256_1052622727 3.4.7 Export de données34]

[#__RefHeading__95258_1052622727 3.4.7.1 Fichiers sources34]

[#__RefHeading__95260_1052622727 3.4.7.2 Résultats de calculs34]

[#__RefHeading__95262_1052622727 3.4.8 Les corpus exemples34]

[#__RefHeading__3959_940646461 3.4.8.1 Le corpus DISCOURS34]

[#__RefHeading__95264_1052622727 3.4.8.2 Le corpus QUÊTE35]

[#__RefHeading__94674_1052622727 4 Utiliser les commandes de TXM36]

[#__RefHeading__66036_309007557 4.1 Description de corpus36]

[#__RefHeading__95268_1052622727 4.2 Édition37]

[#__RefHeading__34732_1130019341 4.2.1 Corpus37]

[#__RefHeading__34734_1130019341 4.2.2 Partition38]

[#__RefHeading__95270_1052622727 4.3 Construire un sous-corpus39]

[#__RefHeading__95272_1052622727 4.3.1 Construire un sous-corpus : mode « simple »39]

[#__RefHeading__55217_309007557 4.3.2 Construire un sous-corpus : mode « assisté »40]

[#__RefHeading__95274_1052622727 4.3.3 Construire un sous-corpus : mode « avancé »41]

[#__RefHeading__95276_1052622727 4.4 Construire une partition 41]

[#__RefHeading__95278_1052622727 4.4.1 Construire une partition : mode « simple »41]

[#__RefHeading__95280_1052622727 4.4.2 Construire une partition : mode « assisté »42]

[#__RefHeading__95282_1052622727 4.4.3 Construire une partition : mode « avancé »44]

[#__RefHeading__95284_1052622727 4.5 Construire une concordance 45]

[#__RefHeading__95286_1052622727 4.5.1 Requêtes45]

[#__RefHeading__95288_1052622727 4.5.2 Navigation48]

[#__RefHeading__95290_1052622727 4.5.3 Retour au texte49]

[#__RefHeading__95292_1052622727 4.5.4 Tri49]

[#__RefHeading__95294_1052622727 4.5.5 Propriétés de mot49]

[#__RefHeading__95296_1052622727 4.5.6 Références49]

[#__RefHeading__95298_1052622727 4.5.7 Export 50]

[#__RefHeading__95300_1052622727 4.6 Cooccurrences50]

[#__RefHeading__95302_1052622727 4.7 Lexique et Index52]

[#__RefHeading__95304_1052622727 4.7.1 Lexique 52]

[#__RefHeading__95306_1052622727 4.7.2 Index53]

[#__RefHeading__95308_1052622727 4.7.2.1 Combinaison de propriétés54]

[#__RefHeading__95310_1052622727 4.7.2.2 Requêtes55]

[#__RefHeading__95312_1052622727 4.7.2.3 Seuils55]

[#__RefHeading__95314_1052622727 4.7.2.4 Navigation55]

[#__RefHeading__95316_1052622727 4.7.2.5 Hypertexte56]

[#__RefHeading__95318_1052622727 4.8 Spécificités56]

[#__RefHeading__95320_1052622727 4.8.1 Spécificités sur une partition56]

[#__RefHeading__95322_1052622727 4.8.1.1 Tri58]

[#__RefHeading__95324_1052622727 4.8.1.2 Graphiques58]

[#__RefHeading__95326_1052622727 4.8.1.3 Manipuler le graphique59]

[#__RefHeading__95328_1052622727 4.8.2 Spécificités d'un sous-corpus60]

[#__RefHeading__95330_1052622727 4.9 Progression 61]

[#__RefHeading__12080_1876590214 4.10 Références61]

[#__RefHeading__95332_1052622727 4.11 AFC63]

[#__RefHeading__95334_1052622727 4.12 Table lexicale 65]

[#__RefHeading__95336_1052622727 4.13 Les préférences de TXM68]

[#__RefHeading__95338_1052622727 4.14 Récapitulatif du lancement des commandes TXM69]

[#__RefHeading__66038_309007557 5 Syntaxe du moteur de recherche70]

[#__RefHeading__66040_309007557 5.1 Introduction rapide70]

[#__RefHeading__94676_1052622727 6 Les scripts de la plateforme TXM74]

[#__RefHeading__3887_940646461 6.1 Lancer des scripts et exécuter des commandes Groovy74]

[#__RefHeading__12082_1876590214 6.2 Lancer des scripts et exécuter des commandes R75]

[#__RefHeading__12084_1876590214 7 Modules d'importation76]

[#__RefHeading__12518_1876590214 7.1 module Presse-papier76]

[#__RefHeading__12116_18765902141 7.1.1 entrée76]

[#__RefHeading__12520_1876590214 7.1.2 sortie76]

[#__RefHeading__12110_187659021411 7.1.3 annotation76]

[#__RefHeading__12522_1876590214 7.1.4 édition76]

[#__RefHeading__12118_1876590214 7.2 module XML-TEI BFM76]

[#__RefHeading__12120_1876590214 7.2.1 entrée76]

[#__RefHeading__12122_1876590214 7.2.2 annotation77]

[#__RefHeading__12124_1876590214 7.2.3 édition77]

[#__RefHeading__12134_1876590214 7.3 module XML-TXM77]

[#__RefHeading__12136_1876590214 7.3.1 entrée77]

[#__RefHeading__12140_1876590214 7.3.2 sortie78]

[#__RefHeading__12674_1876590214 7.3.3 annotation78]

[#__RefHeading__12142_1876590214 7.3.4 édition78]

[#__RefHeading__12353_1876590214 7.4 module XML/w78]

[#__RefHeading__12128_1876590214 7.4.1 entrée78]

[#__RefHeading__12130_1876590214 7.4.2 sortie78]

[#__RefHeading__12132_1876590214 7.4.3 édition78]

[#__RefHeading__12144_1876590214 7.5 module Transcriber+CSV78]

[#__RefHeading__12146_1876590214 7.5.1 entrée78]

[#__RefHeading__12148_1876590214 7.5.2 sortie79]

[#__RefHeading__12150_1876590214 7.5.3 annotation80]

[#__RefHeading__12152_1876590214 7.5.4 édition80]

[#__RefHeading__12355_1876590214 7.6 module Hyperbase80]

[#__RefHeading__12098_1876590214 7.6.1 entrée80]

[#__RefHeading__12100_1876590214 7.6.2 annotation80]

[#__RefHeading__12102_1876590214 7.6.3 édition80]

[#__RefHeading__12104_1876590214 7.7 module Alceste81]

[#__RefHeading__12106_1876590214 7.7.1 entrée81]

[#__RefHeading__12108_1876590214 7.7.2 sortie81]

[#__RefHeading__12110_1876590214 7.7.3 annotation81]

[#__RefHeading__12112_1876590214 7.7.4 édition81]

[#__RefHeading__12357_1876590214 7.8 module CNR+CSV81]

[#__RefHeading__12088_1876590214 7.8.1 entrée81]

[#__RefHeading__12090_1876590214 7.8.2 sortie82]

[#__RefHeading__12092_1876590214 7.8.3 annotation82]

[#__RefHeading__12094_1876590214 7.8.4 édition82]

[#__RefHeading__12359_1876590214 7.9 module TXT+CSV82]

[#__RefHeading__12116_1876590214 7.9.1 Entrée82]

[#__RefHeading__12524_1876590214 7.9.2 sortie83]

[#__RefHeading__12110_18765902141 7.9.3 annotation83]

[#__RefHeading__12526_1876590214 7.9.4 édition83]

[#__RefHeading__94678_1052622727 8 Raccourcis clavier84]

[#__RefHeading__95344_1052622727 8.1 Éditeur de texte84]

[#__RefHeading__95346_1052622727 8.2 Raccourcis graphiques86]

[#__RefHeading__95348_1052622727 8.3 Fenêtre87]

[#__RefHeading__94680_1052622727 9 Glossaire88]

[#__RefHeading__34736_1130019341 10 Bibliographie93]

[#__RefHeading__76096_1130019341 11 Index94]= Préface =

À qui s'adresse ce manuel ?

Si vous souhaitez utiliser la plateforme TXM, ce manuel vous expliquera, pas à pas, les différents concepts du logiciel ainsi que ses divers outils utiles à l'analyse des corpus textuels.


Ce document vous permettra également de vous approprier l'environnement de la plateforme TXM, si vous souhaitez l'adapter à des corpus spécifiques, en personnalisant l'import des fichiers.

Comment est organisé ce manuel ?

Il décrit dans un premier temps comment installer le logiciel sur les différents systèmes d'exploitation et comment lancer TXM.

Il expose ensuite l'architecture de l'interface et la manière d'importer de nouveaux corpus dans la plateforme.

La section qui vient par la suite présente les divers outils et la façon de les utiliser pour analyser un corpus.

Enfin, il vous sera introduit le moyen de manipuler la plateforme grâce aux scripts.

Le document se clôt sur un glossaire et un index de référence.

Lectures complémentaires

Le site officiel du projet Textométrie met en ligne tous les documents ayant trait à la plateforme TXM : http://txm.ens-lyon.fr/spip.php?article98&lang=fr

(le tutoriel vidéo, les documents fondamentaux de méthodologie textométrique fondamentale, les documentations sur l'encodage des textes, sur les moteurs de recherches et statistiques et sur les interpréteurs de scripts).


Vous pourrez également trouver sur ce site toutes les publications scientifiques au sujet du projet : http://txm.ens-lyon.fr/spip.php?article82&lang=fr


Les Wikis de TXM sont le meilleur moyen pour partager ses connaissances sur la façon d'utiliser la plateforme avec d'autres utilisateurs et les développeurs :

(vous devez vous inscrire sur Sourceforge<ref name="ftn1">http://sourceforge.net/account/registration </ref> et demander les accès pour être capable d'éditer le wiki)

(vous devez vous inscrire à la liste utilisateurs TXM<ref name="ftn2">https://listes.cru.fr/sympa/subscribe/txm-users </ref> afin de pouvoir d'éditer le wiki)

Le wiki francophone est actuellement structuré de la façon suivante :

  • retours de bugs de la version RCP courante de TXM : cette page agrège les retours de bugs des différentes réunions et mails de retours que nous recevons.
  • retours de bugs de la version WEB courante de TXM
  • demande de fonctionnalités : recensement des diverses demandes de fonctionnalités pour TXM RCP
  • le wiki vous permet également de participer à l'écriture de la documentation ou à sa traduction

Si vous souhaitez modifier les fonctions de base du logiciel (ou en ajouter), c'est à dire changer le code source de TXM, vous pouvez également lire le guide du développeur de TXM (https://sourceforge.net/apps/mediawiki/textometrie), ainsi que la Javadoc et le manuel du module textometrieR.

Accéder à la documentation de TXM en ligne

Ce manuel et sa traduction sont disponibles à cette adresse :

http://sourceforge.net/projects/txm/files/documentation

Conventions typographiques

Dans ce manuel, certains éléments sont mis en valeur par une typographie différente :

  • les expressions littérales sont en police Courier : les chemins d'accès aux répertoires, les noms de fichiers, les exemples de requêtes et de chaîne de caractères ainsi que les liens hypertextes.
  • la police Arial est réservée aux titres de sections
  • la police Arial est réservée aux commandes de l'application

Installer TXM

Système requis

Cette version du logiciel est compatible avec Windows et Linux<ref name="ftn3">Seuls Windows XP, Vista & Seven, et Linux Ubuntu ont été testés avec cette version.</ref>.

Les ressources suivantes sont recommandées :

  • 170 Mo d'espace disque pour l'installation ;
  • 350 Mo de mémoire vive pour l'exécution.

Windows

  • Télécharger le fichier « txm_0.5beta_win.exe » à cette adresse : https://sourceforge.net/projects/txm/files/software/0.5
  • Exécuter le fichier en double-cliquant dessus :
    • En fonction du niveau de sécurité de votre version de Windows, cette fenêtre pourrait apparaître : Si tel est la cas, veuillez cliquer sur le bouton « Exécuter »
    • Dans cette fenêtre : Cliquer sur « Install » (vous pouvez choisir un autre dossier d'installation avant).
    • L'installation dure environ une minute.
    • Si, pendant l'installation, le message suivant apparaît : Cela signifie que le processus 'Rserve' (le moteur statistique de TXM) est toujours en cours d'exécution sur votre ordinateur et que l'installation ne peut pas mettre à jour ses fichiers binaires. Vous devez d'abord quitter TXM ou terminer le processus depuis le gestionnaire de tâches de Windows et ensuite cliquer sur « Recommencer » pour reprendre l'installation.
    • Dans la fenêtre suivante : Cliquer sur « Close »
    • L'installation est alors terminée.

Linux

Installation rapide

  1. Télécharger le fichier « txm_0.5.deb » à l'adresse :
    https://sourceforge.net/projects/txm/files/software/0.5
  2. lancer le fichier pour déclencher l'installation avec le gestionnaire de packets gdebi
  • il faut ouvrir la fenêtre du script pour répondre à ses questions (licence...)

Lancer TXM à partir du menu « Applications / Sciences / TXM ».=== Installation classique ===

  1. Télécharger le fichier « txm_0.5_linux.tar.gz » à l'adresse :
    https://sourceforge.net/projects/txm/files/software/0.5
    Cliquer sur « txm_0.5_linux.tar.gz »
  2. Extraire le contenu de l'archive dans un dossier [vous pouvez utiliser la commande suivante « tar xvf txm_0.5_linux.tar.gz »]
  3. Aller dans ce dossier
  4. Lancer : « bash install.sh <chemin vers le répertoire choisi pour l'installation de TXM> »
    (Le fichier INSTALL contient des informations supplémentaires pour l'installation sous Linux)

Lancer TXM avec :

  • la commande : « TXM& »
  • ou bien avec le raccourci ALT+F2, puis saisir « TXM »

Premiers pas avec TXM

La plateforme TXM actuelle vous aide à construire et à analyser des corpus étiquetés et structurés :

  • Le logiciel vous permet d'importer des ressources textuelles afin de construire un corpus provenant de diverses sources, ou directement, depuis n'importe quel texte copié dans le presse-papier.
  • Il construit des sous-corpus à partir de différentes propriétés des unités textuelles
  • Il construit des partitions à partir de ces propriétés
  • Il construit une édition HTML pour chaque unité textuelle du corpus
  • Il calcule le vocabulaire d'ensemble d'un corpus ou la liste des valeurs d'une propriété particulière
  • Il construit des tables lexicales à partir de partitions ou d'index.
  • Il recherche des motifs lexicaux complexes construits à partir des propriétés des unités lexicales et produit des concordances kwic à partir des résultats. Depuis chaque ligne de concordance, vous pouvez accéder à la page correspondante dans l'édition HTML
  • Il calcule des cooccurrents situés autour d'un motif lexical complexe.
  • Il calcule le modèle des spécificités de mots ou d'étiquettes situés à l'intérieur d'une partition ou d'un sous-corpus
  • Il calcule l'analyse factorielle des correspondances de propriétés des mots dans une partition.

Le logiciel est composés de quatre modules :

  • un moteur de recherche plein texte ;
  • un moteur statistique ;
  • un module d'import ;
  • un interpréteur de scripts.

Ce manuel vous présentera chacun des modules au travers des diverses commandes disponibles sur la plateforme.


Lancer TXM

Sous Windows

  1. Dans le menu « Démarrer » / « Tous les programmes » / « TXM » sélectionner « TXM »
  2. Au premier lancement, en fonction du niveau de sécurité de Windows, vous devrez répondre à une alerte de sécurité de la façon suivante :
    1. Dans cette fenêtre : Cliquer sur « Débloquer »<ref name="ftn4">Le processus 'cqpserver' est la base textuelle avec laquelle la plateforme TXM communique grâce à un protocole réseau.</ref>
    2. Dans la fenêtre suivante : Cliquer sur « Débloquer »<ref name="ftn5">Le processus 'Rserve' est le moteur statistique avec lequel la plateforme TXM communique grâce à un protocole réseau.</ref>


Sous Linux

  1. Appeler dans un terminal : « TXM& ». Ou bien avec le raccourci ALT+F2, puis taper « TXM »

Utiliser les fenêtres, les menus, les barres d'outils et les raccourcis clavier

Interface graphique générale

File:Interface Generale.png
Illustration 1 : L'interface générale de TXM


L'interface utilisateur de TXM est divisée en quatre zone différente, comme indiqué dans l'illustration 1 :

  • L'explorateur : les corpus racines, les résultats de commandes, les fichiers de script. En général, les objets gérés par TXM et sur lesquels s'appliquent les commandes ;
  • Les commandes : boutons et menus qui permettent de lancer des actions sur les textes ;
  • Les résultats : fenêtres de sortie ;
  • Les messages : commentaires sur chaque action exécutée.

Toutes les zones sont gérées dans une seule et même fenêtre.

Nous allons d'abord présenter les principales zones pour ensuite expliquer comment organiser cette interface dans la fenêtre.


L'explorateur

File:Fr Objets.png
Illustration 2 : L'explorateur.

L'explorateur permet à l'utilisateur de sélectionner l'objet sur lequel il veut appliquer une commande.

L'explorateur comporte deux vues différentes :

  • La vue « Corpus » : affiche les corpus disponibles pour l'analyse ;
  • La vue « Fichier » : affiche les fichiers trouvés sur le disque dur, avec la possibilité de les éditer.

Chaque vue est accessible directement depuis son onglet attitré.


La vue « Corpus »
File:Fr Corpus.png
Illustration 3 : La vue Corpus.

La vue « Corpus » présente les différents corpus disponibles pour l'analyse dans TXM, ainsi que toutes les icones d'objets construits par TXM durant la session. Les corpus sont créés soit depuis la commande Import, soit depuis la commande Charger du menu « corpus ».


La vue « Corpus » a une organisation hiérarchique. Chaque racine représente un corpus indépendant. Ce corpus est relié à la Base depuis laquelle les textes ont été importés. Tous les éléments descendant des racines résultent de l'application des commandes TXM :

  • Sous-corpus (icone « C », identique à la 'racine' corpus) depuis 'Créer un sous-corpus' ;
  • Partitions (icone « P ») depuis 'Créer une partition' ;
  • Lexique ;
  • Index ;
  • Concordance ;
  • Cooccurrences ;
  • Spécificités ;
  • AFC ;
  • Table lexicale.

Une branche dans l'arbre des résultats sera créée à chaque nouvelle commande appliquée à un objet parent.

Chaque type d'objet peut se voir appliquer un ensemble spécifique de commandes :

  • un objet « Corpus » peut se voir appliquer n'importe quelle commande ;
  • un objet « Sous-Corpus » peut se voir appliquer les mêmes commandes que le corpus, ainsi que la commande « Spécificités ».
  • un objet « Partition » peut se voir appliquer la commande Spécificités, AFC ou Table lexicale.

Double-cliquer sur un objet de résultat réouvre la fenêtre des résultats quand elle a été fermée.


La vue « Fichier » et l'éditeur de texte
File:Fr Fichier.png
Illustration 4 : La vue Fichier.

La vue Fichier présente une arborescence classique des icones des dossiers et des fichiers présents sur le disque dur. Ainsi, il vous est possible d'éditer l'ensemble des textes présents à partir de TXM (que ce soient la version TXT ou XML, les scripts Groovy ou R), afin de corriger un fichier de données sources ou un script par exemple.


Navigation

Le bouton « ^ » ouvre le répertoire parent du répertoire courant.

Dans le champ texte vous pouvez éditer le chemin du répertoire courant et appuyer sur le bouton « OK » ou presser la touche « Entrée » pour rafraîchir la vue.

Le bouton « TXM » renvoie directement au répertoire TXM de l'utilisateur.


Un double-clic sur un répertoire développe son contenu.

Un double-clic sur l'icone d'un fichier ouvre ce dernier dans une nouvelle fenêtre d'éditeur. Un résultat similaire est obtenu via la commande 'Ouvrir un fichier' dans le menu 'Fichier'.


Éditeur de texte

Dans l'éditeur de texte, le texte peut être modifié, enregistré, etc. au moyen des commandes usuelles : sélectionner/copier/coller, chercher&remplacer,enregistrer, etc.

Pour consulter la liste des commandes d'édition, veuillez vous référer à la section 6 'Raccourcis clavier'.


Si le texte est un script Groovy, il peut être exécuté directement à partir du menu contextuel (accessible en clic droit) en sélectionnant 'Exécuter un script Groovy'. Vous pouvez également exécuter une partie plus restreinte du script en la sélectionnant et en lançant 'Exécuter la sélection de texte en tant que script Groovy'. Voir la section 5 'Les scripts de la plateforme TXM' pour plus d'informations sur l'environnement de scripts inclus dans TXM.


Si le texte est un script R, il peut être exécuté directement à partir du menu contextuel (accessible en clic droit) en sélectionnant 'Exécuter un script R'. Vous pouvez également exécuter une partie plus restreinte du script en la sélectionnant et en lançant 'Exécuter la sélection de texte en tant que script R'.

Les commandes

Dans TXM, les commandes principales peuvent être lancées de trois façons différentes :

  1. Quand une icone d'objet est sélectionnée dans la zone des objets, l'utilisateur peut appliquer une commande à cet objet en cliquant sur l'icone de la commande correspondance dans la barre d'outils
    File:Barre Outils.png
    Illustration 5 : La barre d'outils.
    .
  2. Quand une icone d'objet est sélectionnée dans l'explorateur, l'utilisateur peut appliquer une commande à cet objet en sélectionnant l'action correspondante dans les menus « Fichier », « Corpus » et « Outils ».
    1. Le menu « Fichier » où l'on retrouve la commande Exporter :
      File:Menu Fichier.png
      Illustration 6 : Le menu Fichier
    2. Le menu « Corpus » où l'on retrouve les commandes de description et de manipulation de corpus :
      File:Menu Corpus Corpus.png
      Illustration 7 : Le menu Corpus avec, à gauche, les commandes concernant les corpus et, à droite, les commandes concernant les partitions.
      La configuration du menu change en fonction du type d'icone sélectionnée : le premier menu apparaît si un corpus est sélectionné, tandis que le second apparaît quand il s'agit d'une partition.
    3. File:Menu Outils Corpus.png
      Illustration 8 : Le menu Outils, concernant d'une part les corpus et d'autre part les partitions.
      Le menu « Outils » donne accès aux outils textométriques :
  3. L'utilisateur peut enfin ouvrir un menu contextuel en faisant un clic droit sur l'objet qui doit recevoir la commande.
    File:Menu Contextuel.png
    Illustration 9 : Menu contextuel du corpus.

Les différentes commandes sont décrites en détail dans la partie 4 'Utiliser les commandes de TXM.

Les commandes sont également accessibles depuis n'importe quelle fenêtre de résultat, en fonction des types d'objets contenus dans ces résultats.


Les icones

Voici la liste des icones de l'interface graphique de TXM, ainsi que leurs noms respectifs :


icones d'objets
File:Corpus.png Corpus
File:Partition Object.png Partition
File:Edition.png Édition
File:Lexical Table.png Table lexicale
icones des commandes
File:AFC.png AFC
File:Progression.png Progression
File:Concordance.png Concordances
File:Coocurrences.png Coocurrence
File:Informations.png Description
File:Export.png Export
File:Index.png Index
File:Lexicon.png Lexique
File:Partition.png Partition
File:Pref.png Préférences
File:Query.png Requête assistée
File:Specificities.png Spécificités
File:Sub Corpus.png Sous-Corpus
File:Delete.png Supprimer

Les menus principaux

Tous les menus principaux de TXM qui se trouvent dans le coin supérieur gauche de l'interface sont décrits ci-dessous :


Menu « Fichier »
  • Exporter : exporte les résultats d'une commande sous divers formats.
  • Importer : importe un nouveau corpus à partir de ses sources via les modules d'importation disponibles (voir la section « modules d'importation » pour plus de détails sur ces modules) :
    • Presse-papier : importe le texte copié dans le presse-papier.
    • XML-TEI BFM : importe le corpus BFM<ref name="ftn6">http://bfm.ens-lyon.fr</ref> encodé en XML-TEI P5
    • XML-TXM : importe les fichiers au format XML-TXM
    • XML/w : importe les fichiers XML ayant leurs mots en texte brut ou balisés avec un élément <w>
    • Transcriber+CSV : importe les fichiers '.trs' générés par logiciel Transcriber accompagnés d'un fichier 'metadata.csv' de métadonnées de transcriptions au format CSV
    • Hyperbase : importe les fichiers au format ancien du logiciel Hyperbase
    • Alceste : importe les fichiers au format du logiciel Alceste
    • CNR+CSV : importe les fichiers au format CNR (produits par le logiciel Cordial) accompagnés d'un fichier 'metadata.csv' de métadonnées de textes au format CSV
    • TXT+CSV : importe les fichiers de texte brut accompagnés d'un fichier 'metadata.csv' de métadonnées de textes au format CSV.
  • Charger : charge un nouveau corpus depuis son répertoire binaire
  • Ouvrir un fichier : ouvre un fichier dans un nouvel éditeur de texte.
  • Lire un fichier HTML : affiche un fichier dans le navigateur web intégré.
  • Redémarrer : redémarre le moteur de recherche et statistique de TXM.
  • Changer la langue : ouvre une boîte de dialogue qui permet de changer la langue de l'interface de TXM, en fonction de ce qui a été coché dans Préférences > TXM > Utilisateurs > Langue
  • Préférences : réglage de certains paramètres de TXM, en particulier certains seuils de calcul (fréquence minimale, etc.)
  • Quitter : ferme l'application.
Menu « Corpus »
  • Édition : affiche la première page de l'édition du premier texte du corpus
  • Description : affiche les structures et leurs propriétés ainsi que les propriétés des mots du corpus
  • Supprimer : supprime l'objet sélectionné.
  • Créer un sous-corpus : construit un nouveau sous-corpus
  • Créer une partition : construit une nouvelle partition
  • Table lexicale : crée une table lexicale à partir d'une partition ou à partir de l'index d'une partition.
Menu « Outils »
  • Lexique : liste hiérarchique des valeurs d'une propriété de mot sur l'ensemble d'un corpus.
  • Index : liste hiérarchique de combinaisons de valeurs de propriétés de mots pour toutes les occurrences d'une requête CQL donnée
  • Concordance : cherche les occurrences d'un motif exprimé à l'aide d'une requête CQL et affiche les résultats contextualisés sous forme de concordances kwic
  • Progression : affiche l'évolution d'un ou de plusieurs motifs au fil du corpus
  • Cooccurrences : calcule les cooccurrents d'une requête CQL
  • Spécificités : calcule les valeurs de propriétés les plus spécifiques de chaque partie d'une partition
  • AFC : calcule l'analyse factorielle des correspondances d'une partition pour une propriété de mots donnée et affiche le premier plan factoriel.
  • Réglages : ouvre la page des préférences des fonctions. [Dans cette version, le menu est identique à celui accédé par l'entrée Fichier / Préférences]
Menu « Aide »
  • Assistant clavier : affiche tous les raccourcis clavier disponibles
  • Rapports de bugs : affiche la page web « rapport de bug »
  • Demande de fonctionnalités : affiche la page web « demande de fonctionnalités »
  • S'inscrire à la liste de diffusion txm-users : affiche le formulaire d'inscription à la liste de diffusion 'txm-users'
  • Mises à jour : affiche la page d'accueil du wiki de TXM sur Sourceforge
  • Installer TreeTagger : ouvre le tutoriel de TreeTagger
  • À propos : affiche la version de TXM et des informations sur sa licence

Les résultats

File:Fr Resultats.png
Illustration 10 : Les résultats.

Tous les résultats des commandes sont, par défaut, affichés dans la zone des résultats, à droite<ref name="ftn7">Cette zone peut-être déplacée n'importe où, grâce au Window Manager.</ref>.

Pour chaque nouvelle commande, le résultat est affiché dans une nouvelle fenêtre, dont le nom est en rapport avec la commande en question ainsi que ses paramètres. Une nouvelle icone est également ajoutée, selon le même principe, dans la vue « corpus ».

Le nom de la fenêtre est également présent dans l'onglet et dans la légende de l'icone.

Cet onglet permet de gérer l'affichage de la fenêtre comme il sera expliqué dans la partie traitant de la gestion des fenêtres.

Si une fenêtre est fermée par inadvertance pendant la session, elle peut être réouverte en double-cliquant sur l'icone correspondante dans la vue « corpus ».

Les messages

File:Fr Messages.png
Illustration 11 : Les messages.

La ligne de statut affiche les messages courants, comme le nombre de résultats.

La zone de commentaires des commandes donne plus d'informations relatives à celles-ci. Le texte peut être parcouru, sélectionné, copié et collé. Les messages d'erreurs seront également affichés ici.

Le gestionnaire de fenêtres

Avec la gestion des fenêtres, il est facile d'augmenter ou de minimiser la taille, réduire, rouvrir, bouger et redimensionner n'importe quelle fenêtre de l'interface avec l'aide de la souris.

Les changements qui peuvent être effectués sont les suivants :

  • afficher la fenêtre en plein écran : double-cliquer sur l'onglet de la fenêtre ;
  • remettre la fenêtre à sa taille originale : double-cliquer sur l'onglet ;
  • déplacer et redimensionner une fenêtre en « glisser-déposer » : faire glisser l'onglet de la fenêtre à la place choisie. Avant de relâcher le bouton de la souris, une fenêtre fantôme représente la future taille de la fenêtre si on la relâche à cet endroit. Chaque fenêtre d'arrivée possède quatre zones de « dépôt » potentielles en bordure :
    • gauche : permet de séparer verticalement et de laisser la fenêtre sur le côté gauche ;
    • droit : sépare de manière verticale et laisse la fenêtre sur le côté droit ;
    • haut : sépare de manière horizontale et laisse la fenêtre vers le haut ;
    • bas : sépare de manière horizontale et laisse la fenêtre en bas ;
  • réduire la fenêtre : cliquer sur l'icone « réduire » de la fenêtre ;

Chaque fenêtre de l'interface de la zone des objets et des résultats est gérée de façon logique.

La disposition des fenêtres choisie est automatiquement enregistrée par TXM.


Aide

[Le texte de ce manuel sera bientôt intégré à la plateforme TXM sous la forme d'un corpus qui aura sa propre édition.]

Travailler sur les corpus

Introduction rapide

Avec TXM, vous pouvez analyser des données textuelles provenant de diverses sources :

  • la commande « Fichier / Importer / Presse-papier » vous permet d'utiliser la plateforme TXM avec n'importe quel texte copié depuis une autre application : Firefox, Thunderbird, Writer, etc.
  • la commande « Fichier / Importer / TXT+CSV » vous permet d'analyser un ensemble de textes bruts réunis dans un dossier ;
  • la commande « Fichier / Importer / XML/w » vous permet d'analyser un ensemble de textes encodés en XML réunis dans un dossier ;
  • les autres entrées du menu « Fichier / Importer » vous permettent d'analyser des textes d'autres formats comme Hyperbase ou XML TEI P5.

Cette version de la plateforme est livrée accompagnée de deux corpus exemples prêts à l'emploi<ref name="ftn8">Pour leur description complète, vous pouvez lire la section « Exemples de corpus ».</ref> :

  • DISCOURS : un ensemble de discours de présidents de la République française ;
  • QUÊTE : une édition du manuscrit K de la « Quête du Graal », en ancien français.

La section suivante présente toutes les commandesdisponibles afin d'importer un corpusdans la plateforme TXM. La section « modules d'importation » reprend chaque module en détail.

Importer, exporter, charger des corpus

La plateforme TXM peut gérer différents formats de corpus : des textes bruts les plus simples, aux textes plus complexes encodés en XML TEI P5.


  • Importer : Afin de travailler sur un corpus spécifique, la plateforme TXM doit l'avoir préalablement importé à partir du menu « Fichier / Importer ». Chacune des commandes du menu analyse la source du corpus pour construire tous les éléments nécessaires pour que TXM puisse l'interpréter. Cela peut être plus ou moins long, en fonction de la taille du corpus et de la complexité de la commande choisie. Une fois le processus d'import terminé, le corpus est disponible et il le restera pour toutes les prochaines sessions de TXM, jusqu'à sa suppression (cela vous évite de devoir importer le corpus à chaque nouvelle session). Le corpus est alors ajouté à la vue « corpus ». La partie suivante vous exposera les différentes commandes d'import disponibles dans cette version.
  • Exporter : Afin de transférer un corpus déjà importé dans la plateforme TXM vers une autre installation de TXM (sur un ordinateur différent, par exemple), vous pouvez copier le répertoire de TXM qui contient le corpus au format binaire. Vous trouverez ce répertoire à « $HOME<ref name="ftn9">$HOME représente le chemin du répertoire personnel de l'utilisateur.</ref><tt>/TXM/corpora/<nom du corpus> ». Lors du processus d'import, de nombreux fichiers sources intermédiaires encodés en « TEI-TXM »<ref name="ftn10">Le format TEI-TXM est une extension du format XML TEI P5. Son schéma n'est pas encore publié.</ref> ont été générés dans le répertoire « $HOME/TXM/corpora/<nom du corpus>/txm ». Ces fichiers sous-produits du processus d'import peuvent être utilisés comme fichiers d'échange au format XML-TEI.
  • Charger : Si vous avez copié un répertoire corpus au format binaire sur votre machine depuis une autre installation de TXM, vous pouvez le charger dans la plateforme grâce à la commande « Fichier / Charger » . Cette commande est plus rapide que celle d'import. Il suffit de l'exécuter une seule fois pour que le corpus soit installé dans TXM.

Commandes d'import simples

Importer un texte brut

Les commandes Presse-papier et TXT+CSV à partir du menu « Fichier / Importer », permettent d'importer de simples textes bruts, qui ne contiennent aucune balise XML. Chaque mot est segmenté et annoté avec une catégorie morphosyntaxique et un lemme<ref name="ftn11">Par défaut, c'est le logiciel TreeTagger qui est utilisé pour annoter les mots, au moyen d'un modèle linguistique français. Vous devez installer TreeTagger sur votre machine vous-même à cause des restrictions de la licence du logiciel (pour vous aider un tutoriel est disponible dans le menu Aide).</ref> :

  • Utiliser la commande Presse-papier :
    1. Sélectionner puis Copier le texte dans une autre application (OpenOffice Writer, Thunderbird, Firefox, etc.)
    2. Dans TXM, sélectionner la commande « Fichier / Importer / Presse-papier »
    3. Un corpus de nom « ClipboardN » composé du texte contenu dans le presse-papier est ajouté à la vue « Corpus » (N représente le nombre de fois où la commande a été utilisée durant la session.)
  • Utiliser la commande TXT+CSV :
    1. Sélectionner la commande « Fichier / Importer / TXT+CSV »
    1. Dans la fenêtre, sélectionner le répertoire contenant les fichiers textes. Chaque fichier source sera importé comme une unité textuelle indépendante. Cette commande importe tous les fichiers textes dans l'arborescence sélectionnée (dossiers et sous-dossiers). Le fichier doit porter l'extension « .TXT » pour être traité par le processus d'import. Si un fichier 'metadata.csv' est présent dans le répertoire source, son contenu sera analysé pour associer des propriétés à chaque texte importé (voir la section sur les modules d'importation pour plus de détails à ce sujet).
    1. Un corpus portant le même nom que le répertoire sera créé dans la vue « Corpus ».

Importer un texte au format XML

Utiliser la commande XML/w du menu « Fichier / Importer » permet d'importer un fichier XML valide dans TXM. Chaque balise sera considérée comme unité structurelle et les propriétés correspondront aux attributs de la balise. Certains mots peuvent être délimités par une balise <w> et annotés avec des attributs identiques. Toute balise <text> est renommée en <textunit>:

  • Utiliser la commande XML/w :
    1. Sélectionner la commande« Fichier / Importer / XML/w»
    2. Dans la fenêtre, sélectionner le répertoire contenant les sources au format XML. Note : chaque source sera considérée comme une unité textuelle et doit porter l'extension « .XML » pour être traitée durant l'import. Un corpus sera créé dans la vue « Corpus ». Son nom est identique à celui du répertoire.
    3. Un corpus sera créé dans la vue « Corpus ». Son nom est identique à celui du répertoire.

Le processus d'import avancé

La plateforme TXM est conçue pour importer des corpus provenant de sources diverses.

Afin de proposer des modules spécifiques, plusieurs entités logicielles ont été définies pour définir le processus d'import<ref name="ftn12">Voir la documentation « Import Environment 0.4.7 (FR) » pour une introduction à tous les concepts disponibles.</ref> :

  • une unité documentaire (ou document) représente un corps de texte pour lequel toutes les métadonnées ont la même valeur ;
  • les metadonnées d'une unité documentaire sont un ensemble de propriétés ayant des valeurs élémentaires (titre, date, auteur, domaine...) ;
  • une unité documentaire possède une arborescence d'unités structurelles ;
  • chaque nœud de cette arborescence peut comporter un nombre illimité de propriétés avec des valeurs simples ;
  • les feuilles d'une unité documentaire correspondent aux unités lexicales (les mots du texte) ;
  • un outil de TAL peut être appliqué à n'importe quelle source durant le processus d'import (comme un étiqueteur morphosyntaxique) ;
  • chaque unité documentaire possède une ou plusieurs éditions, faites d'une succession de pages HTML par exemple.

Un processus d'import, ou module d'importation, consiste à créer ces entités au sein de la plateforme à partir des informations trouvées au sein des sources des corpus.

Les informations nécessaires peuvent se trouver :

  • dans un ou plusieurs fichiers ;
  • dans des formats différents.

Le processus d'import de corpus est implémenté grâce à un ou plusieurs scripts Groovy.

N'importe quel script Groovy, à l'image de n'importe quel module, peut être ajouté à la plateforme TXM en cours d'exécution.

Un module d'importation prend en entrée le chemin du répertoire source du corpus.

Son résultat est indépendant du module, un nouvel objet racine représentant le corpus est ajouté à la vue « corpus » afin de pouvoir lui appliquer des commandes TXM. Un nouveau répertoire interne à TXM est créé, au sein de l'espace de travail courant<ref name="ftn13">Un seul espace de travail est disponible dans cette version du logiciel.</ref> : « $HOME/TXM/corpora/<nom du corpus> ». Il contient le corpus au format binaire.

Les modules d'importation reçoivent leurs paramètres à partir d'une boite de dialogue (voir l'illustration 12) :


File:Importer.png
Illustration 12: Fenêtre des paramètres d'import.

Le paramètre « Répertoire source » est obligatoire.

Si nécessaire, vous pouvez préciser l'encodage des caractères utilisé par les sources : l'encodage par défaut de la machine « system encoding », ou cocher « Deviner »<ref name="ftn14">Cette fonction n'est pas disponible dans la version actuelle du logiciel.</ref> (puis appuyer sur le bouton « ?? » pour faire deviner l'encodage par le logiciel) ou bien sélectionner directement l'encodage souhaité. Vous pouvez faire de même pour le réglage de la langue principale des sources.

Exemple de module d'importation : Importer avec CNR+CSV

Le module CNR-CSV lit les sources d'un corpus aux formats suivants :

  • chaque unité documentaire doit être contenue dans un seul fichier ;
  • le format de l'unité documentaire est « CNR » : c'est le format de sortie du logiciel « Cordial » qui est un étiqueteur et lemmatiseur commercial français. Ce format est proche du format CSV (un mot par ligne, suivi de ses propriétés séparées par des tabulations) ;
  • l'ensemble des métadonnées est stocké dans un document Excel exporté en format CSV. Toutes les métadonnées d'une unité documentaire sont sur la même ligne. Chaque métadonnée est définie dans une colonne. ;
  • la seule unité structurelle reconnue et encodée est la phrase qui est fournie par l'étiqueteur Cordial ;
  • les propriétés des unités lexicales sont décodées à partir des colonnes du fichier CNR (forme graphique du mot, propriété 'word', lemme, propriété 'lem', et partie du discours, propriété 'pos').

Ce module peut être appliqué aux sources du corpus exemple DISCOURS.


Les résultats du module sont alors :

  • un nouveau corpus racine ajouté à la vue « corpus », auquel toutes les commandes de TXM peuvent s'appliquer ;
  • deux éditions HTML différentes par unité documentaire : une paginée tous les 200 mots et une autre d'une seule page. Chaque mot de ces éditions peut être survolé afin d'afficher temporairement ses propriétés ;
  • les index du moteur de recherche ont été compilés.

Dans la section suivante vous trouverez une description synthétique des différents modules d'importation mais aussi les informations recommandées à renseigner dans la boîte de dialogue (illustration 12).

Autres modules d'importation

La plateforme TXM peut importer d'autres formats grâce à ces différents modules :


Nom Unité documentaire Format principal Métadonnées Unités structurelles Propriétés lexicales Éditions Options recommandées
CNR+CSV Un texte par fichier


Cordial CNR Étiquettes Multext Fichier « metadata.csv » s (phrase) word, pos, func, lemma (FR) Monopage, paginée tous les 200 mots Encodage du système
Hyperbase Plusieurs textes (en un seul fichier) Hyperbase (ancien format) Aucune s word, pos, lemma (FR) Individuelle, paginée tous les 200 mots Encodage du système
Alceste Plusieurs textes (en un seul fichier) Alceste Analytiques s word, pos, lemma (FR) Individuelle, paginée tous les 200 mots Encodage du système
Transcriber+CSV Un seul fichier par transcription Transcriber Fichier « metadata.csv » Les tours de paroles, sections, prises de parole word, pos, lemma,

spk,

event

Paginée tous les 200 mots après un tour de parole
XML-TEI BFM Un seul texte par fichier XML TEI P5 Bibliographiques s et d'autres

unités BFM

word, pos (AFR) Paginée par <pb/>
XML-TXM Un seul texte par fichier XML TXM Aucune (devraient déjà être encodées au sein de la source) Toutes balises XML Fonction de la source Individuelle, paginée tous les 200 mots
TXT+CSV Un seul texte par fichier TXT : texte brut Fichier « metadata.csv » Aucune word, pos, lemma Individuelle, paginée tous les 200 mots Encodage du système
XML/w Un seul texte par fichier XML Aucune (devraient déjà être encodées au sein de la source) Balises Toutes balises XML word, pos, lemma Individuelle, paginée tous les 200 mots

Sauvegarde et Exportation de résultats

Chaque résultat d'une commande TXM (liste, tableau, graphique) peut être exporté dans un fichier. Ce fichier est disponible au moins au format CSV pour les tableaux et au format SVG pour les graphiques. La commande d'export est accessible depuis le menu contextuel, en cliquant sur l'icone de résultat dans la vue « corpus » ou avec le bouton « export » File:Export.png dans la barre d'outils si l'objet est sélectionné, auparavant.

Les corpus exemples

Cette version de la plateforme TXM comporte quelques corpus exemples, encodés dans des formats représentatifs de ce que peut traiter la plateforme. Ils sont tous diffusés sous une licence BY-NC-SA<ref name="ftn15">Obligation de citation, pas d'usage commercial, diffuser selon la même licence.</ref> Creative Commons.

Le corpus DISCOURS

Le corpus « DISCOURS » a été édité par Damon Mayaffre du laboratoire BCL (UMR CNRS) à Nice. Il est composé de 29 transcriptions de discours organisés de la façon suivante :

  • deux présidents français : Pompidou (5 discours) et de Gaulle (24) ;
  • sur une période allant de 1958 à 1971 ;
  • de type soit : « Allocution radiotélévisée » (14), « Entretien radiotélévisé » (3), « Conférence de presse » (11)

Chaque discours a été étiqueté avec l'étiqueteur Cordial en utilisant les paramètres d'Hyperbase. Le jeu d'étiquettes correspond au standard Multext (il est décrit dans le manuel de Weblex à l'adresse http://weblex.ens-lsh.fr/doc/weblex/cordialtagset.html).


L'import du corpus dans la plateforme TXM encode les éléments suivants :

  • unités structurelles : discours / s (phrase)
    • chaque unité de « discours » comporte les propriétés suivantes :
      • date
      • loc : le nom du président
      • type
    • chaque unité lexicale comporte les propriétés suivantes :
      • word : forme graphique du mot ;
      • pos : l'étiquette morphosyntaxique de Cordial ;
      • lem : le lemme de Cordial ;
      • func : la fonction syntaxique de Cordial ;
      • sent : le numéro de la phrase.

Le corpus QUÊTE

Le corpus « QUÊTE » a été édité par Christiane Marchello-Nizia et Alexei Lavrentiev, du laboratoire ICAR (UMR CNRS), à Lyon. Il est basé sur l'édition critique du roman de la « Queste del saint Graal », qui provient du manuscrit K du texte (Lyon, Bibliothèque municipale, Palais des arts 77).

Chaque mot du texte est étiqueté avec des étiquettes morphosyntaxiques du jeu CATTEX2009 (étiquettes pour l'ancien français, dont la définition est accessible à l'adresse http://bfm.ens-lyon.fr/article.php3?id_article=176).

L'importation de ce corpus dans la plateforme TXM encode les éléments suivants :

  • unités structurelles : p (paragraphe) / q (discours direct) / s (phrase)
    • les unités p et s sont numérotées avec l'attribut « n »
  • chaque unité lexicale porte les attributs suivants :
    • word : la forme graphique ;
    • pos : l'étiquette morphosyntaxique ;
    • col : le numéro de la colonne dans le manuscrit ;
    • line : le numéro de la ligne dans la colonne.

Utiliser les commandes de TXM

Description de corpus

Cette commande calcule une synthèse complète de la structure du corpus sélectionné : les éléments structurels, les unités lexicales et leurs propriétés :

  • nombre de mots : le nombre total d'unités lexicales du corpus
    • nombre de propriétés de mot : le nombre d'annotations différentes pour chaque mot
    • pour chaque type d'annotation : on donne le nom de l'annotation et le nombre total de valeurs différentes pour cette annotation, ainsi que quelques exemples de ces valeurs.
  • nombre d'unités structurelles : le nombre des différentes unités structurelles du corpus
    • pour chaque type d'unité structurelle : le nom de la structure et la liste de ses attributs avec leurs valeurs
      • pour chaque attribut : les n premiers éléments de la liste des valeurs

L'illustration 13 montre un exemple de description du corpus DISCOURS.


File:Fr Description Discours.png
Illustration 13 : Description du corpus DISCOURS

Édition

Corpus

Cette commande affiche la première page de l'édition HTML du corpus sélectionné. Le préambule de l'édition, situé en haut de la première page, affiche toutes les métadonnées du texte.

Dans cette édition, on peut naviguer :

  • vers la page suivante '[>]' ou la page précédente '[<]' ;
  • vers la fin du texte '[>|]' ou le début du texte '[|<]' ;
  • vers le texte suivant dans le corpus '[>>]' ou le texte précédent '[<<]'.

Double-cliquer sur une ligne de concordance (voir ci-dessous) vous mène directement à la page concernée de l'édition, où le pivot de la concordance sera surligné en rouge (s'il y a plusieurs occurrences de la requête dans la même page de concordance, elles seront surlignées en rouge clair).


L'illustration 14 présente la première page de l'édition du premier texte du corpus DISCOURS :

  • dans cet exemple, les métadonnées sont : id, file, loc, type, date
    • loc : nom du locuteur
    • type : type de discours
    • date
  • chaque mot peut être survolé avec la souris afin d'afficher ses propriétés dans une infobulle : pos, func, lemma
    • dans cette exemple, la souris est placée sur le mot « équilibre », l'infobulle affiche :
      • pos = « Ncms » : nom commun nom masculin singulier (étiquetage Multext) ;
      • func = « - » : aucune
      • lemma = « équilibre »
File:Fr Edition Discours.png
Illustration 14 : Édition du corpus DISCOURS

Partition

La commande Édition pour les partitions permet de naviguer à l'intérieur des parties de la partition sélectionnée dans l'explorateur (voir l'illustration 15).

File:Fr Partition Choix.png
Illustration 15: Fenêtre de navigation entre l'édition des différentes parties d'une partition
Le système de navigation est ensuite similaire à celui disponible pour un corpus.

Construire un sous-corpus

Cette commande construit un sous-corpus du corpus sélectionné. Le sous-corpus est représenté comme un descendant du corpus dans la vue « corpus ».

Cette fonction ouvre une boîte de dialogue de nom « Créer un sous-corpus ». Elle est composée de trois onglets : ils permettent de construire des sous-corpus en mode simple, en mode assisté ou en mode avancé.

Construire un sous-corpus : mode « simple »

L'illustration 16 affiche la boîte de dialogue du mode simple de la fonction « construire un sous-corpus ».

Ici, on doit :

  • entrer le nom du nouveau corpus : il sera affiché dans la vue « corpus »
  • sélectionner une unité structurelle
  • sélectionner la propriété de cette unité, ainsi que sa valeur
File:Mode Simple.png
Illustration 16 : Mode « simple » : construction d'un sous-corpus de tous les discours de De Gaulle.
Le nouveau corpus contiendra toutes les unités lexicales se trouvant dans les unités structurelles ainsi désignées.

Construire un sous-corpus : mode « assisté »

L'illustration 17 présente le formulaire de création de sous-corpus en mode « assisté ».

Dans cette fenêtre, on doit :

  • Saisir le nom du sous-corpus
  • Cocher « tous les critères » pour considérer tous les critères de recherche saisis ou cocher « certains critères » pour ne considérer que certains d'entre eux.
  • Sélectionner la structure du sous-corpus qui sera utilisée
  • Saisir des critères de sélection :
    • ajouter un critère avec le bouton « + »
    • supprimer un critère avec le bouton « - »
    • choisir la propriété utilisée par le critère :
      • qui contient ou qui ne contient pas l'attribut sélectionné
  • Rafraîchir la requête de création du sous-corpus
  • Cliquer sur « OK » pour créer le sous-corpus
File:Mode Assiste.png
Illustration 17: Mode « assisté » : création d'un sous-corpus sur les textes en vers du 12è siècle.


Construire un sous-corpus : mode « avancé »

L'illustration 18 présente la boîte de dialogue du mode avancé<ref name="ftn16">L'expression régulière complète est : /region[text,a]:: a.text_loc="Pompidou"& a.text_date=".*1970"</ref>.

Ici on doit :

  • entrer le nom du nouveau corpus qui apparaîtra dans la vue corpus
  • écrire une requête CQL qui sélectionnera les unités lexicales du nouveau sous-corpus

Le sous-corpus contiendra toutes les unités lexicales sélectionnées par la requête.

File:Mode Avance.png
Illustration 18 : Mode « avancé » : construire un sous-corpus des discours de Pompidou datant de 1970.

Construire une partition

Cette commande construit une partition à partir du corpus sélectionné. La nouvelle partition apparaît comme un descendant dans la vue « corpus ».

Cette fonction ouvre une boîte de dialogue intitulée « Créer une partition ». Elle est composée de trois onglets : mode simple, assisté et avancé.

Construire une partition : mode « simple »

L'illustration 19 montre la fenêtre du mode simple.

Ici on doit :

  • entrer le nom de la nouvelle partition qui apparaîtra dans la vue « corpus »
  • sélectionner une unité structurelle
  • sélectionner la propriété de l'unité structurelle sélectionnée.

Les parties de la nouvelle partition seront construites, en tant que sous-corpus, en fonction des différentes valeurs de l'unité structurelle sélectionnée. On ne peut pas accéder aux parties individuellement mais elles sont accessibles via l'objet partition et les commandes qui permettent de mettre ces parties en contraste : Spécificités et AFC.


File:Mode Simple.png
Illustration 19 : Mode simple : construire une partition sur chaque date d'un discours.

Construire une partition : mode « assisté »

Le mode assisté permet de définir plus finement les parties de la partition en regroupant les unités lexicales de plusieurs unités structurelles.


L'illustration 20 présente la fenêtre de création de partition en mode assisté.

Ici, il faut :

  • entrer le nom de la partition qui apparaîtra dans la vue « corpus »
  • sélectionner une unité de structure, ainsi qu'une de ses propriétés
  • sélectionner les valeurs qui constitueront une partie de la partition
  • cliquer sur « nouvelle partie » pour créer une partie supplémentaire
    • entrer le titre de la partie dans le champ correspondant
    • cliquer sur « affecter » afin de basculer les valeurs précédemment sélectionnées dans cette partie
    • on peut cliquer sur « supprimer » afin d'enlever certaines valeurs à cette partie
    • on peut cliquer sur la croix pour supprimer la partie
    • on peut cliquer sur « Supp. toutes les parties » afin de supprimer en une seule fois toutes les parties d'un coup
  • refaire la 4e étape jusqu'à ce qu'il n'y ait plus de valeur de propriété disponible.
  • cliquer sur « OK » crée la partition ainsi paramétrée.
File:Mode Assiste.png
Illustration 20 : Mode assisté : construire une partition sur les dates du corpus DISCOURS.


Construire une partition : mode « avancé »

L'illustration 21 présente la fenêtre de création de partition en mode avancé<ref name="ftn17">Les requêtes complètes sont :

- /region[text,a]:: a.text_loc="Pompidou"& a.text_date=".*1970"

- /region[text,a]:: a.text_loc="de Gaulle"& a.text_date=".*1970"</ref>.

Ici on doit :

  • entrer le nom du nouveau corpus qui apparaîtra dans la vue « corpus »
  • écrire autant de requêtes CQL qui sélectionnent chacune les unité lexicales qui composent chaque partie
    • utiliser le bouton '+' pour ajouter une nouvelle partie et saisir la requête correspondante
    • utiliser le bouton '-' pour supprimer une partie

La nouvelle partition sera composée de toutes les parties définies, chacune contenant les unités lexicales sélectionnées par la requête correspondante.


Attention, la bonne couverture du corpus total par l'union des différentes parties est de la responsabilité de l'utilisateur.


File:Mode Avance.png
Illustration 21 : Construire une partition sur chaque président pour l'année 1970.

Construire une concordance

Cette commande construit une concordance kwic à partir des résultats de recherche correspondant à une requête CQL sur un corpus ou un sous-corpus sélectionné.


La boîte de dialogue de recherche est organisée de la façon suivante :

  • un champ pour saisir la requête CQL ;
  • un bouton pour accéder à l'historique des requêtes ;
  • un bouton pour accéder à l'éditeur des propriétés affichées des unités lexicales afin de sélectionner quelles propriétés seront affichées dans la colonne des pivots ;
  • le bouton « chercher » pour lancer le calcul.
File:Concordance Fenetre.png
Illustration 22 : La fenêtre de concordance

Requêtes

Le moteur de recherche vous permet d'exprimer dans le langage formel CQL (voir ci-dessous la section 5 « la syntaxe du moteur de recherche »).


TXM utilise une syntaxe simplifiée basée sur le langage CQL, afin d'écrire facilement des requêtes. Par exemple, pour rechercher « je », vous n'avez qu'à écrire « je » dans le champ « Requête ».


Pour des recherches plus complexes, vous pouvez utiliser toute la variété du langage CQL. Par exemple, pour chercher :

le mot « je » suivi d'un verbe

dans le corpus DISCOURS, vous pouvez saisir la requête suivante :

"je" [pos="V.*"]

Cette requête peut être décomposée ainsi :

  • "je" désigne le mot « je » ;
  • [pos="V.*"] indique que le verbe sera sur la droite du mot « je » :
    • les crochets [...] indiquent qu'il ne doit y avoir qu'une seule unité lexicale à la droite du mot « je » ;
    • pos="V.*" indique que l'occurrence doit porter l'étiquette morphosyntaxique « V.* ». Dans le corpus DISCOURS, étiqueté par Cordial et le jeu d'étiquettes Multext, cette requête sélectionne tous les verbes (dans ce corpus, tous les verbes ont une étiquette qui commence par « V »).

Il est également possible de lancer une requête assistée. En cliquant sur l'icone « Assistant de Requête » File:Query.png une fenêtre permet de construire plus facilement des requêtes CQL :


File:Assistant Requete.png
Illustration 23 : Construction d'une requête sur le mot "je" suivi d'un verbe.
  • Le bouton « mot supplémentaire » permet d'ajouter un mot à la requête.
  • Le premier menu déroulant permet de sélectionner une propriété de mot
  • Le second menu déroulant permet de sélectionner un champ de recherche plus ou moins restreint
  • Le dernier champ permet de saisir un mot ou quelques lettres.
  • Le menu déroulant situé entre les expressions de mots permet de préciser si les mots sont consécutifs ou non.

Si vous validez votre requête avec « OK », elle apparaîtra sous sa forme CQL dans le champ « requête ».


Pour lancer la recherche, cliquer sur le bouton « chercher ».

Avant d'afficher les résultats de la concordance, la zone de commentaire ainsi que la ligne de statut vous donneront le nombre total de résultats.

L'illustration 24 montre les résultats :

  • il y a 206 occurrences ;
  • les résultats affichés vont de 22 à 41 (il s'agit de la deuxième page) ;
  • la colonne « pivot » recense les deux mots ciblés par la requête « je » suivi d'un verbe ;
  • les concordances sont triées par défaut alphabétiquement dans la colonne « pivot » ;
  • la référence prend la forme ici du nom du locuteur ;
  • on peut ouvrir le menu contextuel en cliquant à droite sur une concordance :
    • Définir le patron des références : régler les informations de la colonne référence ;
    • Définir la propriété de tri : définir la propriété de mot qui déterminera l'ordre de tri initial ;
    • Tri multiple : définir plusieurs clés de tri ;
    • Définir la taille des contextes : choisir le nombre maximum de mots dans les contextes de gauche et de droite ;
    • Lignes par page : définir le nombre de résultats dans la page
    • Sélectionner les propriétés : choisir les propriétés de mots qui seront affichées dans chaque colonne.
File:Fr Concordance Discours Je.png
Illustration 24 : Concordance du mot « je » suivi d'un verbe dans le corpus DISCOURS.
=== Navigation ===

Une concordance commence par afficher la première page des résultats.

Les boutons de navigation permettent de visionner tous les résultats :

  • « [|<] » : retour à la première page ;
  • « [<] » : retour à la page précédente ;
  • « [>] » : aller à la page suivante ;
  • « [>|] » : aller à la dernière page.
  • « [Cacher/Montrer les paramètres] » : cache ou affiche les paramètres de la concordance pour plus de confort de lecture.

Le nombre de lignes par page par défaut peut être réglé via le menu « Fichier / Préférences », puis la fenêtre « TXM>Utilisateur>concordances ». Pour un réglage uniquement dans la fenêtre courante de la concordance, il faut passer par le menu contextuel du tableau de la concordance.

Retour au texte

En double-cliquant sur une ligne de la concordance, on retourne à la page de l'édition qui contient le pivot.

Au sein de la page, le pivot est surligné en rouge, tandis que les autres pivots de la concordance se trouvant dans la même page sont surlignés en rouge clair.

Tri

Vous pouvez trier les concordances selon chaque colonne : « Références », « Contexte gauche », « Pivot » et « Contexte droit » en cliquant sur leurs entêtes. Vous pouvez changer l'ordre de classement en cliquant une nouvelle fois sur l'entête. Vous remarquerez qu'alors les clés de tri changent en fonction de l'entête sélectionnée. Le tri par défaut se fait selon le pivot. Toutefois vous avez la possibilité de changer la propriété de tri en cliquant sur « Définir la propriété de tri » dans le menu contextuel. Enfin vous pouvez effectuer un tri multiple en changeant chaque clé de tri.

Propriétés de mot

Chaque colonne contenant une propriété de mot peut être personnalisée de deux façons différentes :

  • les propriétés affichées pour le pivot peuvent être réglées en appuyant sur le bouton « éditer », situé à côté du champ requête ;
  • sur une concordance, sélectionner dans le menu contextuel « Définir les propriétés ».

Références

Vous pouvez choisir quelles informations seront affichées dans la colonne « référence » (sur la gauche dans chaque ligne de concordance).

Dans le menu contextuel, sélectionner « Définir le patron des références ». Une fenêtre s'ouvre, comme vous pouvez le constater dans l'illustration 25 :

File:Fr References.png
Illustration 25 : Boîte de dialogue « patron des références »

Toutes les propriétés d'unités de structure et d'unités lexicales se trouvent dans la liste de gauche.

Par exemple, text:loc représente la propriété « loc » de la structure « text ».

Pour choisir une propriété, sélectionnez-là puis cliquez sur le bouton « > » pour la faire glisser dans le champ de droite. La liste qui se formera sur la droite correspondra à l'affichage dans la colonne référence.

Afin de retirer une propriété, sélectionnez-là dans la liste de droite et appuyez sur le bouton « < » afin de la faire basculer dans la liste de gauche.

Afin de changer l'ordre des propriétés dans la liste de droite, utiliser les boutons monter « ^ » et descendre « v ».


Export

Les concordances peuvent être exportées au format CSV : sélectionnez l'icone de la concordance dans la vue « corpus » et cliquez sur l'icone File:Export.png dans la barre d'outils ou sur la commande Export dans le menu contextuel.


Cooccurrences

Cette commande construit le tableau des différents cooccurrents entourant une requête CQL. L'indice de cooccurrence<ref name="ftn18">P. Lafon, “Sur la variabilité de la fréquence des formes dans un corpus,” Mots, no. 1 (1980): 127-165.</ref> permet de le trier selon leur probabilité de rencontre.

L'appel de la commande ouvre une boîte de dialogue telle que dans l'illustration 26.


File:Coocurrence j.png
Illustration 26 : Cooccurrents des mots commençant par "j".

Dans cette boîte de dialogue, on peut :


  • Saisir une expression CQL dans le champ de requête (on peut aussi utiliser l'assistant de requête).
  • Éditer les propriétés souhaitées des cooccurrents
  • Modifier les seuils de fréquence, de co-fréquence et d'indice pour élaguer les résultats. La co-fréquence est le nombre de rencontres entre les cooccurrents et les occurrences de la requête
  • Choisir une taille de contexte : si on coche « structure » on peut définir la taille du contexte à gauche et à droite du pivot
  • Trier la recherche en cliquant sur l'entête d'une colonne.

Afin de lancer la recherche, cliquer sur « Calculer ». Votre requête CQL définit un pivot, comme dans les concordances.


Lexique et Index

Les listes de valeurs de propriétés de mots peuvent être obtenues via deux commandes complémentaires :

  • Lexique : calcule la liste hiérarchique des valeurs d'une propriété de mot donnée ;
  • Index : calcule la liste hiérarchique des combinaisons de valeurs de propriétés données d'occurrences sélectionnées par une requête CQL.

Lexique

La commande Lexique File:Lexicon.png calcule la liste des fréquences de valeurs de propriétés lexicales (par exemple : la forme du mot, les étiquettes morphosyntaxiques, les lemmes, etc) d'un corpus ou d'un sous-corpus.


Vous devez d'abord choisir la propriété de mot :

File:Lexique Fenetre.png
Illustration 27 : Fenêtre « Lexique »

Le résultat se présente sous forme d'un tableau :


File:Lexique Resultats Discours.png
Illustration 28 : liste de la forme graphique des mots dans le corpus DISCOURS.


Vous pouvez trier chaque colonne en cliquant sur l'entête. Un nouveau clic inverse l'ordre de tri.

Vous pouvez exporter ce tableau au format CSV.

Index

La commande Index File:Index.png calcule la liste des fréquences de toutes les combinaisons de valeurs de propriétés de mots des occurrences sélectionnées par une requête CQL, pour un corpus ou une partition donnée.


File:Index Fenetre.png
Illustration 29 : Fenêtre de la fonction Index.

Combinaison de propriétés

Sélectionner dans un premier temps l'ensemble des propriétés à combiner avec le bouton « Éditer »<ref name="ftn19">Dans l'exemple, la propriété 'word' désigne la forme graphique du mot.</ref> :


File:Proprietes.png
Illustration 30 : Fenêtre d'édition des propriétés de mot.

Sélectionner dans la liste de gauche les propriétés que l'on souhaite ajouter. Faîtes les basculer grâce aux flèches qui permettent d'ajouter ou de retirer les propriétés :

  • « > » : permet d'ajouter une propriété (on peut aussi double-cliquer sur une propriété dans la liste de gauche) ;
  • « < » : permet de retirer une propriété (on peut également double-cliquer sur une propriété dans la liste de droite) ;
  • « ^ » : permet de modifier l'ordre d'une propriété vers le haut (la propriété qui se trouve tout en haut sera celle qui s'affichera en premier) ;
  • « v » : permet de modifier l'ordre d'une propriété vers le bas.

Requêtes

Vous pouvez utiliser les mêmes requêtes CQL que pour les concordances (ainsi que l'assistant de requêtes).

File:Requete Index Discours.png
Illustration 31 : Index formé sur les propriétés 'word' et 'pos' pour le lemme « pouvoir », dans le corpus DISCOURS.

Seuils

Vous pouvez élaguer les résultats avec :

  • Fmin : fréquence minimum à partir de laquelle on ajoute un résultat à la liste ;
  • Fmax : fréquence maximum ;
  • Vmax : nombre maximum de résultats à afficher. Par exemple si Vmax = 100, on obtiendra les 100 premières valeurs triées par la fréquence ;
  • Page size : nombre de résultats par page.

Navigation

L'index affiche d'abord la première page de résultats.

Vous pouvez naviguer dans l'ensemble des résultats avec les boutons suivants :

  • « [|<] » : retour à la première page des résultats ;
  • « [<] » : retour à la page précédente ;
  • « [>] » : aller à la page suivante ;
  • « [>|] » : aller à la dernière page.

Hypertexte

La commande Index est liée à la commande Concordance et la commande Progression.

Vous pouvez sélectionner certaines lignes de l'Index avec la souris<ref name="ftn20">Shift-clic permet de sélectionner des lignes contiguës. Ctrl-clic permet de sélectionner plusieurs lignes non contiguës.</ref>, puis par l'intermédiaire du menu contextuel, choisir la fonction :

  • « Envoyer vers les concordances » : une requête CQL correspondante sera créée afin de construire la concordance.
  • « Envoyer vers progression » : autant de requêtes que de champs sélectionnés seront créées pour construire une progression.

Spécificités

La commande Spécificités File:Specificities.png utilise un modèle statistique<ref name="ftn21">Ibid. <http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1980_num_1_1_1008>. [d'abord présenté à la conférence « Association for Literary and Linguistic Computing », à Oxford les 4 et 5 Avril 1976]</ref> afin de calculer les valeurs d'une propriété (word 'form', lemma, pos...) dont le nombre d'apparition paraît le plus en surnombre (ou en sous-effectif) dans chaque partie, ou dans un sous-corpus (en relation avec son corpus parent) .

Spécificités sur une partition

Une partition est associée à une unité structurelle ainsi qu'à une propriété qui définit le partitionnement.


La commande Spécificités ouvre la fenêtre suivante :

File:Partition Specificite Fenetre.png
Illustration 32 : Fenêtre des spécificités d'une partition.

Les paramètres sont les suivants :

  • Propriété de mot : propriété sur laquelle la commande sera appliquée ;
  • Focus : permet de filtrer les valeurs de cette propriété au moyen d'une expression régulière (ce n'est pas une sélection d'occurrences au moyen d'une expression CQL);
    • le bouton « + » permet d'ajouter autant de filtres de valeurs que nécessaire ;
    • si aucun filtre n'est appliqué, toutes les valeurs seront affichées. Si vous choisissez la propriété « word », toutes les formes de mot seront affichées ;
  • Focus de partie : permet de filtrer par le biais des valeurs de propriétés d'unités structurelles les parties qui seront affichées. Le bouton « v » permet d'accéder à toutes les valeurs disponibles ;
    • de même, vous pouvez ajouter des filtres au moyen du bouton « + » ;
    • si vous ne choisissez aucun filtre, toutes les parties seront prises en compte.

Les résultats sont présentés dans un tableau :

  • lignes : les valeurs de la propriété de mot ;
  • colonnes : les valeurs quantitatives par partie ;
    • la première colonne donne la fréquence totale des valeurs de la propriété de mot dans le corpus. 'T' représente le nombre total d'occurrences dans le corpus ;
    • les autres colonnes donnent le logarithme en base 10 de l'indice de spécificité de la valeur de la propriété de mot sur la partie en question. 't' représente le total des valeurs dans cette partie.

L'illustration 33 affiche les résultats de la commande Spécificités qui porte sur tous les mots ayant la forme « j.* » (mot commençant par « j ») pour la partition sur le type de discours du corpus DISCOURS. La tableau est trié par la colonne « Allocution radiotélévisée », de manière descendante.


File:Partition Specificite Discours.png
Illustration 33 : Spécificités du mot « j.* » dans la partition ayant pour structure « type », du corpus DISCOURS.

Tri

Vous pouvez trier le tableau en cliquant sur l'entête des colonnes. Cliquer une seconde fois pour inverser l'ordre de tri.

Quand une colonne d'indice est triée de façon décroissante, les premiers mots sont considérés comme étant sur-utilisés par rapport à l'ensemble du corpus, les derniers mots sont considérés comme sous-utilisés et les mots intermédiaires – autour de l'indice 0 – sont considérés comme banals (l'indice n'est donc pas pertinent pour eux).

Graphiques

Les résultats peuvent être visualisés sous forme graphique.

File:Graphic Specificite Discours.png
Illustration 34 : Graphique des spécificités des mots « je », « jeune »... des divers types de discours dans le corpus DISCOURS.
Vous pouvez sélectionner certaines lignes au moyen de la souris<ref name="ftn22">Shift-clic sélectionne plusieurs lignes contiguës. Ctrl-clic sélectionne plusieurs lignes non contiguës.</ref>, puis via le menu contextuel, choisir la fonction « Calculer le graphique des lignes sélectionnées » :

Dans le graphique :

  • chaque partie est représentée par un ensemble de barres contiguës, classées dans le même ordre que dans le tableau ;
  • chaque propriété de mot (forme graphique du mot dans cet exemple) sera représentée par une barre de la même couleur dans chaque partie ;
  • les couleurs sont légendées dans le coin supérieur droit du graphique.

Manipuler le graphique

Vous pouvez interagir avec le graphique :

  • faire glisser : maintenir Shift + clic gauche et déplacer le curseur
  • zoom avant : maintenir Shift + clic droit et déplacer le curseur
  • zoom par sélection : Ctrl + clic gauche et déplacer le curseur
  • rotation : Ctrl + clic droit et déplacer le curseur
  • revenir à la vue initiale : F5

Spécificités d'un sous-corpus

La commande Spécificités sur un sous-corpus vous permet de choisir une propriété de mot sur laquelle seront calculés les résultats. Une fenêtre similaire à la commande Lexique s'ouvre, comme on peut le voir sur l'illustration 27.

Dans le tableau des résultats, une colonne avec la fréquence totale de cette propriété de mot dans le corpus s'affiche, ainsi que :

  • une liste de résultats (appelée « nom du corpus-nom de la partie ») dans le corpus complémentaire du sous-corpus (par rapport au corpus principal) ;
  • une liste de résultats (portant le nom de la partie) dans le sous corpus par rapport au corpus principal.
File:SousCorpus Specificite Discours.png
Illustration 35 : Résultat des spécificités de la forme graphique des mots de la partie « Allocution radiotélévisée » dans le corpus DISCOURS.

Progression

Une progression affiche l'évolution d'un ou de plusieurs motifs au fil du corpus. Cette commande est lancée sur un corpus. Elle produit au choix un graphique cumulatif ou de densité et superpose la position des structures du corpus à la demande. À son lancement cette commande ouvre une boîte de dialogue de paramètres, telle qu'à l'illustration 36 :* On doit d'abord y choisir le type de progression : cumulatif ou densité

  • On peut choisir une unité structurelle et une de ses propriétés : chaque limite d'unité pour chaque valeur de la propriété sera représentée sur le graphique sous la forme d'une barre verticale.
  • On peut filtrer les valeurs de la propriété au moyen d'une expression régulière (pour limiter le nombre de barres par exemple)
  • Ensuite, on peut ajouter une ou plusieurs requêtes de motif à afficher (éventuellement avec l'aide de l'assistant) au moyen du bouton « ajouter ». De même, on peut supprimer une requête avec le bouton « supprimer »

Références

La fonction References affiche la liste toutes les références des valeurs retournées par une requête CQL à partir des informations des unités structurelles les contenant.


Si la requête CQL correspond à une succession d'unités lexicales, c'est alors la première unité qui est prise en compte.


Utilisation :

  • On doit saisir une requête CQL dans le champ requête
  • On choisit la propriété d'affichage des occurrences, et ainsi la façon de les regrouper
  • On peut choisir les propriétés de structures à utiliser
  • Enfin, on lance le calcul par « Chercher »
File:Progression Fenetre.png
Illustration 36 : Calcul de la progression des mots « France » et « Algérie » dans les discours de Pompidou et De Gaulle.
En cliquant sur « OK » on obtient le graphique de progression tel que dans l'illustration 37. Dans ce graphique, le nom des locuteurs sont affichés en début de discours. Les courbes représentent les progressions respectives des mots « France » et « Algérie ».
File:Progression Graph.png
Illustration 37 : Graphique de la progression cumulatif du mot France et Algérie dans les discours de De Gaulle et Pompidou.

Le graphique est exportable via le bouton « Export ».

AFC

La commande AFC File:AFC.png calcule l'analyse factorielle des correspondances<ref name="ftn23">Jean-Paul Benzécri et al., L'analyse des correspondances (Paris: Dunod, 1973). Calculé avec le package « CA » de R.</ref> d'une partition, pour la fréquence d'une propriété de mot (word form, lemma, pos...) dans chaque partie.


Cette commande doit être appliquée à une partition constituée au moins de quatre parties. Elle peut également être appelée depuis une table lexicale. Il faut tout d'abord choisir une propriété de mot. Ensuite, une fenêtre similaire à celle de la commande Lexique s'ouvre, comme le montre l'illustration 27.


Les résultats sont affichés dans deux fenêtres :

  • la première fenêtre affiche le graphique du premier plan factoriel
  • la seconde fenêtre réunit les données qui permettent d'interpréter le graphique. Elle se subdivise en quatre onglets :
    • les valeurs propres
    • les informations sur les lignes
    • les informations sur les colonnes
    • l'histogramme des valeurs propres
File:AFC Discours Histogramme.png
Illustration 38 : AFC obtenue à partir d'une table lexicale sur les "Dates" du corpus DISCOURS.

La fenêtre d'AFC permet d'afficher ou d'enlever certains objets du graphique : pour cela, cocher ou décocher « individus » et « variables » puis actualiser la vue en cliquant sur « rafraîchir ».

Le graphique peut être redimensionné en cliquant sur le bouton « redimensionner » (voir également les raccourcis graphique de zoom, déplacement etc. dans la section 6.2).

Par défaut, l'AFC affiche seulement les parties (colonnes) dans le plan factoriel.

Ce paramètre peut être modifié dans les préférences de l'AFC :

  • « Montrer les individus dans le graphique » : affiche les propriétés de mot ;
  • « Montrer les variables dans le graphique » : affiche les parties.

Dans le volet de droite, diverses données sont disponibles afin d'aider l'utilisateur dans la lecture des variables, des individus et des valeurs propres.

Le tableau des valeurs propres affiche le numéro des valeurs, la valeur propre ainsi que le pourcentage de la valeur propre.

Les tableaux d'information sur les lignes et les colonnes donnent :

  • la qualité des plans : la représentation du point dans chaque plan, calculée comme la somme des cos² du point sur les deux axes concernés : plus la qualité est proche de 1, moins la position du point est déformée par la projection dans le plan.
  • le poids relatif : la fréquence est rapportée à la somme des fréquences des autres mots (lignes).
  • la distance du point à l'origine (c'est à dire le centre de la représentation ou le centre de gravité du nuage de points)
  • la participation du point à la construction de l'axe. La somme des contributions vaut 100 et les points qui présentent les plus fortes contributions pour un axe donné servent à interpréter l'axe.
  • le cos² du point sur chaque axe : la mesure de l'angle entre le vecteur représentatif du point et l'axe. Un cos² proche de 1 indique que le point est bien représenté sur l'axe alors qu'un cos² proche de 0 indique que la projection déforme fortement le point par rapport à cet axe et qu'il vaut mieux donc éviter d'interpréter la position du point par rapport aux autres selon la coordonnée sur cet axe. En particulier, un point qui a un cos² faible sur les deux axes de la représentation choisie a une position trompeuse ; sa proximité apparente avec d'autres points ne doit pas être interprétée dans ce plan.
  • les coordonnées des points dans l'espace des trois premiers axes.

Table lexicale

Une table lexicale réunit dans un tableau les différentes unités lexicales d'une partition.

Ce tableau peut être généré à partir d'une partition ou depuis l'index d'une partition. Une fois la partition sélectionnée, il faut choisir la propriété de mot sur laquelle se construira la table lexicale, comme ce qui apparaît dans l'illustration 39 :


File:Table Lexicale Fenetre.png
Illustration 39 : Propriété de la table lexicale.

Le tableau se présente de la façon suivante : une entrée par ligne, une partie par colonne. C'est un tableau éditable où les lignes et les colonnes peuvent être fusionnées ou supprimées. Il est également possible de ne retenir que certaines lignes en fonction de leur fréquence, la taille du tableau pouvant être limitée par un nombre de lignes maximum.

Enfin, une table lexicale est créée automatiquement dès qu'une commande AFC ou Spécificités est appliquée à un corpus et apparaitra comme descendante de ce corpus.


File:Table Lexicale Partition Date.png
Illustration 40 : Table lexicale de la partition date du corpus DISCOURS.

Dans l'illustration ci-dessus on peut voir la table lexicale formée à partir de la partition Date du corpus DISCOURS. Il est possible de :


  • Régler le nombre de ligne ainsi que la fréquence minimum. Il faut valider le choix en cliquant sur le bouton « Garder »
  • Fusionner ou supprimer des colonnes : en cliquant sur le bouton « Fusion ou Suppr. de colonnes ». Ceci ouvre une boîte de dialogue (voir illustration 41) :
File:Colonnes.png
Illustration 41 : Fenêtre d'édition de colonnes
  • Cette fenêtre offre la possibilité de sélectionner certaines colonnes. Soit via le champ de recherche (qui filtre par mots ou expressions régulières) en haut de la fenêtre, soit en sélectionnant directement une partie.
  • « > » sert à ajouter une colonne en particulier
  • « < » sert à supprimer une colonne
  • Il faut ensuite cocher « fusionner » ou « supprimer » en fonction du résultat souhaité. Dans le cas de la fusion, il faut préciser le nom du nouveau champ.
  • Fusionner ou supprimer des lignes :
    • en cliquant sur le bouton « Fusion ou Suppr. de lignes » : une fenêtre similaire à celle des colonnes vous permet d'éditer le nombre de lignes du tableau.
    • en sélectionnant directement les lignes que vous souhaitez supprimer ou fusionner, puis en accédant au menu contextuel via un clic-droit.
    • en cliquant sur « OK », on retourne à la table lexicale mise à jour
  • Il est possible d'exporter la table obtenue grâce au menu contextuel.
  • Enfin, vous pouvez trier les colonnes en cliquant sur leurs en-têtes.

Les préférences de TXM

File:Preferences.png
Illustration 42: Fenêtre des préférences de TXM
  • Avancé : paramètres avancés de la plateforme TXM
    • Moteur statistique : moteur statistique R intégré à TXM.
    • Moteur de recherche : serveur CWB intégré à TXM.
    • TAL : contient les logiciels de traitement automatique de la langue.
      • TreeTagger : étiqueteur morphosyntaxique utilisé par TXM
  • Utilisateur : paramètres par défaut de TXM qui permettent de paramétrer certaines commandes
    • Concordances : paramétrer le nombre de ligne par page, ainsi que la taille des contextes
    • Cooccurrences : paramétrer la fréquence minimale, le nombre de cooccurrents et l'indice minimum
    • Description : paramétrer le nombre de valeurs de propriétés affiché
    • Export : paramétrer l'encodage des résultats exportés
    • Langue : choisir entre l'interface en anglais ou en français
    • Table lexicale : définir la fréquence minimale des entrées.
    • Analyse des correspondances : montrer les individus ou les variables dans le graphique, changer le format des colonnes (utilise les spécifications de la classe Java : DecimalFormater. Pour plus d'informations, consulter : http://java.developpez.com/faq/java/?page=langage_chaine#LANGAGE_STRING_nombre_en_chaine_formatee)

Récapitulatif du lancement des commandes TXM

COMMANDES
DEPUIS
VERS
UTILISÉ PAR
AFC
PartitionTable lexicale
Concordances
Corpus
Édition
Cooccurrences
Cooccurrences
Corpus
Concordances
Corpus
Corpus
CooccurrencesConcordancesCorpusDescriptionÉditionIndexLexiquePartitionProgression
Description
Corpus
Index
CorpusPartition
ConcordancesProgression
Table lexicale d'une partition
Lexique
Corpus
ConcordancesProgression
Partition
Corpus
AFCÉditionSpécificitésTable lexicale
Progression
Corpus
Sous-Corpus
Corpus
Idem que Corpus + Spécificités
Spécificités
PartitionTable lexicale
Table lexicale
PartitionIndex d'une partition
AFCSpécificités
Édition
CorpusSous-CorpusPartition

Syntaxe du moteur de recherche

Introduction rapide

Le moteur de recherche interne de TXM gère toutes les requêtes saisies dans le champ « Requête » des fenêtres Concordance, Index, etc. Ces requêtes doivent être conformes à la syntaxe et à la sémantique du langage CQL<ref name="ftn24">Pour “Corpus Query Language” : implémenté par la technologie IMS Open Corpus Workbench (http://cwb.sourceforge.net).</ref> :


  • pour un simple mot, il suffit de l'écrire de manière littérale :
    la

    [un « module d'enrobage » finalisera la requête en "la"]
  • pour indiquer que la recherche ne doit pas être sensible à la casse, ajouter le modifieur « %c » :
    "la"%c

    [les modifieurs sont toujours situés en dehors des guillemets]
  • pour ignorer les signes diacritiques, ajouter « %d » :
    "la"%d

    [vous pouvez combiner les deux modifieurs « c » et « d » en saisissant « %cd »]
  • pour chercher un mot composé, entourez-le de guillemets :
    "parce que"

    [le tokeniseur utilisé pour importer le corpus dans TXM détermine la valeur des espaces situés entre ou au sein des mots. Voir plus loin pour les autres exemples de mots contenant des blancs]
  • pour chercher un mot commençant par la lettre « l », écrire :
    l.*

    [« . » signifie qu'on cherche n'importe quel caractère, « * » signifie « répéter entre 0 et n fois l'expression précédente », qui est ici la recherche de n'importe quel caractère. Le résultat est donc « n'importe quelle suite de caractères, voire aucun ». Ces caractères à l'interprétation spéciale sont appelés « opérateurs » ou « jokers ». Ils peuvent se trouver à n'importe quel endroit d'une requête, mais ils répondent à une syntaxe particulière. Si vous souhaitez utiliser ces caractères de manière littérale, vous devez les faire précéder par le caractère de neutralisation « \ ».]

  • pour chercher un mot finissant par « a », écrire :
    .*a
  • pour chercher un mot finissant par « a », et peut-être par « s » après, écrire :
    .*as?

    [« ? » signifie l'optionnalité, qui porte ici sur le « s »]
  • pour chercher un mot commençant par « l » et finissant par « a », écrire :
    l.*a
  • pour chercher un mot contenant le lettre « l » :
    .*l.*
  • pour chercher un mot contenant une espace, écrire :
    ".* .*"

    [littéralement, les espaces ne sont pas pris en compte dans une requête CQL, sauf s'ils sont situés dans des guillemets]
  • pour chercher un mot commençant par « L » ou « l », écrire :
    "[Ll].*"

    [les crochets « [...] » signifient « un seul des caractères contenus participe à cet endroit dans le résultat »]
  • pour chercher un mot commençant par n'importe quelle minuscule, écrire :
    "[a-z].*"

    [le signe « - » dans l'expression « [a-z] » signifie « une valeur de caractère située entre « a » et « z » peut participer au résultat », ici, « n'importe quelle minuscule, et une seule »]
  • pour chercher deux mots adjacents, écrire :
    "le" "jour"

    [l'espace contenu dans cette expression n'est pas littéral mais fait partie de l'expression CQL. Il peut être répété sans changer le sens de la requête]
  • pour chercher trois mots adjacents (etc.), écrire :
    "le" "jour" "où" (etc.)
  • pour chercher un verbe (donc une propriété morphosyntaxique appelée « pos » dans le corpus) dont la valeur commence par « V », écrire :
    [pos="V.*"]

    [1) Cet exemple vaut pour le corpus DISCOURS inclus dans TXM. Cette valeur dépend de l'annotation choisie lors de l'import. Les étiqueteurs morphosyntaxiques utilisent différents jeux d'étiquettes, il faut donc lire leur documentation afin de désigner une étiquette spécifique. 2) Les crochets « [ ] » dans cette requête n'ont pas la même signification que ceux utilisés dans les exemples précédents. Ces derniers étaient implicitement contenus par des guillemets. Ici, « [ ] », situé en dehors des guillemets, signifie « l'expression entre crochets ne concerne qu'un seul mot »]
  • pour chercher un verbe conjugué à l'imparfait, écrire :
    [pos="V..i.*"]

    [valable seulement pour les étiquettes du jeux « Multext » des exemples de corpus]
  • pour chercher un verbe suivi d'un nom, écrire :
    [pos="V.*"] [pos="N.*"]
  • pour chercher le mot « je » suivi d'un verbe, écrire :
    "je" [pos="V.*"]

    [cette requête est l'équivalent de : [word="je"] [pos="V.*"]]
  • pour chercher le mot « je » suivi d'un verbe, avec un mot entre les deux, écrire :
    "je" [] [pos="V.*"]

    [les crochets « [ ] » signifient « un mot, sans restriction particulière »]
  • pour chercher le mot « je » suivi d'un verbe, avec un ou deux mots entre eux, écrire :
    "je" []{0,2} [pos="V.*"]

    [les accolades “{}” permettent de dénombrer les éléments précédents dans la requête]
  • pour chercher le mot « je », suivi d'un verbe, n'importe où dans la phrase, écrire :
    "je" []* [pos="V.*"] within s

    [1) Le terme « within » restreint la requête aux bornes d'une unité structurelle choisie. Si la structure n'existe pas, une erreur est générée. 2) L'opérateur « * » (le premier à gauche) n'a pas la même signification que le second (qui répète l'opérateur « . » comme on l'a déjà vu dans les exemples précédents). Le premier « * » signifie « répète l'expression entre crochets, située à gauche », ici une occurrence et non un caractère qui précède. Pour résumer, « * » en dehors des guillemets, répète l'expression qui se trouve à gauche de l'opérateur. « * » à l'intérieur de guillemets répète le caractère qui se trouve à gauche de l'opérateur.]
  • pour chercher le mot « je », suivi du verbe « aimer », à l'intérieur d'un paragraphe, écrire :
    "je" []* [lem="aimer"] within p

Pour comprendre tous les niveaux des expressions CQL, vous pouvez consulter le « Manuel de référence des expressions CQL » : http://weblex.ens-lsh.fr/doc/weblex/refregexpcqp.html

Vous pouvez également consulter le « CQP User's Manual » pour une description plus complète du langage, à l'adresse :

http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML

Piloter la plateforme TXM avec des scripts

Lancer des scripts et exécuter des commandes Groovy

La plateforme TXM est capable d'exécuter des scripts (ou macros) ce qui permet à l'utilisateur :

  • d'appeler n'importe quelle commande TXM : lancer une recherche de requête CQL, appliquer un modèle statistique, exporter et sauvegarder les résultats dans un fichier, etc.
  • utiliser des paramètres personnalisés pour chacune de ces commandes ;
  • enregistrer et lancer une séquence de commandes pour des recherches usuelles.
    Cela permet également à l'utilisateur d'étendre les fonctionnalités de la plateforme à l'aide de scripts<ref name="ftn25">À l'image de ce qui se fait dans MS Word au moyen des macros Visual Basic.</ref>.

Les scripts sont écrits en langage Groovy (http://groovy.codehaus.org).

Vous trouverez une courte introduction à l'utilisation de ce langage à l'adresse : http://onjava.com/pub/a/onjava/2004/09/29/groovy.html

Trois livres de référence pourront vous donner plus d'informations :

  • Groovy in action<ref name="ftn26">Dierk König et al., Groovy in action (Greenwich: Manning, 2007).</ref>
  • Groovy programming: an introduction for Java developers<ref name="ftn27">Kenneth A. Barclay et W. J. Savage, Groovy programming: an introduction for Java developers (Morgan Kaufmann Publishers, 2007).</ref>
  • Programming Groovy<ref name="ftn28">Subramaniam Venkat, Programming Groovy: dynamic productivity for the Java developer, Pragmatic Bookshelf. (Raleigh: Daniel H. Steinberg ed., 2008).</ref>

Le texte des scripts à exécuter peut se trouver dans un fichier ou être simplement sélectionné dans une fenêtre (voir la section « Éditeur de texte »).


La meilleure manière de commencer à écrire votre propre script Groovy est de modifier un des scripts exemples inclus dans la plateforme dans le répertoire « C:\Documents and Settings\<identifiant de l'utilisateur>\TXM\scripts »<ref name="ftn29">Aucune protection de sécurité lors de l'exécution de scripts n'a été intégrée à la plateforme TXM pour le moment, il faut donc être vigilant sur la provenance des scripts utilisés.</ref><ref name="ftn30">En Linux : /home/<identifiant de l'utilisateur>/TXM/scripts</ref>. Par exemple, le script « conc.groovy »<ref name="ftn31">Vous avez également accès à ce script en ligne, à l'adresse :

http://txm.svn.sourceforge.net/viewvc/txm/trunk/Toolbox/trunk/org.textometrie.toolbox/src/groovy/org/txm/test/conc.groovy?revision=1080&view=markup</ref> calcule automatiquement une concordance du mot « je » dans le corpus DISCOURS puis exporte les résultats dans un fichier nommé « conc.txt ».

Afin d'éditer ce script, allez dans la vue « Fichier » (voir la section 3.2.1.1.2 « La vue « Fichier » et l'éditeur de texte ») afin de chercher, ouvrir et modifier le script, par exemple en changeant le mot recherché et le nom du fichier de sauvegarde, puis lancez son exécution via le menu contextuel de l'éditeur de texte (accessible à partir du clic droit de la souris).


La meilleure documentation sur les commandes de TXM et leurs paramètres se trouve dans la documentation Java en ligne de la plateforme TXM à l'adresse : http://txm.sourceforge.net/javadoc/index.html.

Par exemple, les paramètres de la commande Concordance sont décrits dans le package « java.org.textometrie.functions.concordances », à l'adresse http://txm.sourceforge.net/javadoc/index.html?java/org/txm/functions/concordances/Concordance.html.

Toutes les commandes décrites dans cette documentation peuvent être exécutées dans un script Groovy.

Lancer des scripts et exécuter des commandes R

La plateforme TXM utilise l'environnement statistique R pour effectuer certains calculs. Pour cela elle appelle les packages nécessaires, traite les résultats et les intègre dans son interface utilisateur. Par exemple, elle affiche dans une nouvelle fenêtre les graphiques de spécificités calculés par R.

Cette version de TXM vous permet également d'éditer et d'exécuter vous-même des scripts R directement à partir de son interface.


Le texte des scripts à exécuter peut se trouver dans un fichier ou être simplement sélectionné dans une fenêtre (voir la section « Éditeur de texte » expliquant comment lancer l'exécution à partir d'un éditeur).


La meilleure manière de commencer à écrire vos propres scripts est de modifier les exemples fournis avec la plateforme dans le répertoire « C:\Documents and Settings\<identifiant de l'utilisateur>\TXM\scripts\sample »<ref name="ftn32">En Linux : /home/<identifiant de l'utilisateur>/TXM/scripts</ref>.

Par exemple :

  • le script « sample.R » génère un vecteur de points suivant une loi normale, puis l'affiche ;
  • le script « HelloWorldR.groovy » montre comment intégrer un script R à un script Groovy, puis l'appeler ;
  • pour les scripts générant des graphiques, le script « executeRscript.groovy » montre comment exécuter un script R (« plot100.R ») à partir de Groovy tout en faisant en sorte que le graphique produit s'affiche au sein de l'interface de TXM.

Modules d'importation

Les modules disponibles dans la version RCP de TXM se trouvent dans le dossier « scripts/import » du répertoire de travail de TXM (~/TXM). Pour l'instant, seuls les scripts de lancement de chaque module (les fichiers xxxLoader.groovy) sont disponibles à l'utilisateur<ref name="ftn33">à cause d'un bug non résolu, voir : https://listes.cru.fr/wiki/txm-users/public/retours_de_bugs_logiciel#synthese_des_retours_de_bugs</ref>.

module Presse-papier

entrée

Ce module importe le texte brut copié dans le presse-papier du système.

La propriété « lb » est ajoutée aux mots pour coder le numéro de ligne.

sortie

En sortie, on obtient une structure de texte (text) et des mots segmentés par les caractères séparateurs.

annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger.

édition

Il y a une édition du texte tenant compte de la gestion des espaces et ponctuations entre mots, et paginée par blocs de n mots.

module XML-TEI BFM

entrée

Le format d'entrée est défini dans la documentation d'encodage de la Base de Français Médiéval (BFM). Il s'agit de XML TEI P5 qui encode à la fois le corps des textes et leurs métadonnées.

Pour plus d'informations :

annotation

Des annotations morphosyntaxiques sont ajoutés avec TreeTagger au moyen du modèle linguistique « rgaqcj.par ». Le jeu d'étiquettes utilisé par ce modèle est CATTEX2009 (voir http://bfm.ens-lyon.fr/article.php3?id_article=176).

édition

L'édition des textes est assez proche de celle réalisée pour le projet « Queste del Saint Graal » (voir http://txm.risc.cnrs.fr/txm). Toutefois cette partie du module sera remplacée à terme par les feuilles de styles XSLT+CSS d'Alexis Lavrentiev pour produire une édition équivalente et maintenue.

module XML-TXM

entrée

Ce module traite les fichiers au format XML (UTF-8) du dossier désigné. Ce module ne réalise pas de tokenisation car le format XML-TXM encode déjà les mots dans des balises « <w> ».


L'intérêt de ce format est qu'il y a peu de travail à faire pour l'importer dans TXM. Bien que non finalisé, il est compatible TEI. Il y a un texte par fichier XML.


Exemple :


<?xml version="1.0" encoding="UTF-8"?> 
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:txm="http://txm.org/1.0"> 
    <teiHeader type="text"> 
        <fileDesc> 
            <titleStmt> 
                <title>Grec essai</title> 
                <respStmt> 
                    <resp id="ucl">initial tagging</resp>
                </respStmt> 
            </titleStmt> 
        </fileDesc> 
        <encodingDesc> 
            <classDecl> 
                <taxonomy id="lemma"><bibl type="tagset"/></taxonomy> 
                <taxonomy id="pos"><bibl type="tagset"/></taxonomy> 
                <taxonomy id="intext"><bibl type="tagset"/></taxonomy> 
            </classDecl> 
        </encodingDesc> 
    </teiHeader> 
    <text id="grec-try-1"> 
        <w id="w_1"> 
              <txm:form>mot</txm:form> 
              <interp resp="#resp" type="#lemma">lemme</interp> 
              <interp resp="#resp" type="#pos">pos</interp> 
              <interp resp="#resp" type="#autre">autre</interp> 
        </w>
    <!--… -->
    </text>
</TEI>

sortie

On retrouve une structure pour chaque balise XML. Les propriétés de mots sont importées à partir des balises <interp> sous-éléments de chaque <w>.

annotation

Il n'y a pas d'annotation ajoutée dans ce module.

édition

Il y a une édition par texte paginée par blocs de n mots.

module XML/w

entrée

Ce module importe les fichiers XML qui se trouvant dans le dossier source désigné.

La balise « text » est réservée pour ce module. Toute balise « text » sera renommée en « textunit »

Si des mots sont délimités par des balises « <w> » portant des attributs, ils sont interprétés en tant que tels. Il faut toutefois faire attention à ce que tous les <w> aient les mêmes attributs.

sortie

On retrouve pour chaque balise XML une structure correspondante.

édition

Il y a une édition par texte paginée par blocs de n mots.

module Transcriber+CSV

entrée

Corps de texte

Ce module prend en entrée un répertoire de transcriptions au format XML-TRS (extension '.trs'). Elles doivent être accompagnées du fichier « trans-14.dtd » pour être valides. Chaque transcription sera considérée comme une seule unité documentaire ou texte.


Métadonnées de texte

Les métadonnées des textes sont encodées dans un fichier au format CSV

nommé « metadata.csv » situé dans le même répertoire que les fichiers sources.

Le séparateur de colonnes est « , ». Le caractère de champ<ref name="ftn34">le caractère de champ permet d'encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.</ref> est « " ».

La première ligne d'entête nomme chaque métadonnée.

La première colonne doit être nommée « id », les suivantes sont nommées à la discrétion de l'utilisateur mais sans utiliser de caractères accentués ou spéciaux.

La première colonne doit contenir le nom du fichier source (sans extension) qui correspond aux métadonnées de la ligne.

Les métadonnées seront injectées au niveau de chaque transcription, si elles sont présentes.


Paramétrage

Ce module utilise un fichier de paramètres appelé « import.properties » se trouvant dans le même répertoire que les transcriptions.

Il permet de définir trois paramètres :

  • removeInterviewer : vaut « true » ou « false », indique s'il faut ignorer les paroles des interviewers ;
  • metadataList : la liste des métadonnées. Chaque métadonnée est séparée de la suivante par le caractère « | », ex : titre|date|lieu
  • csvHeaderNumber le nombre de lignes d'entête du fichier CSV (s'il existe) :
  • 1 = il n'y a que les identifiants des métadonnées ;
  • 2 = il y a une ligne d'identifiants et une ligne d'identifiants longs ;
  • 3 = il y a une ligne d'identifiants, une ligne d'identifiants longs puis le type de la métadonnée<ref name="ftn35">Cette dernière information n'est pas utilisée dans cette version du logiciel.</ref>.

sortie

La structure des fichiers XML de Transcriber est reproduite :

  • une section Transcriber correspond à la structure div ;
  • un tour de parole correspond à la structure u (pour 'utterance', de la TEI) ;
  • un segment de parole correspond à la structure sp.

Les deux formes d'événements Transcriber sont gérées :

  • ponctuels : commentaires, bruit court ;
  • sur empan de mots : prononciation, incertitudes...

Les descriptions associées aux événements ponctuels sont portées par le mot suivant.

Pour les événements à empan, les descriptions sont concaténées dans la propriété lexicale « event » des mots compris entre les événements « begin » et « end ».


Certaines métadonnées sont dupliquées au niveau des mots (spk) et des structures (u@spkattrstextAttr@<metadata>, div@topic@endtime@starttime@typesp@speaker@endtime@starttime@overlap, event@type@desc) pour faciliter la construction de sous-corpus.

annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger<ref name="ftn36">Les modèles linguistiques TreeTagger étant construits à partir de corpus écrits, la qualité obtenue des résultats pour les transcriptions orthographiques est très variable.</ref>.

édition

L'édition reproduit celle de Transcriber. On retrouve au début de chaque texte (ou transcription) la liste des métadonnées correspondantes.

Les textes sont paginés par nombre de mots après un tour de parole.

Les événements et commentaires apparaissent entre parenthèses.

Les indications de synchronisation apparaissent entre crochets.

module Hyperbase

entrée

Ce module prend en entrée un fichier au format Hyperbase ancienne version. C'est à dire avec des lignes séparatrices de textes de la forme suivante :

&&& Nom du texte long, NomduTexte, NomCourt &&&


Les lignes de saut de pages (codées par « \$ ») sont interprétées. Elles se répercutent par des structures p.

annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger.

édition

Il y a une édition par texte paginée par blocs de n mots.

module Alceste

entrée

Ce module prend en entrée un fichier au format Alceste. Il s'agit d'un format de texte quasi brut. Il y a divers caractères d'échappement.

Pour déclarer un texte, il y a deux façons de faire :

  1. une ligne de la forme : 0001 &Attr1 Val1 &Attr2 Val2... &AttrN ValN
  2. une ligne de la forme : **** &Attr1 Val1 &Attr2 Val2... &AttrN ValN

Pour créer un mot composé, on peut remplacer les espaces entre ses constituants par un caractère « _ ». Par exemple, « l'assemblée_nationale » peut être segmenté en deux mots : « l' » et « assemblée_nationale ».


Le format Alceste propose également un moyen de coder les locuteurs, mais ce module ne le gère pas.

sortie

En sortie, on obtient des structures de texte (text) et des mots segmentés par les caractères séparateurs.

annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger.

édition

Il y a une édition par texte paginée par blocs de n mots.

module CNR+CSV

entrée

Corps de texte

Les textes sont des fichiers au format CNR de Cordial, c'est à dire un TSV avec comme caractère séparateur de colonne la tabulation et sans caractère de champ.

Dans l'ordre, les colonnes des fichiers CNR sont :

  • para : le numéro de paragraphe
  • sent : le numéro de phrase
  • form : la forme graphique d'une unité lexicale
  • lem : le lemme
  • pos : la propriété morphosyntaxique
  • func : la fonction syntaxique

Métadonnées de texte

Les métadonnées des textes sont encodées dans un fichier au format CSV nommé « metadata.csv » situé dans le même répertoire que les fichiers sources.

Le séparateur de colonnes est « , ». Le caractère de champ<ref name="ftn37">le caractère de champ permet d'encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.</ref> est « " ».

La première ligne d'entête nomme chaque métadonnée.

La première colonne doit être nommée « id », les suivantes sont nommées à la discrétion de l'utilisateur mais sans utiliser de caractères accentués ou spéciaux.

La première colonne doit contenir le nom du fichier source (sans extension) qui correspond aux métadonnées de la ligne.

sortie

On obtient en sortie des structures pour les paragraphes (p), les phrases (s) et les textes (text). Les mots sont équipés de toutes les propriétés correspondant aux colonnes CNR.

annotation

Il n'y a pas d'annotation ajoutée dans cet import, il ne nécessite pas la présence de TreeTagger.


édition

Les pages d'édition sont découpées par blocs de n mots. La première page d'édition de chaque texte reprend la liste des métadonnées lues dans le fichier CSV.

module TXT+CSV

Entrée

Corps de texte

Ce module importe un répertoire de fichiers<ref name="ftn38">Le contenu des sous-répertoires éventuels sera également importé.</ref> contenant du texte tout venant (format texte brut). L'extension de fichier correspondante est '.txt' par défaut.

Les sauts de ligne sont interprétés et chaque mot encode son numéro de ligne dans la propriété « lb ».


Métadonnées de texte

Les métadonnées des textes sont encodées dans un fichier au format CSV nommé « metadata.csv » situé dans le même répertoire que les fichiers sources.

Le séparateur de colonnes est « , ». Le caractère de champ est « " ».

La première ligne d'entête nomme chaque métadonnée.

La première colonne doit être nommée « id », les suivantes sont nommées à la discrétion de l'utilisateur mais sans utiliser de caractères accentués ou spéciaux.

La première colonne doit contenir le nom du fichier source (sans extension) qui correspond aux métadonnées de la ligne.

sortie

En sortie, on obtient des structures de texte (text) ayant des propriétés correspondant aux métadonnées, et des mots segmentés par des caractères séparateurs par défaut.

annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger.

édition

Il y a une édition par texte paginée par blocs de n mots. La première page d'édition de chaque texte reprend la liste des métadonnées.


Raccourcis clavier

Éditeur de texte

Commandes Raccourcis
Aide
Afficher les raccourcis

disponibles

Ctrl+Shift+L
Sélection
Sélectionner tout Ctrl+A
Sélectionner la première ligne Shift+Home
Sélectionner la dernière ligne Shift+End
Sélectionner le mot suivant Ctrl+Shift+Right
Sélectionner le mot précédent Ctrl+Shift+Left
Éditer
Copier Ctrl+C, Ctrl+Insert
Coller Ctrl+V, Shift+Insert
Couper Ctrl+X,Shift+Suppr
Supprimer Suppr
Annuler Ctrl+Z
Rétablir Ctrl+Y
Mettre en majuscules Ctrl+Shift+X
Mettre en minuscules Ctrl+Shift+Y
Chercher
Chercher / Remplacer Ctrl+F
Chercher suivant Ctrl+K
Chercher précédent Ctrl+Shift+K
Recherche « incrémentale » Ctrl+J
Retour à la recherche simple Ctrl+Shift+J
Se déplacer
Début du texte Ctrl+Home
Fin du texte Ctrl+End
Début de ligne Home
Fin de ligne End
Mot suivant Ctrl+Right
Mot précédent Ctrl+Left
Aller à la ligne Ctrl+L
Dernier lieu d'édition Ctrl+Q
Suppression
Supprimer une ligne Ctrl+D
Supprimer jusqu'à la fin de la ligne Ctrl+Shift+Suppr
Supprimer le mot suivant Ctrl+Suppr
Supprimer le mot précédent Ctrl+Backspace
Déplacer les lignes
Monter la ligne courante Alt+Up
Descendre la ligne courante Alt+Down
Insérer une ligne
Insérer une ligne au dessus de la ligne courante Ctrl+Shift+Enter
Insérer une ligne en dessous de la ligne courante Shift+Enter
Autre
Concaténer les lignes Ctrl+Alt+J
Faire défiler les lignes vers le haut Ctrl+Up
Faire défiler les lignes vers le bas Ctrl+Down
Dupliquer les lignes Ctrl+Alt+Up
Copier les lignes Ctrl+Alt+Down
Basculer en mode passage à la ligne automatique Ctrl+PavéNum_Diviser
Mode
Basculer en mode insertion Ctrl+Shift+Insert
Basculer en mode

remplacement

Insert
Basculer en mode sélection Alt+Shift+A
Basculer en mode

comparaison rapide

Ctrl+Shift+Q
Montrer le menu contextuel de comparaison Ctrl+F10
Fichier
Nouveau Ctrl+N
Enregistrer Ctrl+S
Fermer Ctrl+W, Ctrl+F4
Tout fermer Ctrl+Shift+W
Imprimer Ctrl+P
Propriétés Alt+Enter
Rafraîchir F5
Divers
Complétion de mot Alt+/

Raccourcis graphiques

Faire glisser Shift+Left Mouse+drag
Zoom avant et arrière Shift+Right Mouse+drag
Zoom par sélection Ctrl+Left Mouse+drag
Rotation Ctrl+Right Mouse+drag
Retour à la vue initiale F5

Fenêtre

Gérer les fenêtres
Fenêtre suivante Ctrl+F6
Fenêtre précédente Ctrl+Shift+F6
Menu déroulant des fenêtres Ctrl+E
Retour au menu fenêtre Ctrl+Shift+E
Afficher le menu de la fenêtre Alt+-
Vue
Agrandir la fenêtre actuelle Ctrl+M
Vue suivante Ctrl+F7
Vue précédente Ctrl+Shift+F7
Afficher le menu Vue Ctrl+F10
Afficher les raccourcis Ctrl+Shift+L
Afficher la console Alt+Shift+Q, C

Glossaire

Catégories :

  • com : Commande
  • don : Modèle de données
  • for : Format de fichier
  • int : Interface utilisateur
  • tal : Traitement Automatique de la Langue (TAL)
  • req : Requête CQL
  • log : Composant logiciel
  • mét : Méthodologie Textométrique


Entrée
Cat
Description
AFC
com
action de réduire le nombre de dimensions d'une matrice (de type « parties x mots ») avec l'algorithme d'analyse factorielle des correspondances. Les nouvelles dimensions sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants.
AFR
tal
code standard pour l'ancien français.
Alceste
log
logiciel commercial textométrie.
annotation
don
propriété d'une unité (lexicale ou structurelle) d'un point de vue logique.
balise
don
représentation bornée d'un élément, qui contient ses propriétés, en langage XML
caractère
don
unité élémentaire constituant la forme d'un mot.
CATTEX2009
tal
jeu d'étiquettes morphosyntaxiques pour l'ancien français.
module d'importation
com
composant logiciel qui importe des éléments dans la plateforme TXM, depuis une source.
ClipN
int
corpus créés à partir du presse-papier sont nommés 'Clip'+<un numéro>.
CNR
for
format de données de Cordial.
commande
com
action disponible dans TXM.
concordance
com
manière de présenter les résultats d'une recherche, où chaque occurrence apparaît centrée sur sa propre ligne, au milieu de son contexte.
console
int
TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ».
Cordial
tal
étiqueteur morphosyntaxique et lemmatiseur commercial.
corpus
don
ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires. Les corpus « racines » sont construits à partir de bases.
CQL
req
pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus.
CQP
log
pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc.
CSV
for
signifie « Comma Separated Values ». C'est un fichier texte où chaque ligne de résultat est séparée par saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule).
Ctrl
int
touche « Ctrl » ou « Control » sur le clavier.
document
don
texte logique.
éditeur
com
fenêtre où un texte (comme un fichier source ou un script) peut être modifié.
encodage
don
façon dont une information est représentée dans le corpus source.
espace de travail
int
ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus...).
étiqueteur
log
logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme, à partir de sources textuelles.
étiquette
tal
propriété morphosyntaxique d'un mot
export
com
action d'enregistrer dans un fichier les résultats d'une commande TXM.
fichier
don
élément du système d'exploitation contenant des informations sur le disque dur de l'utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d'accès.
focus
int
focaliser une commande sur un événement lexical particulier, par exemple à travers une requête.
forme graphique
don
forme graphique d'un mot, généralement calculée par les tokeniseurs.
fréquence
mét
nombre total d'occurrences d'un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus.
Groovy
log
langage informatique dans lequel les scripts de TXM sont écrits.
HTML
for
format de représentation des données des pages web.
Hyperbase
log
logiciel académique de textométrie.
import
don
fait d'intégrer un corpus à la plateforme, à partir de fichiers source.
index
com
lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d'une requête.
index
log
fichier créé par TXM afin d'accélérer les réponses aux requêtes.
indice
tal
valeur numérique fournie pour un modèle statistique.
infobulle
int
fenêtre temporaire qui s'affiche lorsqu'on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition.
Java
log
langage dans lequel est programmé TXM.
jeu d'étiquettes
don
ensemble des valeurs morphosyntaxiques possibles de mots.
langage
don
langage dans lequel est écrit un texte ou un corpus.
lem
don
voir lemme.
lemme
don
entrée d'un mot dans le dictionnaire courant.
lemmatiseur
log
module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte
lexique
com
lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus.
ligne de statut
log
TXM affiche des commentaires temporaires sur les opérations qu'il effectue, dans un espace situé en bas à gauche de l'interface.
littéral
req
caractère considéré pour lui-même dans une requête.
localisation
int
l'interface de TXM peut s'afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences.
matcher
tal
correspondance structurelle dans l'algèbre des caractères de propriétés ou des occurrences
metadonnées
don
propriétés d'un texte ou d'un document entiers. Chaque métadonnée a un nom, un type et une valeur.
modifieur
req
caractère spécial utilisé pour exprimer certaines variantes dans une requête.
mot
don
unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots. Elle est généralement construite par les tokeniseurs.
Multext
tal
jeu d'étiquettes standard européen.
occurrence
mét
apparition d'un événement textuel dans un corpus, comme une occurrence de mot.
opérateur
req
caractère spécial ayant une signification particulière dans une requête.
page
don
segment de texte affiché sur un support, correspondant généralement à une page d'une édition papier.
partie
don
élément d'une partition d'un corpus.
partition
don
découpage d'un corpus en différentes parties. La somme de toutes ces parties correspond au corpus dans son ensemble. On utilise les partitions pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d'un même texte, etc.)
phrase
tal
séquence de mots, syntaxiquement homogène, construite par les tokeniseurs.
pivot
com
colonne centrale d'une concordance, affichant toutes les occurrences d'une requête donnée.
pos
don
pour « part of speech », les informations morphosyntaxiques d'un mot.
préférence
int
chaque commande de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ».
presse-papier
don
fonction du système d'exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ».
propriété
don
information sur une unité lexicale ou structurelle.
référence
int
information affichée au début d'une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles.
répertoire
don
dossier contenant des fichiers ou d'autres dossiers, sur le disque dur de l'utilisateur. Un répertoire peut être désigné par un chemin.
requête
com
chaine de caractères exprimant une combinaison de mots et de propriétés de mots.
script
log
fichier contenant une description d'actions précises qui peut être exécutée par TXM.
sélection
mét
liste de séquences de mots. Le résultat d'une recherche pour une requête est une sélection.
source
don
représentation initiale d'un corpus, dans un format propre, contenue dans plusieurs fichiers ou répertoires. Par exemple, le format peut être du TXT (texte brut), du XML ou de la TEI.
spécificité
com
action de lister des formes de mots spécifiques, ou des propriétés de mot, à chaque partie d'une partition, conformément au modèle quantitatif des spécificités.
T
met
le nombre total d'occurrences dans un corpus
TAL
log
pour « Traitement Automatique de la Langue ».
TEI
for
pour « Text Encoding Initiative », la façon standard d'encoder les textes. Consortium international de standardisation de l'encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML.
texte
don
séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées.
textométrie
mét
méthodologie qu'applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d'outils quantitatif et qualitatifs. Voir http://txm.ens-lyon.fr.
tokeniseur
log
composant logiciel capable de séparer les mots et de les caractériser par des propriétés, dans les fichiers source.
TreeTagger
log
logiciel étiqueteur indépendant académique
TXT
for
format de données d'un fichier en texte brut (sans aucune annotation).
unité
don
unité lexicale ou structurelle d'un texte.
unité structurelle
don
élément marquant la structure logique d'un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu'à l'unité 'text'. La plus petite unité structurelle se trouve juste au-dessus de l'unité lexicale.
V
mét
nombre total de formes graphiques différentes d'un corpus.
vocabulaire
com
générer un lexique ou un index.
Weblex
log
logiciel de textométrie académique.
window manager
int
logiciel qui permet d'organiser son interface de travail.
XML
for
format de données principal des sources des corpus.

Bibliographie

Barclay, Kenneth A., et W. J. Savage. Groovy programming: an introduction for Java developers. Morgan Kaufmann Publishers, 2007.

Benzécri, Jean-Paul, et al. L'analyse des correspondances. Paris: Dunod, 1973.

König, Dierk, Andrew Glover, Paul King, Guillaume Laforge, et al. Groovy in action. Greenwich: Manning, 2007.

Lafon, P. “Sur la variabilité de la fréquence des formes dans un corpus.” Mots, no. 1 (1980): 127-165.

Venkat, Subramaniam. Programming Groovy: dynamic productivity for the Java developer. Pragmatic Bookshelf. Raleigh: Daniel H. Steinberg ed., 2008.= Index =

Index des illustrations

Illustration 1 : L'interface générale de TXM16

Illustration 2 : L'explorateur.17

Illustration 3 : La vue Corpus.18

Illustration 4 : La vue Fichier.19

Illustration 5 : La barre d'outils.20

Illustration 6 : Le menu Fichier21

Illustration 7 : Le menu Corpus avec, à gauche, les commandes concernant les corpus et, à droite, les commandes concernant les partitions.21

Illustration 8 : Le menu Outils, concernant d'une part les corpus et d'autre part les partitions.22

Illustration 9 : Menu contextuel du corpus.23

Illustration 10 : Les résultats.27

Illustration 11 : Les messages.28

Illustration 12: Fenêtre des paramètres d'import.32

Illustration 13 : Description du corpus DISCOURS38

Illustration 14 : Édition du corpus DISCOURS40

Illustration 15: Fenêtre de navigation entre l'édition des différentes parties d'une partition40

Illustration 16 : Mode « simple » : construction d'un sous-corpus de tous les discours de De Gaulle.47

Illustration 17: Mode « assisté » : création d'un sous-corpus sur les textes en vers du 12è siècle.49

Illustration 18 : Mode « avancé » : construire un sous-corpus des discours de Pompidou datant de 1970.50

Illustration 19 : Mode simple : construire une partition sur chaque date d'un discours.51

Illustration 20 : Mode assisté : construire une partition sur les dates du corpus DISCOURS.52

Illustration 21 : Construire une partition sur chaque président pour l'année 1970.53

Illustration 22 : La fenêtre de concordance54

Illustration 23 : Construction d'une requête sur le mot "je" suivi d'un verbe.55

Illustration 24 : Concordance du mot « je » suivi d'un verbe dans le corpus DISCOURS.57

Illustration 25 : Boîte de dialogue « patron des références »58

Illustration 26 : Cooccurrents des mots commençant par "j".60

Illustration 27 : Fenêtre « Lexique »61

Illustration 28 : liste de la forme graphique des mots dans le corpus DISCOURS.62

Illustration 29 : Fenêtre de la fonction Index.63

Illustration 30 : Fenêtre d'édition des propriétés de mot.63

Illustration 31 : Index formé sur les propriétés 'word' et 'pos' pour le lemme « pouvoir », dans le corpus DISCOURS.64

Illustration 32 : Fenêtre des spécificités d'une partition.66

Illustration 33 : Spécificités du mot « j.* » dans la partition ayant pour structure « type », du corpus DISCOURS.67

Illustration 34 : Graphique des spécificités des mots « je », « jeune »... des divers types de discours dans le corpus DISCOURS.68

Illustration 35 : Résultat des spécificités de la forme graphique des mots de la partie « Allocution radiotélévisée » dans le corpus DISCOURS.69

Illustration 36 : Calcul de la progression des mots « France » et « Algérie » dans les discours de Pompidou et De Gaulle.71

Illustration 37 : Graphique de la progression cumulatif du mot France et Algérie dans les discours de De Gaulle et Pompidou.72

Illustration 38 : AFC obtenue à partir d'une table lexicale sur les "Dates" du corpus DISCOURS.73

Illustration 39 : Propriété de la table lexicale.74

Illustration 40 : Table lexicale de la partition date du corpus DISCOURS.75

Illustration 41 : Fenêtre d'édition de colonnes76

Illustration 42: Fenêtre des préférences de TXM77== Index == A

AFC18, 26, 51, 73, 75

Annotation38, 82

C

Caractère8

Commande11, 12, 16, 17, 18, 19, 20, 21, 23, 27, 28, 29, 30, 31, 32, 33, 36, 38, 39, 40, 41, 50, 51, 54, 59, 61, 62, 65, 66, 69, 72, 75, 77, 84, 85

Concordance12, 18, 26, 39, 54, 56, 57, 58, 59, 60, 64, 65, 77, 80, 84

Cooccurrence18, 26, 77

Corpus7, 12, 16, 17, 18, 25, 26, 27, 29, 30, 31, 32, 33, 36, 37, 38, 39, 40, 41, 47, 49, 50, 53, 54, 55, 61, 62, 65, 66, 67, 69, 70, 75, 80, 82, 84

CQL26, 49, 53, 54, 55, 56, 59, 60, 61, 62, 64, 65, 66, 81, 84, 97

CQP80, 83

D

Document1, 7, 31, 33

Dossier11

E

Éditeur19, 25, 54, 85

Encodage7

Espace de travail32

Étiqueteur31, 33, 36, 77, 82

Étiquette12, 37, 55, 61, 82

F

Fichier7, 8, 9, 10, 11, 16, 17, 19, 25, 30, 31, 33, 36, 84, 85

Focus66

Format29, 30, 31, 32, 33, 34, 36, 59, 62, 77

Fréquence25, 60, 61, 62, 64, 66, 69, 72, 74, 75, 77

G

Groovy20, 32, 84, 85

H

HTML12, 25, 31, 33, 39

Hyperbase29

I

Import7, 12, 18, 29, 30, 31, 32, 36

Index12, 18, 26, 33, 61, 64, 65, 74, 80

J

Java77, 84, 85

Jeu d'étiquettes36, 55, 85

L

Lemmatiseur33

Lemme30, 31, 33, 37, 61

Lexique18, 26, 61

M

Métadonnée31, 33, 39

Modifieur80

O

Occurrence26, 55, 56, 60, 61, 62, 66

P

Page12, 25, 26, 31, 33, 39, 56, 57, 58, 64, 65, 77

Partition12, 18, 26, 40, 50, 51, 53, 62, 65, 66, 72, 74, 75

Pivot54, 58, 60

Presse-papier25, 29

Progression26, 70, 71

Propriété12, 25, 26, 31, 33, 36, 37, 38, 39, 41, 50, 51, 54, 55, 56, 58, 59, 60, 61, 62, 63, 65, 66, 68, 69, 70, 72, 74, 77, 82, 95, 97

R

Répertoire8, 11, 19, 25, 30, 31, 32, 84, 85

Requête8, 26, 49, 53, 54, 55, 56, 58, 59, 60, 61, 62, 64, 65, 70, 80, 81, 82, 84, 97

S

Script7, 12, 16, 19, 20, 32, 84, 85

Spécificité12, 18, 26, 51, 66, 75

T

Table lexicale18, 26, 72, 74, 75, 76

TAL31, 36, 77

TEI29

Texte7, 12, 16, 18, 19, 20, 25, 28, 29, 30, 31, 36, 37, 39, 85, 94

Textométrie1, 7

U

Unité12, 31, 33, 36, 37, 38, 41, 47, 49, 50, 51, 53, 54, 55, 58, 65, 66, 70, 74, 82

V

Vocabulaire12

X

XML19, 29, 30, 31


<references/>

Personal tools