javacrim Wiki

Brought to you by: glorieux, javacrim

html4txm Edit

Ce document est un texte de travail où s’élabore les spécifications du projet html4txm.

Objectif

Chercheurs et étudiants en linguistique doivent souvent réunir des corpus Web. La sélection et le nettoyage des fichiers demande beaucoup d’opérations fastidieuses auxquelles chacun procède à sa façon. De l’expertise et du code se perd. D’autre part, le logiciel TXM se diffuse de plus en plus dans la communauté. Il a l’avantage d’exploiter les balises XML dans les statistiques textuelles. TXM n’a pas de filtre d’import pour le HTML “sale” (non XML, mélangeant contenu, navigation, scripts…). Le projet html4txm se propose de réunir différents outils et scripts dans un même module Java, pour traiter du HTML à destination de TXM.

Contexte

Le projet a été lancé sur l’année 2013-2014 comme projet d’études avec le http://crim.fr/master_2, et des enseignants en linguistique (Mathieu Valette, Pierre Marchal), XML (Jean-François Perrot) et Java (Frédéric Glorieux et Pierre Dittgen). Les étudiants participeront à la La conférence http://www.jadt.org/ (Journées internationales d’Analyse statistique des Données Textuelles), organisée par l'ERTIM du 3 au 6 juin 2014 à Paris, en animant un atelier de “statistique textuelle et multilinguisme”. Ils envisagent un travail d'analyse sémantique sur la caractérisation des représentations des genres (gender), dans des corpus comparables multilingues (français, anglais, allemand, arabe, thaï, khmer, hindi, japonais…). Ce contexte initial oriente l’ordre de priorité des fonctionnalités implémentées.

Entrée

Des dossiers correspondant à des miroirs de sites (ex www.croix-rouge.fr/**), similaires à ce que l’on obtient avec la commande : wget -m -p -E -np -k http://www.croix-rouge.fr/.

Fonctionnalités

assurer un encodage de sortie en UTF-8
projeter les fichiers conservés dans un même dossier avec un identifiant unique pour chaque texte
transformer le HTML en XML valide
extraire le contenu de la page en supprimant les navigations (configuration par site)
convertir vers le meilleur format pris en charge par TXM

Autres fonctionnalités moins urgentes, mais qu’il vaut mieux prévoir dans l’architecture.

conserver la table de correspondance entre URIs et identifiants à plat (à envisager lors de l’implémentation d’un crawler qui va directement télécharger les fichiers sur l’Internet)
convertir les fichiers pdf en html
détecter la langue pour supprimer les fichiers traduits (exemple : anglais dans le thaï)
intégrer la tokenisation pour différentes langues (arabe, thaï, japonais…) dans la constitution du corpus avant envoi vers TXM

Format de sortie

Pour janvier 2014, le format de référence est un XHTML contrôlé qui enregistre l’essentiel du texte et des métadonnées. Sur ce format sera généré un un dossier txt+csv pour import dans TXM, en attendant un filtre d’import dédié à xhtml.

Wiki: Home 2013-12-11 22:25:56.186231
Wiki: Home
Wiki: html4txm_2014-01

Discussion

Anonymous