Ce document est un texte de travail où s’élabore les spécifications du projet html4txm.
Chercheurs et étudiants en linguistique doivent souvent réunir des corpus Web. La sélection et le nettoyage des fichiers demande beaucoup d’opérations fastidieuses auxquelles chacun procède à sa façon. De l’expertise et du code se perd. D’autre part, le logiciel TXM se diffuse de plus en plus dans la communauté. Il a l’avantage d’exploiter les balises XML dans les statistiques textuelles. TXM n’a pas de filtre d’import pour le HTML “sale” (non XML, mélangeant contenu, navigation, scripts…). Le projet html4txm se propose de réunir différents outils et scripts dans un même module Java, pour traiter du HTML à destination de TXM.
Le projet a été lancé sur l’année 2013-2014 comme projet d’études avec le http://crim.fr/master_2, et des enseignants en linguistique (Mathieu Valette, Pierre Marchal), XML (Jean-François Perrot) et Java (Frédéric Glorieux et Pierre Dittgen). Les étudiants participeront à la La conférence http://www.jadt.org/ (Journées internationales d’Analyse statistique des Données Textuelles), organisée par l'ERTIM du 3 au 6 juin 2014 à Paris, en animant un atelier de “statistique textuelle et multilinguisme”. Ils envisagent un travail d'analyse sémantique sur la caractérisation des représentations des genres (gender), dans des corpus comparables multilingues (français, anglais, allemand, arabe, thaï, khmer, hindi, japonais…). Ce contexte initial oriente l’ordre de priorité des fonctionnalités implémentées.
Des dossiers correspondant à des miroirs de sites (ex www.croix-rouge.fr/**), similaires à ce que l’on obtient avec la commande : wget -m -p -E -np -k http://www.croix-rouge.fr/.
Autres fonctionnalités moins urgentes, mais qu’il vaut mieux prévoir dans l’architecture.
Pour janvier 2014, le format de référence est un XHTML contrôlé qui enregistre l’essentiel du texte et des métadonnées. Sur ce format sera généré un un dossier txt+csv pour import dans TXM, en attendant un filtre d’import dédié à xhtml.
Wiki: Home 2013-12-11 22:25:56.186231
Wiki: Home
Wiki: html4txm_2014-01
Anonymous