Scripts réalisés dans le cadre du projet SUMTEC pour la préparation des corpus de transcription en vue d'une exploitation sur RQDA et IRAMUTEQ.
http://www.msh-lorraine.fr/index.php?id=623
Le projet contient 3 programmes PERL.
L'objectif consiste à récupérer des transcriptions d'entretien non structurées afin de les structurer sous la forme d'un arbre xml. L'intérêt consiste à pouvoir, in fine, identifier les tours de parole et séparer les discours des interviewés et des intervieweurs.
Features
- Conversion de formats (docx -> txt)
- Nettoyage de chaînes de caractères
- Etiquettage
- Structuration de données (txt -> xml)
Categories
Information AnalysisLicense
GNU General Public License version 3.0 (GPLv3)Follow Projet sumtec
You Might Also Like