Beaucoup de documents Word ou ODT soumis pour tests ont cette caractéristique étrange : après conversion par Writer2Xhtml, beaucoup de mots sont en span d\'une lettre, donc à la fin dans tmp.xml on a par exemple pour bonjour <mot doSpace=\"false\">b</mot><mot doSpace=\"false\">o</mot><mot doSpace=\"false\">n</mot><mot doSpace=\"false\">j</mot><mot doSpace=\"false\">o</mot><mot doSpace=\"false\">u</mot><mot doSpace=\"false\">r</mot>
Ce qui alourdit énormément le traitement en intégral et en abrégé plein de mots ne peuvent être abrégés.
Ce cas est aussi d\'ailleurs systématique lors des lettres majuscules accentuées : writer2xhtml leur fait un \"span\" pour elles seules.
DONC : faudrait, avant traitement, soit au niveau du xhtml soit du tmp.xml, proposer la possibilité de faire une passe supplémentaire de \"nettoyage\" du fichier avant transcription.
exemple de document qui a le souci décrit plus haut