#15 Tokeniseur : <supplied type="word_part">

open
nobody
5
2010-09-01
2010-09-01
Alexey Lavrentev
No

Le tokeniseur coupe le mot à la fin des éléments qui ont un @rend="word_part", p.ex.

lur puinnan<sic rend="parentheses;word_part">ai</sic>t Tierri

donne :

<w >lur</w><w >puinnan<sic rend="parenthes;word_part">ai</sic></w><w >t</w><w >Tierri</w>

idem pour <supplied rend="word_part">, etc.

Il y a en fait un vrai problème derrière, car il faut distinguer :
1) les balises qui se trouvent au début d'un mot -> couper avant, mais pas après ;
2) les balises qui se trouvent au mileu d'un mot -> ne pas couper ni avant ni après ;
3) les balises qui se trouvent en fin de mot -> couper après, mais pas avant.

Dans mon script, je me fiais aux espaces blancs ou autres caractères séparateurs pour ces cas (un blanc ou saut de ligne avant la balise au cas 1 ; pas de blanc au cas 2, un blanc ou une ponctuation au cas 3), mais ce n'est pas très fiable. Il faudrait peut-être introduire des sous-types de word_part pour être sûr...

Discussion