#14 Tokeniseur : <seg type="word_part">

open
nobody
None
5
2010-09-01
2010-09-01
Alexey Lavrentev
No

Dans la qgraal_cm, j'utilise des balises <seg type="word_part"> pour indiquer les parties d'un mot unique qui sont "coupés" par un blanc dans le manuscrit.
Par exemple :

l'<seg type="word_part" rend="degl">en</seg><seg type="word_part">mena</seg>

<seg type="word_part" rend="degl">jus</seg><seg type="word_part">qu'</w>

Le tokeniseur les coupe et produit de l'xml mal formé si le token finit par une apostrophe

<w >l'</w>
<w ><seg type="word_part" rend="degl">en</seg></w>
<w ><seg type="word_part">mena</seg></w>

<w ><seg type="word_part" rend="degl">jus</seg></w>
<w ><seg type="word_part">qu'</w>
</seg>

Discussion