Dans la qgraal_cm, j'utilise des balises <seg type="word_part"> pour indiquer les parties d'un mot unique qui sont "coupés" par un blanc dans le manuscrit.
Par exemple :
l'<seg type="word_part" rend="degl">en</seg><seg type="word_part">mena</seg>
<seg type="word_part" rend="degl">jus</seg><seg type="word_part">qu'</w>
Le tokeniseur les coupe et produit de l'xml mal formé si le token finit par une apostrophe
<w >l'</w>
<w ><seg type="word_part" rend="degl">en</seg></w>
<w ><seg type="word_part">mena</seg></w>
<w ><seg type="word_part" rend="degl">jus</seg></w>
<w ><seg type="word_part">qu'</w>
</seg>