TXM / Bugs / #14 Tokeniseur : <seg type="word

#14 Tokeniseur : <seg type="word_part">

Status: open

Owner: nobody

Labels: None

Priority: 5

Updated: 2010-09-01

Created: 2010-09-01

Creator: Alexey Lavrentev

Private: No

Dans la qgraal_cm, j'utilise des balises <seg type="word_part"> pour indiquer les parties d'un mot unique qui sont "coupés" par un blanc dans le manuscrit.
Par exemple :

l'<seg type="word_part" rend="degl">en</seg><seg type="word_part">mena</seg>

Le tokeniseur les coupe et produit de l'xml mal formé si le token finit par une apostrophe

Tokeniseur : <seg type="word_part">

Unicode-XML-TEI text/corpus analysis platform

Group

Searches

Help

#14 Tokeniseur : <seg type="word_part">

Discussion