Re: [Apertium-catala] Sistema noruec en els diccionaris

SourceForge Headquarters 1320 Columbia Street Suite 310 San Diego, CA 92101 +1 (858) 422-6466

Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 de
des. 2022 a les 17:02:

> Hola,
>
> En els diccionaris occitans són un embolic perquè hi ha un fum de
> varietats i aquestes són francament diferents entre elles. A més,
> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta
> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en
> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que
> fa que una paraula (o terminació) pertanyi només a una varietat, sense que
> sigui visible per a les altres. Això multiplica el nombre de línies en els
> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i
> encara ho seran més quan afegim el provençal i el llemosí, que són els
> següents de la llista. Per això estem pensant d'introduir el sistema noruec
> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix
> el temps de compilació.
>
> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es
> guanya significativament en temps de compilació?
>
> Estem pensant de proposar fer aquest port com un projecte del Google
> Summer of Code. Us sembla raonable?
>
>
Hola Hèctor,

Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha
fet tota la feina d'integració de preferències, però ací van unes quantes
coses.

El sistema de preferències que ara mateix té apertium-cat dóna molta
flexibilitat per a certes coses, però no sé fins a quin punt resoldria el
problema principal que té l'occità, inherent a la complexitat de la mateixa
llengua. Ací [1] pots veure les preferències que hi ha ara mateixa
configurades.

Com veus, són coses que van "a part" de les diferències lèxiques entre les
variants: cobreixen sobretot diferències ortogràfiques que, a més, es poden
combinar. Per exemple, abans teníem una un català per a les universitats
valencianes que utilitzava el "lèxic valencià", marcat com a "val" als
diccionaris (p.ex. espill en lloc de mirall), però utilitzava les normés
d'accentuació "catalanes" (cafè, anglès,...) i els accents diacrítics
post-reforma 2017. En canvi, la variant que féiem servir a Softcatalà era
també lèxic valencià, però normes d'accentuació valencianes i diacrítics
pre-reforma 2017. Després, estava la variant que volia la Generalitat
Valenciana: lèxic valencià i normes d'accentuació valencianes, però
diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos en
valencià) enlloc del que la resta de variants valencianes feien servir
(Oriola). Tota eixa combinatòria feia que es generaren moltíssims
diccionaris de generació diferents (amb el seu temps de compilació
corresponent), per a cobrir tots els casos.

Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en
diferents moments de la pipeline (en aplicar el diccionari bilingüe, o
durant de la generació) es generen dues o més versions del que siga
(mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet
fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta.
Això fa que, a l'hora de compilar, només es compile un diccionari de
generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans.

Una de les parts bones és que es pot fer de manera totalment incremental:
nosaltres vam crear primer que res una preferència al spa-cat per als
topònims (oficials vs tradicionals), i amb això vam resoldre una de les
dimensions que teníem, reduint el nombre de diccionaris compilats. En
canvi, la preferència del lèxic valencià encara no està (totalment)
integrada als diccionaris, per la qual cosa encara es compilen diccionaris
de generació diferents per al català i el valencià.

Amb una desconeixença elevada de l'occità, el que jo recomanaria és deixar
de pensar tant en variants o dialectes i més en "característiques" que
puguen ser compartides pels diferents dialectes. Un bon exemple és la
preferència "motle" a l'apertium-cat: permet generar paraules com motle o
ametla vs motlle o ametlla, de forma totalment desacoblada de les variants
dialectals.

Exemples podrien ser (si els articles sobre aranés a la Wikipedia són
correctes, i foren trets compartits entre dialectes), els plurals femenins
amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer
(haver en català). Si eixes dues coses es modelen com a diferents
"preferències", en lloc de com a "variants dialectals" (ja siga amb alt o
amb vr o v), després es pot o bé combinar amb els diccionaris dialectals
existents, creant fitxers de preferències per a modes específics (ací pots
veure en què s'ha convertit el mode de valencià de la GVA [2]), o també
exposant-ho a les interfícies perquè l'usuari trie la combinació de
preferències que vol.

Finalment, respecte a si paga la pena o no, segurament és algo que haureu
de considerar vosaltres. Una migració completa segurament requereix un
esforç molt significatiu. I potser no compensa la reducció del temps de
compilació. Però si (per exemple), el provençal i el llemosí es poden
modelar totalment com a un conjunt de característiques compartides (per
exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa
Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu
estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els
diccionaris compilats.

No sé si he ajudat massa... 😅

[1] https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml
[2]
https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx

-- 
< Xavi Ivars >
< http://xavi.ivars.me >

Re: [Apertium-catala] Sistema noruec en els diccionaris

The free and open-source rule-based machine translation platform

Re: [Apertium-catala] Sistema noruec en els diccionaris