|
From: Xavi I. <xav...@gm...> - 2022-12-18 17:17:23
|
Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 de des. 2022 a les 17:02: > Hola, > > En els diccionaris occitans són un embolic perquè hi ha un fum de > varietats i aquestes són francament diferents entre elles. A més, > l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta > varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en > els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que > fa que una paraula (o terminació) pertanyi només a una varietat, sense que > sigui visible per a les altres. Això multiplica el nombre de línies en els > diccionaris. Tot plegat fa que els temps de compilació ja són enormes i > encara ho seran més quan afegim el provençal i el llemosí, que són els > següents de la llista. Per això estem pensant d'introduir el sistema noruec > que, per una banda, dona més flexibilitat i, per altra, sembla que redueix > el temps de compilació. > > Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es > guanya significativament en temps de compilació? > > Estem pensant de proposar fer aquest port com un projecte del Google > Summer of Code. Us sembla raonable? > > Hola Hèctor, Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha fet tota la feina d'integració de preferències, però ací van unes quantes coses. El sistema de preferències que ara mateix té apertium-cat dóna molta flexibilitat per a certes coses, però no sé fins a quin punt resoldria el problema principal que té l'occità, inherent a la complexitat de la mateixa llengua. Ací [1] pots veure les preferències que hi ha ara mateixa configurades. Com veus, són coses que van "a part" de les diferències lèxiques entre les variants: cobreixen sobretot diferències ortogràfiques que, a més, es poden combinar. Per exemple, abans teníem una un català per a les universitats valencianes que utilitzava el "lèxic valencià", marcat com a "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les normés d'accentuació "catalanes" (cafè, anglès,...) i els accents diacrítics post-reforma 2017. En canvi, la variant que féiem servir a Softcatalà era també lèxic valencià, però normes d'accentuació valencianes i diacrítics pre-reforma 2017. Després, estava la variant que volia la Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos en valencià) enlloc del que la resta de variants valencianes feien servir (Oriola). Tota eixa combinatòria feia que es generaren moltíssims diccionaris de generació diferents (amb el seu temps de compilació corresponent), per a cobrir tots els casos. Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en diferents moments de la pipeline (en aplicar el diccionari bilingüe, o durant de la generació) es generen dues o més versions del que siga (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. Això fa que, a l'hora de compilar, només es compile un diccionari de generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. Una de les parts bones és que es pot fer de manera totalment incremental: nosaltres vam crear primer que res una preferència al spa-cat per als topònims (oficials vs tradicionals), i amb això vam resoldre una de les dimensions que teníem, reduint el nombre de diccionaris compilats. En canvi, la preferència del lèxic valencià encara no està (totalment) integrada als diccionaris, per la qual cosa encara es compilen diccionaris de generació diferents per al català i el valencià. Amb una desconeixença elevada de l'occità, el que jo recomanaria és deixar de pensar tant en variants o dialectes i més en "característiques" que puguen ser compartides pels diferents dialectes. Un bon exemple és la preferència "motle" a l'apertium-cat: permet generar paraules com motle o ametla vs motlle o ametlla, de forma totalment desacoblada de les variants dialectals. Exemples podrien ser (si els articles sobre aranés a la Wikipedia són correctes, i foren trets compartits entre dialectes), els plurals femenins amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer (haver en català). Si eixes dues coses es modelen com a diferents "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o amb vr o v), després es pot o bé combinar amb els diccionaris dialectals existents, creant fitxers de preferències per a modes específics (ací pots veure en què s'ha convertit el mode de valencià de la GVA [2]), o també exposant-ho a les interfícies perquè l'usuari trie la combinació de preferències que vol. Finalment, respecte a si paga la pena o no, segurament és algo que haureu de considerar vosaltres. Una migració completa segurament requereix un esforç molt significatiu. I potser no compensa la reducció del temps de compilació. Però si (per exemple), el provençal i el llemosí es poden modelar totalment com a un conjunt de característiques compartides (per exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els diccionaris compilats. No sé si he ajudat massa... 😅 [1] https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml [2] https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx -- < Xavi Ivars > < http://xavi.ivars.me > |