You can subscribe to this list here.
2016 |
Jan
|
Feb
(3) |
Mar
|
Apr
|
May
|
Jun
|
Jul
|
Aug
|
Sep
|
Oct
|
Nov
|
Dec
|
---|---|---|---|---|---|---|---|---|---|---|---|---|
2017 |
Jan
|
Feb
|
Mar
(1) |
Apr
(15) |
May
(3) |
Jun
(14) |
Jul
(15) |
Aug
|
Sep
(15) |
Oct
(8) |
Nov
(9) |
Dec
|
2018 |
Jan
(19) |
Feb
(5) |
Mar
(13) |
Apr
(40) |
May
(15) |
Jun
(14) |
Jul
(19) |
Aug
(3) |
Sep
(3) |
Oct
(4) |
Nov
|
Dec
(3) |
2019 |
Jan
|
Feb
|
Mar
(4) |
Apr
(4) |
May
(6) |
Jun
(24) |
Jul
(8) |
Aug
|
Sep
(17) |
Oct
(15) |
Nov
|
Dec
(5) |
2020 |
Jan
(6) |
Feb
(8) |
Mar
|
Apr
|
May
(1) |
Jun
(27) |
Jul
(1) |
Aug
|
Sep
|
Oct
(1) |
Nov
(6) |
Dec
|
2021 |
Jan
|
Feb
|
Mar
(7) |
Apr
|
May
|
Jun
|
Jul
|
Aug
(6) |
Sep
|
Oct
(1) |
Nov
(5) |
Dec
|
2022 |
Jan
|
Feb
|
Mar
|
Apr
|
May
|
Jun
(1) |
Jul
|
Aug
|
Sep
|
Oct
|
Nov
|
Dec
(7) |
2023 |
Jan
|
Feb
(4) |
Mar
(1) |
Apr
|
May
|
Jun
(4) |
Jul
|
Aug
|
Sep
|
Oct
|
Nov
(4) |
Dec
|
2024 |
Jan
(1) |
Feb
|
Mar
|
Apr
|
May
|
Jun
|
Jul
|
Aug
|
Sep
|
Oct
(1) |
Nov
|
Dec
|
From: Marc R. I. <mar...@gm...> - 2024-10-09 08:11:23
|
Bon dia, Us escric per a informar-vos que he enllestit el canvi d'etiquetatge del lèxic valencià que tenim en el diccionari monolingüe català. Ja no tenim entrades amb l'atribut "vr" i les variacions es gestionen amb el nou sistema de preferències. Això implica que ja no cal compilar el diccionari monolingüe diverses vegades per a tenir una versió de cada variant; hi ha un únic diccionari que ho pot analitzar i generar tot i es trien les formes més adequades en funció del mode del parell. Notareu que la compilació és més ràpida. Només heu de revisar que no us hagi aparegut algun error de testvoc pel canvi en algunes entrades. No en seran gaires. A banda d'això, no cal fer res més. Encara hi ha marge de millora: hi ha lèxic etiquetat com un fenomen concret (per exemple, "rodó" > "redó") i lèxic inclòs en el calaix de sastre "lèxic valencià". Això es pot afinar més, però no implica cap regressió ni tocar cap parell, es pot fer quan vulguem i al ritme que vulguem. Només és qüestió de canviar el paradigma en el diccionari monolingüe per a l'entrada específica. Us faig un resum del nou etiquetatge en el diccionari monolingüe de català: 1. L'atribut "vr" ja no es fa servir. 2. El lèxic amb petites variacions ortogràfiques, sense canvis de paradigma i sinònims complets s'etiqueta amb una preferència monolingüe i està disponible per a tots els parells: <e lm="escalfar"> <i>escalf</i><par n="abander/ar__vblex"/></e> <e lm="calfar"> <p><l>calf</l><r>escalf</r></p><par n="abander/ar__vblex"/><par n="v:calfar"/></e> 3. El lèxic amb variacions més importants, fins i tot canvis de gènere/nombre, i sense importar que no siguin sinònims complets, s'etiqueta amb un comentari i s'ha de gestionar en el diccionari bilingüe de cada parell: <e lm="xocolata" c="V xocolata"><i>xocolat</i><par n="abell/a__n"/></e> <e lm="xocolate" c="V xocolata"><i>xocolate</i><par n="abric__n"/></e> A reveure, Marc Riera |
From: Hèctor A. i F. <hec...@gm...> - 2024-01-07 09:41:52
|
Per a la vostra informació, he "tancat" noves versions dels parells català-italià/italià-català i català-sard (unidireccional). Per a això també he etiquetat una nova versió d'apertium-cat. Les noves versions tenen millores significatives respecte a les anteriors (de setembre 2022 i gener 2021, respectivament). Sobretot, s'ha incrementat molt el nombre de mots en els diccionaris i, en grau més baix, les regles de desambiguació lèxica i de transferència estructural, alhora que les regles de desambiguació morfològica també han millorat. En gran part, sobretot en el cas del català-sard, aquestes noves versions són conseqüència de la publicació d'una nova versió del parell italià-sard/sard-italià que es va publicar fa tres mesos. Hèctor |
From: Marc R. I. <mar...@gm...> - 2023-11-01 10:22:34
|
Bon dia, He estat convertint entrades del diccionari bilingüe amb les antigues marques de polisèmia (SRL i SLR) a pesos: https://wiki.apertium.org/wiki/Lttoolbox/weights El que fa això és marcar un ordre en les possibles traduccions d'una entrada. Les traduccions s'ordenen de número més petit a més gran. La selecció lèxica funciona com sempre i podem seleccionar o eliminar candidats de traducció en funció del context, però podem estalviar-nos unes quantes regles lèxiques de "traducció per defecte". Em refereixo a regles com aquesta, que s'apliquen quan no s'aplica cap altra regla: <rule weight="0.5"> <match lemma="bolsa" tags="n.f.*"><select lemma="bossa"/></match> </rule> Quan vaig convertir les entrades vaig seguir la informació codificada amb SRL/SLR, però després he vist que en alguns casos no correspon amb la traducció més freqüent, com "peix". Ho podeu canviar fàcilment; només cal que tingueu en compte que el pes s'aplica en totes dues direccions i potser heu d'ajustar altres entrades. Per cert, els pesos es poden fer servir en qualsevol mòdul amb Lttoolbox (com l'anàlisi i la generació), però hi ha un bug que en limita l'ús: https://github.com/apertium/lttoolbox/issues/44 A reveure, *Marc Riera* Missatge de Jaume Ortolà i Font <jau...@gm...> del dia dc., 1 de nov. 2023 a les 8:22: > Bon dia, Hèctor. > > Marc Riera t'ho podrà explicar millor tot això. En tot cas, la selecció > lèxica continua sent necessària i es pot fer de les mateixes maneres que > abans. > > Si els casos de "tret" i "peix" van pitjor, és perquè s'han invertit les > prioritats. No hi ha realment selecció. Podríem tornar a les prioritats > anteriors, i a partir d'això treballar en mecanismes de selecció segons el > context. > > Jaume Ortolà > > > > Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dc., 1 de > nov. 2023 a les 7:56: > >> Després de llançar una nova versió de la parella sard-italià, m'estic >> posant a actualitzar la català-sard. Feia temps que no tocava el català i >> veig que hi ha molts canvis a spa-cat. No és que pretengui tocar-lo, sinó >> que és per a assegurar-me que el que canvio a apertium-cat no espatlla res. >> M'adono, però, que hi ha canvis a la selecció lèxica que no entenc. Coses >> com: >> >> <e w="1"> <p><l>pescado<s n="n"/><s n="m"/></l> <r>peix<s >> n="n"/><s n="m"/></r></p></e> >> <e w="2"> <p><l>pez<s n="n"/><s n="m"/></l> <r>peix<s >> n="n"/><s n="m"/></r></p></e> >> >> Ho he vist perquè trobo que la selecció lèxica de "tret" (disparo/rasgo) >> i "peix" (pez/pescado) ara funcionen força pitjor que abans. En canvi, per >> a "cor" (corazón/coro) és molt millor. Pensava d'afegir algunes regles de >> selecció lèxica per millorar-ho, però sembla que ara es fa per una altra >> banda... >> >> Hèctor >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Jaume O. i F. <jau...@gm...> - 2023-11-01 07:26:26
|
Bon dia. Donís Seguí em comunica que torna a haver-hi problemes importants amb la traducció de documents (en principi parla de .docx). Tornen a aparèixer plens d'asteriscs perquè no es tracta bé la formatació. ¿Podries enviar algun document d'exemple ací a la llista, Donís? Així ho podem provar i mirem què s'hi pot fer. Salutacions, Jaume Ortolà |
From: Jaume O. i F. <jau...@gm...> - 2023-11-01 07:22:37
|
Bon dia, Hèctor. Marc Riera t'ho podrà explicar millor tot això. En tot cas, la selecció lèxica continua sent necessària i es pot fer de les mateixes maneres que abans. Si els casos de "tret" i "peix" van pitjor, és perquè s'han invertit les prioritats. No hi ha realment selecció. Podríem tornar a les prioritats anteriors, i a partir d'això treballar en mecanismes de selecció segons el context. Jaume Ortolà Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dc., 1 de nov. 2023 a les 7:56: > Després de llançar una nova versió de la parella sard-italià, m'estic > posant a actualitzar la català-sard. Feia temps que no tocava el català i > veig que hi ha molts canvis a spa-cat. No és que pretengui tocar-lo, sinó > que és per a assegurar-me que el que canvio a apertium-cat no espatlla res. > M'adono, però, que hi ha canvis a la selecció lèxica que no entenc. Coses > com: > > <e w="1"> <p><l>pescado<s n="n"/><s n="m"/></l> <r>peix<s n="n"/><s > n="m"/></r></p></e> > <e w="2"> <p><l>pez<s n="n"/><s n="m"/></l> <r>peix<s n="n"/><s > n="m"/></r></p></e> > > Ho he vist perquè trobo que la selecció lèxica de "tret" (disparo/rasgo) i > "peix" (pez/pescado) ara funcionen força pitjor que abans. En canvi, per a > "cor" (corazón/coro) és molt millor. Pensava d'afegir algunes regles de > selecció lèxica per millorar-ho, però sembla que ara es fa per una altra > banda... > > Hèctor > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Hèctor A. i F. <hec...@gm...> - 2023-11-01 06:56:28
|
Després de llançar una nova versió de la parella sard-italià, m'estic posant a actualitzar la català-sard. Feia temps que no tocava el català i veig que hi ha molts canvis a spa-cat. No és que pretengui tocar-lo, sinó que és per a assegurar-me que el que canvio a apertium-cat no espatlla res. M'adono, però, que hi ha canvis a la selecció lèxica que no entenc. Coses com: <e w="1"> <p><l>pescado<s n="n"/><s n="m"/></l> <r>peix<s n="n"/><s n="m"/></r></p></e> <e w="2"> <p><l>pez<s n="n"/><s n="m"/></l> <r>peix<s n="n"/><s n="m"/></r></p></e> Ho he vist perquè trobo que la selecció lèxica de "tret" (disparo/rasgo) i "peix" (pez/pescado) ara funcionen força pitjor que abans. En canvi, per a "cor" (corazón/coro) és molt millor. Pensava d'afegir algunes regles de selecció lèxica per millorar-ho, però sembla que ara es fa per una altra banda... Hèctor |
From: Xavi I. <xav...@gm...> - 2023-06-13 16:55:30
|
Si, Tino ho acaba de forçar. Disculpa pel retard en contestar! -- Xavi Ivars < http://xavi.ivars.me > El dt., 13 de juny 2023, 18:44, Juan Pablo <jp...@un...> va escriure: > Oh, moltes gràcies! Veig que ja apareixen per a arg->cat i cat->arg en > beta! imagino que el Tino n'haurà forçat l'actualització, y les de > spa->arg apreixeran cuan toque l'actualització automàtica. > > Juan Pablo > El 13/06/2023 a las 18:20, Xavi Ivars escribió: > > Hola Juan Pablo, > > El Tino ha trobat l'error: > > > https://github.com/apertium/apertium-arg/commit/84c79d40d558fc1e200899b8660ba159016cc484 > <https://urldefense.com/v3/__https://github.com/apertium/apertium-arg/commit/84c79d40d558fc1e200899b8660ba159016cc484__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItArwBNlXY$> > > Demà ja hauríem de veure els resultats a beta > > Missatge de Juan Pablo <jp...@un...> del dia dj., 8 de juny 2023 a > les 18:06: > >> Bona vesprada, >> >> Fa alguns dies vaig enviar un parell de missatges (veure més abaix) a la >> llista general, però com que no he trobat encara la solució, us ho planteig >> aquí per veure si em podeu dir alguna cosa. >> >> En primer lloc, vaig afegir les preferències de generació en català al >> parell arg-cat. Després, vaig preparar també el parells perquè es puguen >> tenir preferències de generació en aragonés. Ara per ara, només hi una >> opció: que la conjunció copulativa ("i") siga generada com "e" o com "y" en >> aragonés. Amb temps aniré afegint més opcions d'estil. >> >> Compilats els parells al meu ordinador, les opcions i preferències >> funcionen, però no he aconseguir que apareguen en beta.apertium.org >> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >> ni per a arg->cat, cat->arg o spa->arg. Sabeu què em puc estar deixant? >> >> gràcies, >> >> Juan Pablo >> >> >> -------- Mensaje reenviado -------- >> Asunto: Re: [Apertium-stuff] Style preferences in web interface >> Fecha: Fri, 19 May 2023 00:56:08 +0200 >> De: Juan Pablo <jp...@un...> <jp...@un...> >> Para: ape...@li... >> >> Hi Daniel and everyone, >> >> I did the change below so that preferenes are installed, but >> beta.apertium.org >> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >> is not yet aware of the fact that arg->cat allows preferences. >> >> Since the last email, I also included support for preferences (only an >> option, to begin with) in Aragonese generation in spa-arg and arg-cat, so I >> would expect the dropdown menu "Style preference" to also appear in >> spa->arg and cat->arg directions. >> >> What else may I be missing? >> >> Juan Pablo >> >> >> El 13/05/2023 a las 21:30, Juan Pablo escribió: >> >> Thanks Daniel! >> >> I pushed the needed changes and I'll check when beta.apertium.org >> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >> is updated. >> >> Juan Pablo >> >> El 13/05/2023 a las 20:44, Daniel Swanson escribió: >> >> Hi Juan, >> >> The only step I can see that you're missing is that the arg-spa >> makefile doesn't install the preference files. Here's the relevant >> lines in nno-nob: >> >> >> https://urldefense.com/v3/__https://github.com/apertium/apertium-nno-nob/blob/master/Makefile.am*LL270C34-L270C34__;Iw!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zg9JV-8f8$ >> >> Daniel >> >> On Sat, May 13, 2023 at 2:06 PM Juan Pablo <jp...@un...> >> <jp...@un...> wrote: >> >> Hi, >> >> For the next version of spa-arg and arg-cat, I would like to include >> "style preferences" on Aragonese generation, so that users can chose >> different stylistic variants to be generated. >> >> In fact, the current arg-cat pair already allows "generation >> preferences" for Catalan. But I see that they do not appear in >> beta.apertium.org >> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >> when I select Aragonese -> Catalan translation, in >> contrast with what happens if I select "Spanish -> Catalan" or >> "Norwegian Bokmål -> Norwegian Nynorsk". It seems that apy/html-tools is >> not aware of arg-cat allowing preferences. How should that be indicated? >> >> Thanks, >> >> Juan Pablo >> >> >> >> _______________________________________________ >> Apertium-stuff mailing list >> Ape...@li... >> >> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >> >> >> _______________________________________________ >> Apertium-stuff mailing list >> Ape...@li... >> >> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >> >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> <https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-catala__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItAhVpw97o$> >> > > > -- > < Xavi Ivars > > < http://xavi.ivars.me > <https://urldefense.com/v3/__http://xavi.ivars.me__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItAQggFws0$> > > > > |
From: Juan P. <jp...@un...> - 2023-06-13 16:44:23
|
Oh, moltes gràcies! Veig que ja apareixen per a arg->cat i cat->arg en beta! imagino que el Tino n'haurà forçat l'actualització, y les de spa->arg apreixeran cuan toque l'actualització automàtica. Juan Pablo El 13/06/2023 a las 18:20, Xavi Ivars escribió: > Hola Juan Pablo, > > El Tino ha trobat l'error: > > https://github.com/apertium/apertium-arg/commit/84c79d40d558fc1e200899b8660ba159016cc484 > <https://urldefense.com/v3/__https://github.com/apertium/apertium-arg/commit/84c79d40d558fc1e200899b8660ba159016cc484__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItArwBNlXY$> > > Demà ja hauríem de veure els resultats a beta > > Missatge de Juan Pablo <jp...@un...> del dia dj., 8 de juny 2023 > a les 18:06: > > Bona vesprada, > > Fa alguns dies vaig enviar un parell de missatges (veure més > abaix) a la llista general, però com que no he trobat encara la > solució, us ho planteig aquí per veure si em podeu dir alguna cosa. > > En primer lloc, vaig afegir les preferències de generació en > català al parell arg-cat. Després, vaig preparar també el parells > perquè es puguen tenir preferències de generació en aragonés. Ara > per ara, només hi una opció: que la conjunció copulativa ("i") > siga generada com "e" o com "y" en aragonés. Amb temps aniré > afegint més opcions d'estil. > > Compilats els parells al meu ordinador, les opcions i preferències > funcionen, però no he aconseguir que apareguen en > beta.apertium.org > <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> > ni per a arg->cat, cat->arg o spa->arg. Sabeu què em puc estar > deixant? > > gràcies, > > Juan Pablo > > > > -------- Mensaje reenviado -------- > Asunto: Re: [Apertium-stuff] Style preferences in web interface > Fecha: Fri, 19 May 2023 00:56:08 +0200 > De: Juan Pablo <jp...@un...> <mailto:jp...@un...> > Para: ape...@li... > > > > Hi Daniel and everyone, > > I did the change below so that preferenes are installed, but > beta.apertium.org > <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> > is not yet aware of the fact that arg->cat allows preferences. > > Since the last email, I also included support for preferences > (only an option, to begin with) in Aragonese generation in spa-arg > and arg-cat, so I would expect the dropdown menu "Style > preference" to also appear in spa->arg and cat->arg directions. > > What else may I be missing? > > Juan Pablo > > > El 13/05/2023 a las 21:30, Juan Pablo escribió: >> Thanks Daniel! >> >> I pushed the needed changes and I'll check when beta.apertium.org >> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >> is updated. >> >> Juan Pablo >> >> El 13/05/2023 a las 20:44, Daniel Swanson escribió: >>> Hi Juan, >>> >>> The only step I can see that you're missing is that the arg-spa >>> makefile doesn't install the preference files. Here's the relevant >>> lines in nno-nob: >>> >>> https://urldefense.com/v3/__https://github.com/apertium/apertium-nno-nob/blob/master/Makefile.am*LL270C34-L270C34__;Iw!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zg9JV-8f8$ >>> >>> >>> Daniel >>> >>> On Sat, May 13, 2023 at 2:06 PM Juan Pablo <jp...@un...> >>> <mailto:jp...@un...> wrote: >>>> Hi, >>>> >>>> For the next version of spa-arg and arg-cat, I would like to >>>> include >>>> "style preferences" on Aragonese generation, so that users can >>>> chose >>>> different stylistic variants to be generated. >>>> >>>> In fact, the current arg-cat pair already allows "generation >>>> preferences" for Catalan. But I see that they do not appear in >>>> beta.apertium.org >>>> <https://urldefense.com/v3/__http://beta.apertium.org__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItA8edxwww$> >>>> when I select Aragonese -> Catalan translation, in >>>> contrast with what happens if I select "Spanish -> Catalan" or >>>> "Norwegian Bokmål -> Norwegian Nynorsk". It seems that >>>> apy/html-tools is >>>> not aware of arg-cat allowing preferences. How should that be >>>> indicated? >>>> >>>> Thanks, >>>> >>>> Juan Pablo >>>> >>>> >>>> >>>> _______________________________________________ >>>> Apertium-stuff mailing list >>>> Ape...@li... >>>> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >>>> >>> >>> _______________________________________________ >>> Apertium-stuff mailing list >>> Ape...@li... >>> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >>> > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > <https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-catala__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItAhVpw97o$> > > > > -- > < Xavi Ivars > > < http://xavi.ivars.me > <https://urldefense.com/v3/__http://xavi.ivars.me__;!!D9dNQwwGXtA!VPjPQKNkDobHUUgS7Pgk7nzReEsATCu6mMPo7yevasuTO6P-j-x0DME8ohk-MFNlV86lP4Zj8ItAQggFws0$> > > |
From: Xavi I. <xav...@gm...> - 2023-06-13 16:20:51
|
Hola Juan Pablo, El Tino ha trobat l'error: https://github.com/apertium/apertium-arg/commit/84c79d40d558fc1e200899b8660ba159016cc484 Demà ja hauríem de veure els resultats a beta Missatge de Juan Pablo <jp...@un...> del dia dj., 8 de juny 2023 a les 18:06: > Bona vesprada, > > Fa alguns dies vaig enviar un parell de missatges (veure més abaix) a la > llista general, però com que no he trobat encara la solució, us ho planteig > aquí per veure si em podeu dir alguna cosa. > > En primer lloc, vaig afegir les preferències de generació en català al > parell arg-cat. Després, vaig preparar també el parells perquè es puguen > tenir preferències de generació en aragonés. Ara per ara, només hi una > opció: que la conjunció copulativa ("i") siga generada com "e" o com "y" en > aragonés. Amb temps aniré afegint més opcions d'estil. > > Compilats els parells al meu ordinador, les opcions i preferències > funcionen, però no he aconseguir que apareguen en beta.apertium.org ni > per a arg->cat, cat->arg o spa->arg. Sabeu què em puc estar deixant? > > gràcies, > > Juan Pablo > > > -------- Mensaje reenviado -------- > Asunto: Re: [Apertium-stuff] Style preferences in web interface > Fecha: Fri, 19 May 2023 00:56:08 +0200 > De: Juan Pablo <jp...@un...> <jp...@un...> > Para: ape...@li... > > Hi Daniel and everyone, > > I did the change below so that preferenes are installed, but > beta.apertium.org is not yet aware of the fact that arg->cat allows > preferences. > > Since the last email, I also included support for preferences (only an > option, to begin with) in Aragonese generation in spa-arg and arg-cat, so I > would expect the dropdown menu "Style preference" to also appear in > spa->arg and cat->arg directions. > > What else may I be missing? > > Juan Pablo > > > El 13/05/2023 a las 21:30, Juan Pablo escribió: > > Thanks Daniel! > > I pushed the needed changes and I'll check when beta.apertium.org is > updated. > > Juan Pablo > > El 13/05/2023 a las 20:44, Daniel Swanson escribió: > > Hi Juan, > > The only step I can see that you're missing is that the arg-spa > makefile doesn't install the preference files. Here's the relevant > lines in nno-nob: > > > https://urldefense.com/v3/__https://github.com/apertium/apertium-nno-nob/blob/master/Makefile.am*LL270C34-L270C34__;Iw!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zg9JV-8f8$ > > Daniel > > On Sat, May 13, 2023 at 2:06 PM Juan Pablo <jp...@un...> > <jp...@un...> wrote: > > Hi, > > For the next version of spa-arg and arg-cat, I would like to include > "style preferences" on Aragonese generation, so that users can chose > different stylistic variants to be generated. > > In fact, the current arg-cat pair already allows "generation > preferences" for Catalan. But I see that they do not appear in > beta.apertium.org when I select Aragonese -> Catalan translation, in > contrast with what happens if I select "Spanish -> Catalan" or > "Norwegian Bokmål -> Norwegian Nynorsk". It seems that apy/html-tools is > not aware of arg-cat allowing preferences. How should that be indicated? > > Thanks, > > Juan Pablo > > > > _______________________________________________ > Apertium-stuff mailing list > Ape...@li... > > https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ > > > _______________________________________________ > Apertium-stuff mailing list > Ape...@li... > > https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ > > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > -- < Xavi Ivars > < http://xavi.ivars.me > |
From: Juan P. <jp...@un...> - 2023-06-08 16:06:07
|
Bona vesprada, Fa alguns dies vaig enviar un parell de missatges (veure més abaix) a la llista general, però com que no he trobat encara la solució, us ho planteig aquí per veure si em podeu dir alguna cosa. En primer lloc, vaig afegir les preferències de generació en català al parell arg-cat. Després, vaig preparar també el parells perquè es puguen tenir preferències de generació en aragonés. Ara per ara, només hi una opció: que la conjunció copulativa ("i") siga generada com "e" o com "y" en aragonés. Amb temps aniré afegint més opcions d'estil. Compilats els parells al meu ordinador, les opcions i preferències funcionen, però no he aconseguir que apareguen en beta.apertium.org ni per a arg->cat, cat->arg o spa->arg. Sabeu què em puc estar deixant? gràcies, Juan Pablo -------- Mensaje reenviado -------- Asunto: Re: [Apertium-stuff] Style preferences in web interface Fecha: Fri, 19 May 2023 00:56:08 +0200 De: Juan Pablo <jp...@un...> Para: ape...@li... Hi Daniel and everyone, I did the change below so that preferenes are installed, but beta.apertium.org is not yet aware of the fact that arg->cat allows preferences. Since the last email, I also included support for preferences (only an option, to begin with) in Aragonese generation in spa-arg and arg-cat, so I would expect the dropdown menu "Style preference" to also appear in spa->arg and cat->arg directions. What else may I be missing? Juan Pablo El 13/05/2023 a las 21:30, Juan Pablo escribió: > Thanks Daniel! > > I pushed the needed changes and I'll check when beta.apertium.org is > updated. > > Juan Pablo > > El 13/05/2023 a las 20:44, Daniel Swanson escribió: >> Hi Juan, >> >> The only step I can see that you're missing is that the arg-spa >> makefile doesn't install the preference files. Here's the relevant >> lines in nno-nob: >> >> https://urldefense.com/v3/__https://github.com/apertium/apertium-nno-nob/blob/master/Makefile.am*LL270C34-L270C34__;Iw!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zg9JV-8f8$ >> >> >> Daniel >> >> On Sat, May 13, 2023 at 2:06 PM Juan Pablo <jp...@un...> wrote: >>> Hi, >>> >>> For the next version of spa-arg and arg-cat, I would like to include >>> "style preferences" on Aragonese generation, so that users can chose >>> different stylistic variants to be generated. >>> >>> In fact, the current arg-cat pair already allows "generation >>> preferences" for Catalan. But I see that they do not appear in >>> beta.apertium.org when I select Aragonese -> Catalan translation, in >>> contrast with what happens if I select "Spanish -> Catalan" or >>> "Norwegian Bokmål -> Norwegian Nynorsk". It seems that apy/html-tools is >>> not aware of arg-cat allowing preferences. How should that be indicated? >>> >>> Thanks, >>> >>> Juan Pablo >>> >>> >>> >>> _______________________________________________ >>> Apertium-stuff mailing list >>> Ape...@li... >>> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >>> >> >> _______________________________________________ >> Apertium-stuff mailing list >> Ape...@li... >> https://urldefense.com/v3/__https://lists.sourceforge.net/lists/listinfo/apertium-stuff__;!!D9dNQwwGXtA!QtUltwQRp5oPxLlJ_8KQh20eNmDugZruZ_gjDzOW0m_tS8Hl-HS-863IGKbTZzzo51kzq0XdmUKtjyXVh8zgK8mq5gI$ >> |
From: Marc R. I. <mar...@gm...> - 2023-03-14 07:01:05
|
Bon dia, Com ja sabeu, estic treballant en la transició del sistema de "variants" que teníem fins ara en el diccionari monolingüe (i en alguns parells) al nou sistema de preferències. Actualment, queden molt poques entrades per convertir i ja hem pogut prescindir d'una de les dues compilacions per al valencià. Notareu que la compilació de l'apertium-cat és una mica més ràpida. Les darreres entrades que cal convertir tenen certes particularitats que vull compartir perquè doneu la vostra opinió i acordem un etiquetatge que ens agradi. Fins ara, he classificat el lèxic que teníem com a "valencià" en diversos grups, en funció del fenomen concret. Per exemple, tenim casos com "meva/meua" o "nedar/nadar". Es pot triar una preferència que aplica el canvi desitjat a totes les paraules que comparteixen el grup. Tot això ho tenim en el monolingüe i es pot triar en qualsevol parell. El que queda ara són doblets català/valencià que gestionem de manera desigual, unes vegades en el monolingüe i altres en el bilingüe. Parlo de "dipòsit/depòsit" (monolingüe) i "rentar/llavar" (bilingüe), per exemple. Gestionar aquests doblets en el monolingüe té com a avantatges poder fer-los servir en qualsevol parell sense canvis i que l'entrada amb la preferència queda vinculada a l'entrada base (i és fàcil veure que les dues paraules tenen una relació). En contrapartida, no podem fer canvis complexos (flexió diferent, per exemple), que cal gestionar en els diccionaris bilingües dels parells. Per tant, tindríem: - Doblets en el diccionari monolingüe: canvis menors, ortogràfics ("dipòsit/depòsit"). - Doblets en el diccionari bilingüe: paraules diferents ("rentar/llavar"). Hi ha algun canvi menor gestionat actualment amb aquest sistema que es pot transferir al diccionari monolingüe. Dit tot això, ara que coneixeu tot el context, el detall que m'interessa comentar: en el cas dels doblets que tractem en el diccionari bilingüe, no hi ha cap indicació en el diccionari monolingüe que proporcioni informació sobre això. Només hi ha l'atribut "v", que indica la variant, però no quina és l'altra meitat del doblet. Tornem als exemples anteriors: Rentar: <e lm="rentar" v="cat"><i>rent</i><par n="abander/ar__vblex"/></e> Llavar: <e lm="llavar" v="val_gva val_uni"><i>llav</i><par n="abander/ar__vblex"/></e> Com que, amb el canvi a preferències, llevem l'atribut "v", queden dues entrades sense res que doni cap informació dialectal. Seria interessant poder indicar alguna mena de relació entre les dues entrades en el diccionari monolingüe, encara que estrictament no s'utilitzi ni en l'anàlisi ni en la generació. En altres paraules, una mena de "recordatori" per a qui estigui desenvolupant el diccionari bilingüe. He pensat recórrer a l'atribut "c" que tenim per a comentaris, com a mínim per a no perdre l'etiqueta de variant que teníem fins ara, i podríem indicar d'alguna manera un lema "base" compartit que vinculi les dues entrades i que permeti trobar fàcilment una des de l'altra. A tall d'exemple, una idea: Rentar: <e lm="rentar" c="v:cat rentar"> <i>rent</i><par n="abander/ar__vblex"/></e> Llavar: <e lm="llavar" c="v:val rentar"><i>llav</i><par n="abander/ar__vblex"/></e> Què en penseu? A reveure, *Marc Riera* |
From: Marc R. I. <mar...@gm...> - 2023-02-08 11:21:52
|
Bon dia, M'havia oblidat d'indicar en el missatge anterior el commit a apertium-cat que correspon a les modificacions (potser ja l'heu vist). Simplement perquè quedi més clar: https://github.com/apertium/apertium-cat/commit/8dbefcc637d67267890a1d7e38cf0b1251f57f2f Ens falta documentar en la wiki totes les preferències que hi ha i com afegir entrades noves. De moment, si són petites variacions ortogràfiques, n'hi ha prou amb indicar una entrada en el bilingüe i dues entrades enllaçades en el monolingüe català (cerqueu "nedar" i "nadar" i veureu com enllaçar-les i indicar la preferència). A l'inici del diccionari hi ha els paradigmes de preferències disponibles; si no n'hi ha cap que serveixi, "v:lexic_val" fa actualment de comodí. Quan hi hagi més canvis avisarem per aquí. El parell castellà-català és el més afectat, però hi ha algun altre parell que també admet el valencià i que cal modificar. Gràcies! *Marc Riera* Missatge de Donís Seguí <don...@gm...> del dia dc., 8 de febr. 2023 a les 12:07: > Bon dia, > > Gràcies per la resposta, Marc. > > Havíem fet l'escrit perquè ens preocupava que desapareguen. Al mateix > temps, us preguntem si a partir d'ara continuem fent el mateix, és a dir, > si introduïm una paraula nova que pot tindre formes diferents per a > oriental i la nostra, si continuem fent la diferència. > > Gràcies > > Missatge de Marc Riera Irigoyen <mar...@gm...> del dia > dc., 8 de febr. 2023 a les 10:15: > >> Bon dia, Donís, >> >> Gràcies per preguntar-ho. Encara que a primera vista pugui semblar que >> s'han llevat les formes valencianes, no hi ha hagut cap regressió i els >> resultats són els mateixos. >> >> La gestió d'aquestes formes s'ha traslladat al mòdul monolingüe >> (apertium-cat) amb un model de "preferències". Les marques "val_gva" i >> "val_uni", que aporten poca flexibilitat i són una càrrega en la >> compilació, desapareixen progressivament dels diccionaris i se >> substitueixen per opcions més específiques que l'usuari final pot activar o >> desactivar. Els modes actuals dels parells no es perden: segueixen existint >> com a conjunts predefinits d'opcions. Els modes de valencià apliquen >> aquestes opcions com fins ara, i no hem detectat diferències en les proves >> diàries (en Xavi Ivars, en Jaume Ortolà i jo mateix revisem que els canvis >> no provoquin regressions per a ningú, especialment per al Salt). >> >> En el cas de "nedar/nadar", per exemple, es demana generar "nedar" (la >> forma base) i durant la generació es decideix si es genera "nedar" o >> "nadar" en funció de si l'usuari ho ha demanat o de si el mode de traducció >> és de valencià. L'avantatge d'aquestes preferències, a banda de reduir el >> temps de compilació, és que es comparteixen automàticament amb tots els >> parells si es defineixen en el mòdul monolingüe. Qualsevol parell que >> inclogui "nedar" ara pot analitzar i generar "nedar/nadar". També hi ha >> preferències bilingües, com els topònims de la GVA i, pròximament, el lèxic >> valencià que no es pugui classificar en cap categoria més específica. Això >> es mantindrà en els parells, però canviarà la manera de definir-ho. En >> parlarem per aquí, tinc dubtes sobre com enfocar-ho. >> >> Aquestes preferències es poden provar en una versió anterior a >> https://beta.apertium.org. També tens més detalls en missatges anteriors >> de la llista de correu; els deixo a continuació (llegeix el fil sencer). >> Igualment, si hi ha res que no quedi clar o que no et sembli bé, estaré >> encantat d'ajudar! >> >> https://sourceforge.net/p/apertium/mailman/message/37376651/ >> https://sourceforge.net/p/apertium/mailman/message/37748235/ >> >> A reveure, >> >> *Marc Riera* >> >> >> Missatge de Donís Seguí <don...@gm...> del dia dc., 8 de febr. >> 2023 a les 9:41: >> >>> Bon dia, >>> >>> El grup que ens dediquem a desenvolupar el Salt, hem vist en gitub que >>> ahir Marc Riera va fer uns canvis en el SPA-CAT, en què suprimeix algunes >>> formes que estaven marcades com a "Val_gva val_uni", com ara "arrancada", >>> "xarrada", "xarrar", "nadar", "amerar"... >>> >>> Aquestes formes, com que estan marcades com a "val_gva val_uni", tal com >>> estan posades, només tenen efecte en el Salt, i volíem saber per què s'han >>> suprimit, si no afecten la variant oriental. >>> >>> Nosaltres posem de vegades alguna forma valenciana, marcada com a tal, i >>> ho consultem sempre abans amb Jaume. >>> >>> Per això volíem saber per què s'han fet aquests canvis i si se'n faran >>> més. >>> >>> Considerem que l'únic que s'ha fet és llevar la variant valenciana, cosa >>> que no afecta la variant l'oriental i, per tant, nosaltres l'hauríem de >>> tornar a posar, perquè així ho necessitem per al Salt. >>> >>> Esperem les vostres respostes >>> >>> >>> Atentament, >>> >>> Donís Seguí >>> >>> >>> _______________________________________________ >>> Apertium-catala mailing list >>> Ape...@li... >>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>> >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > |
From: Donís S. <don...@gm...> - 2023-02-08 11:07:16
|
Bon dia, Gràcies per la resposta, Marc. Havíem fet l'escrit perquè ens preocupava que desapareguen. Al mateix temps, us preguntem si a partir d'ara continuem fent el mateix, és a dir, si introduïm una paraula nova que pot tindre formes diferents per a oriental i la nostra, si continuem fent la diferència. Gràcies Missatge de Marc Riera Irigoyen <mar...@gm...> del dia dc., 8 de febr. 2023 a les 10:15: > Bon dia, Donís, > > Gràcies per preguntar-ho. Encara que a primera vista pugui semblar que > s'han llevat les formes valencianes, no hi ha hagut cap regressió i els > resultats són els mateixos. > > La gestió d'aquestes formes s'ha traslladat al mòdul monolingüe > (apertium-cat) amb un model de "preferències". Les marques "val_gva" i > "val_uni", que aporten poca flexibilitat i són una càrrega en la > compilació, desapareixen progressivament dels diccionaris i se > substitueixen per opcions més específiques que l'usuari final pot activar o > desactivar. Els modes actuals dels parells no es perden: segueixen existint > com a conjunts predefinits d'opcions. Els modes de valencià apliquen > aquestes opcions com fins ara, i no hem detectat diferències en les proves > diàries (en Xavi Ivars, en Jaume Ortolà i jo mateix revisem que els canvis > no provoquin regressions per a ningú, especialment per al Salt). > > En el cas de "nedar/nadar", per exemple, es demana generar "nedar" (la > forma base) i durant la generació es decideix si es genera "nedar" o > "nadar" en funció de si l'usuari ho ha demanat o de si el mode de traducció > és de valencià. L'avantatge d'aquestes preferències, a banda de reduir el > temps de compilació, és que es comparteixen automàticament amb tots els > parells si es defineixen en el mòdul monolingüe. Qualsevol parell que > inclogui "nedar" ara pot analitzar i generar "nedar/nadar". També hi ha > preferències bilingües, com els topònims de la GVA i, pròximament, el lèxic > valencià que no es pugui classificar en cap categoria més específica. Això > es mantindrà en els parells, però canviarà la manera de definir-ho. En > parlarem per aquí, tinc dubtes sobre com enfocar-ho. > > Aquestes preferències es poden provar en una versió anterior a > https://beta.apertium.org. També tens més detalls en missatges anteriors > de la llista de correu; els deixo a continuació (llegeix el fil sencer). > Igualment, si hi ha res que no quedi clar o que no et sembli bé, estaré > encantat d'ajudar! > > https://sourceforge.net/p/apertium/mailman/message/37376651/ > https://sourceforge.net/p/apertium/mailman/message/37748235/ > > A reveure, > > *Marc Riera* > > > Missatge de Donís Seguí <don...@gm...> del dia dc., 8 de febr. > 2023 a les 9:41: > >> Bon dia, >> >> El grup que ens dediquem a desenvolupar el Salt, hem vist en gitub que >> ahir Marc Riera va fer uns canvis en el SPA-CAT, en què suprimeix algunes >> formes que estaven marcades com a "Val_gva val_uni", com ara "arrancada", >> "xarrada", "xarrar", "nadar", "amerar"... >> >> Aquestes formes, com que estan marcades com a "val_gva val_uni", tal com >> estan posades, només tenen efecte en el Salt, i volíem saber per què s'han >> suprimit, si no afecten la variant oriental. >> >> Nosaltres posem de vegades alguna forma valenciana, marcada com a tal, i >> ho consultem sempre abans amb Jaume. >> >> Per això volíem saber per què s'han fet aquests canvis i si se'n faran >> més. >> >> Considerem que l'únic que s'ha fet és llevar la variant valenciana, cosa >> que no afecta la variant l'oriental i, per tant, nosaltres l'hauríem de >> tornar a posar, perquè així ho necessitem per al Salt. >> >> Esperem les vostres respostes >> >> >> Atentament, >> >> Donís Seguí >> >> >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Marc R. I. <mar...@gm...> - 2023-02-08 09:16:29
|
Bon dia, Donís, Gràcies per preguntar-ho. Encara que a primera vista pugui semblar que s'han llevat les formes valencianes, no hi ha hagut cap regressió i els resultats són els mateixos. La gestió d'aquestes formes s'ha traslladat al mòdul monolingüe (apertium-cat) amb un model de "preferències". Les marques "val_gva" i "val_uni", que aporten poca flexibilitat i són una càrrega en la compilació, desapareixen progressivament dels diccionaris i se substitueixen per opcions més específiques que l'usuari final pot activar o desactivar. Els modes actuals dels parells no es perden: segueixen existint com a conjunts predefinits d'opcions. Els modes de valencià apliquen aquestes opcions com fins ara, i no hem detectat diferències en les proves diàries (en Xavi Ivars, en Jaume Ortolà i jo mateix revisem que els canvis no provoquin regressions per a ningú, especialment per al Salt). En el cas de "nedar/nadar", per exemple, es demana generar "nedar" (la forma base) i durant la generació es decideix si es genera "nedar" o "nadar" en funció de si l'usuari ho ha demanat o de si el mode de traducció és de valencià. L'avantatge d'aquestes preferències, a banda de reduir el temps de compilació, és que es comparteixen automàticament amb tots els parells si es defineixen en el mòdul monolingüe. Qualsevol parell que inclogui "nedar" ara pot analitzar i generar "nedar/nadar". També hi ha preferències bilingües, com els topònims de la GVA i, pròximament, el lèxic valencià que no es pugui classificar en cap categoria més específica. Això es mantindrà en els parells, però canviarà la manera de definir-ho. En parlarem per aquí, tinc dubtes sobre com enfocar-ho. Aquestes preferències es poden provar en una versió anterior a https://beta.apertium.org. També tens més detalls en missatges anteriors de la llista de correu; els deixo a continuació (llegeix el fil sencer). Igualment, si hi ha res que no quedi clar o que no et sembli bé, estaré encantat d'ajudar! https://sourceforge.net/p/apertium/mailman/message/37376651/ https://sourceforge.net/p/apertium/mailman/message/37748235/ A reveure, *Marc Riera* Missatge de Donís Seguí <don...@gm...> del dia dc., 8 de febr. 2023 a les 9:41: > Bon dia, > > El grup que ens dediquem a desenvolupar el Salt, hem vist en gitub que > ahir Marc Riera va fer uns canvis en el SPA-CAT, en què suprimeix algunes > formes que estaven marcades com a "Val_gva val_uni", com ara "arrancada", > "xarrada", "xarrar", "nadar", "amerar"... > > Aquestes formes, com que estan marcades com a "val_gva val_uni", tal com > estan posades, només tenen efecte en el Salt, i volíem saber per què s'han > suprimit, si no afecten la variant oriental. > > Nosaltres posem de vegades alguna forma valenciana, marcada com a tal, i > ho consultem sempre abans amb Jaume. > > Per això volíem saber per què s'han fet aquests canvis i si se'n faran > més. > > Considerem que l'únic que s'ha fet és llevar la variant valenciana, cosa > que no afecta la variant l'oriental i, per tant, nosaltres l'hauríem de > tornar a posar, perquè així ho necessitem per al Salt. > > Esperem les vostres respostes > > > Atentament, > > Donís Seguí > > > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Donís S. <don...@gm...> - 2023-02-08 08:41:39
|
Bon dia, El grup que ens dediquem a desenvolupar el Salt, hem vist en gitub que ahir Marc Riera va fer uns canvis en el SPA-CAT, en què suprimeix algunes formes que estaven marcades com a "Val_gva val_uni", com ara "arrancada", "xarrada", "xarrar", "nadar", "amerar"... Aquestes formes, com que estan marcades com a "val_gva val_uni", tal com estan posades, només tenen efecte en el Salt, i volíem saber per què s'han suprimit, si no afecten la variant oriental. Nosaltres posem de vegades alguna forma valenciana, marcada com a tal, i ho consultem sempre abans amb Jaume. Per això volíem saber per què s'han fet aquests canvis i si se'n faran més. Considerem que l'únic que s'ha fet és llevar la variant valenciana, cosa que no afecta la variant l'oriental i, per tant, nosaltres l'hauríem de tornar a posar, perquè així ho necessitem per al Salt. Esperem les vostres respostes Atentament, Donís Seguí |
From: Marc R. I. <mar...@gm...> - 2022-12-20 19:18:44
|
Hola, Aquest cas de "hui" i "avui" és molt específic; és un doblet indicat en els criteris lingüístics de la GVA. Normalment les preferències s'apliquen a diversos lemes d'una categoria, ja sigui el cas "ametlla"/"ametla" o els numerals [1]. Si féssim això per a cada lema, com dius, seria una feinada i segurament no cal filar tan prim. Estic d'acord que és una possible tasca per a un GSoC, tot i que és més una tasca lingüística molt especialitzada (definir criteris i classificar lemes) que una tasca tècnica. A reveure, *Marc Riera* [1] https://github.com/apertium/apertium-cat/commit/25d9acc93175ca2580e3736170d664aebb5e973d Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 20 de des. 2022 a les 18:06: > Gràcies, Marc, pels aclariments. A més, el teu darrer commit serveix bé > com a exemple: > https://github.com/apertium/apertium-cat/commit/c8626b3b90905f9e27f0e9c38cde03a9473dae68#diff-c69b3a1a7d3affcd318392f71bc53df1dade27bcb1ed73952eb7d70c8786adcb > > Això realment és un treball de rellotger si per a cada forma marcada com a > divergent (p. ex. "hui") se li associa una forma considerada > convencionalment com a estàndard (p. ex. "avui"), que és el que has fet > ara. Però no sé si això serà la manera de procedir en la majoria dels casos > que hi ha al bidix. Per exemple, es farà una cosa semblant per a "eixir" i > "eixida", marcant-los com a formes de "sortir" i "sortida"? A més un > problema que ens trobem no poques vegades en occità és que una paraula com > a "eixida" en un dialecte significa "sortida" i en un altre "pati" (veig, > però, que "eixida" s'interpreta sempre com a "sortida" a cat-spa). Amb > aquest sistema, sembla que caldria crear dos lemes per a "eixida". > > Com dieu i es veu pel que heu fet, el sistema es pot fer progressivament, > però esperava que almenys una part es podria automatitzar. Em cal rumiar-ho > una mica. Si tot ha de ser manual, realment surt a compte demanar un > estudiant perquè se n'encarregui amb un GSoC. > > Molt cordialment, > Hèctor > > PS > Tampoc us penseu que en sé gaire d'occità, jo. Més que de sard o arpità, > però el que faig en tots els casos és utilitzar diccionaris, gramàtiques i > moooltes consultes a especialistes i parlants. > > Missatge de Marc Riera Irigoyen <mar...@gm...> del dia > dt., 20 de des. 2022 a les 18:26: > >> Hola, Hèctor, >> >> En Xavi ja ha explicat tots els detalls tècnics; només volia afegir >> alguna informació més sobre la compilació i el procés d'implementació en >> apertium-cat. >> >> Per a habilitar les preferències de generació (que és la part important >> en apertium-cat), cal modificar una única vegada el paquet monolingüe i >> tots els parells implicats per a incorporar el pas addicional amb CG. Això >> és el que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden >> afegir totes les preferències que es vulguin. >> >> Un dels avantatges que té aquest sistema i que s'està aprofitant molt és >> que la creació de noves preferències pot ser progressiva. Apertium-cat >> tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de >> qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat >> eliminant aquestes marques i canviant-les per les preferències >> corresponents, que després apliquen els modes "val_gva" i "val_uni" >> (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos >> sistemes poden conviure sense regressions durant tot el procés de >> transformació, per la qual cosa puc canviar dues entrades avui i cinc demà >> sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les >> marques antigues de variant, es pot simplificar la compilació. Amb el >> català queda poc per a poder prescindir d'una variant de compilació, com ha >> dit en Xavi, però encara mantenim les 3 variants. >> >> Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però >> crec que podríeu aprofitar aquest sistema com a mínim per a la generació. >> No ho he vist implementat en el trànsfer, per exemple, però crec que seria >> viable amb alguna modificació en els mòduls corresponents. >> >> A reveure, >> >> *Marc Riera* >> >> >> Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. >> 2022 a les 21:34: >> >>> De moment l'única preferència totalment integrada, que elimina la >>> necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els >>> topònims al bilingüe. >>> >>> A mesura que la resta de coses s'integren completament a apertium-cat >>> (ara mateix no sé exactament què falta, per exemple, entre val_uni i >>> val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la >>> preferència lexic_val estiga completa, però per a això segurament es >>> tardarà prou més) >>> >>> >>> -- >>> Xavi Ivars >>> < http://xavi.ivars.me > >>> >>> El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hec...@gm...> >>> va escriure: >>> >>>> Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. >>>> 2022 a les 20:17: >>>> >>>>> >>>>> >>>>> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 >>>>> de des. 2022 a les 17:02: >>>>> >>>>>> Hola, >>>>>> >>>>>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>>>>> varietats i aquestes són francament diferents entre elles. A més, >>>>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>>>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >>>>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >>>>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >>>>>> sigui visible per a les altres. Això multiplica el nombre de línies en els >>>>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>>>>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>>>>> següents de la llista. Per això estem pensant d'introduir el sistema noruec >>>>>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >>>>>> el temps de compilació. >>>>>> >>>>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? >>>>>> Es guanya significativament en temps de compilació? >>>>>> >>>>>> Estem pensant de proposar fer aquest port com un projecte del Google >>>>>> Summer of Code. Us sembla raonable? >>>>>> >>>>>> >>>>> Hola Hèctor, >>>>> >>>>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui >>>>> ha fet tota la feina d'integració de preferències, però ací van unes >>>>> quantes coses. >>>>> >>>>> El sistema de preferències que ara mateix té apertium-cat dóna molta >>>>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >>>>> problema principal que té l'occità, inherent a la complexitat de la mateixa >>>>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >>>>> configurades. >>>>> >>>>> Com veus, són coses que van "a part" de les diferències lèxiques entre >>>>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >>>>> poden combinar. Per exemple, abans teníem una un català per a les >>>>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >>>>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les >>>>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >>>>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >>>>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >>>>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >>>>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >>>>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >>>>> en valencià) enlloc del que la resta de variants valencianes feien servir >>>>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >>>>> diccionaris de generació diferents (amb el seu temps de compilació >>>>> corresponent), per a cobrir tots els casos. >>>>> >>>>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >>>>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >>>>> durant de la generació) es generen dues o més versions del que siga >>>>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >>>>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >>>>> Això fa que, a l'hora de compilar, només es compile un diccionari de >>>>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. >>>>> >>>>> Una de les parts bones és que es pot fer de manera totalment >>>>> incremental: nosaltres vam crear primer que res una preferència al spa-cat >>>>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una de >>>>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En >>>>> canvi, la preferència del lèxic valencià encara no està (totalment) >>>>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >>>>> de generació diferents per al català i el valencià. >>>>> >>>>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >>>>> deixar de pensar tant en variants o dialectes i més en "característiques" >>>>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >>>>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >>>>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >>>>> dialectals. >>>>> >>>>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >>>>> correctes, i foren trets compartits entre dialectes), els plurals femenins >>>>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >>>>> (haver en català). Si eixes dues coses es modelen com a diferents >>>>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >>>>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >>>>> existents, creant fitxers de preferències per a modes específics (ací pots >>>>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >>>>> exposant-ho a les interfícies perquè l'usuari trie la combinació de >>>>> preferències que vol. >>>>> >>>>> Finalment, respecte a si paga la pena o no, segurament és algo que >>>>> haureu de considerar vosaltres. Una migració completa segurament requereix >>>>> un esforç molt significatiu. I potser no compensa la reducció del temps de >>>>> compilació. Però si (per exemple), el provençal i el llemosí es poden >>>>> modelar totalment com a un conjunt de característiques compartides (per >>>>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >>>>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >>>>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >>>>> diccionaris compilats. >>>>> >>>>> No sé si he ajudat massa... 😅 >>>>> >>>>> >>>>> [1] >>>>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >>>>> [2] >>>>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >>>>> >>>>> -- >>>>> < Xavi Ivars > >>>>> < http://xavi.ivars.me > >>>>> >>>> >>>> >>>> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo >>>> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a >>>> apertium-cat quan es toca el diccionari i altra vegada dels tres a >>>> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt >>>> perquè no veig bé què estan aportant les "característiques" quant a >>>> reducció de compilacions o del temps de compilació. >>>> >>>> Quant a les especificitats de l'occità amb relació al català a >>>> Apertium, jo diria que bàsicament són dues: >>>> 1) que no només les varietats són presents en la generació, sinó també >>>> en l'anàlisi (la qual cosa multiplica per dos les compilacions); >>>> i 2) que hi ha força més varietats que les tres bàsiques que actualment >>>> maneguem en català (gràcies al sistema tan enginyós que heu trobat per >>>> tractar el català pre- i post- reforma). >>>> Les dues coses fan que les compilacions dels diccionaris resultin molt >>>> importants per fer més operatiu el desenvolupament de l'occità a Apertium. >>>> >>>> Cordialment, >>>> Hèctor >>>> >>> _______________________________________________ >>> Apertium-catala mailing list >>> Ape...@li... >>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>> >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > |
From: Hèctor A. i F. <hec...@gm...> - 2022-12-20 17:06:45
|
Gràcies, Marc, pels aclariments. A més, el teu darrer commit serveix bé com a exemple: https://github.com/apertium/apertium-cat/commit/c8626b3b90905f9e27f0e9c38cde03a9473dae68#diff-c69b3a1a7d3affcd318392f71bc53df1dade27bcb1ed73952eb7d70c8786adcb Això realment és un treball de rellotger si per a cada forma marcada com a divergent (p. ex. "hui") se li associa una forma considerada convencionalment com a estàndard (p. ex. "avui"), que és el que has fet ara. Però no sé si això serà la manera de procedir en la majoria dels casos que hi ha al bidix. Per exemple, es farà una cosa semblant per a "eixir" i "eixida", marcant-los com a formes de "sortir" i "sortida"? A més un problema que ens trobem no poques vegades en occità és que una paraula com a "eixida" en un dialecte significa "sortida" i en un altre "pati" (veig, però, que "eixida" s'interpreta sempre com a "sortida" a cat-spa). Amb aquest sistema, sembla que caldria crear dos lemes per a "eixida". Com dieu i es veu pel que heu fet, el sistema es pot fer progressivament, però esperava que almenys una part es podria automatitzar. Em cal rumiar-ho una mica. Si tot ha de ser manual, realment surt a compte demanar un estudiant perquè se n'encarregui amb un GSoC. Molt cordialment, Hèctor PS Tampoc us penseu que en sé gaire d'occità, jo. Més que de sard o arpità, però el que faig en tots els casos és utilitzar diccionaris, gramàtiques i moooltes consultes a especialistes i parlants. Missatge de Marc Riera Irigoyen <mar...@gm...> del dia dt., 20 de des. 2022 a les 18:26: > Hola, Hèctor, > > En Xavi ja ha explicat tots els detalls tècnics; només volia afegir alguna > informació més sobre la compilació i el procés d'implementació en > apertium-cat. > > Per a habilitar les preferències de generació (que és la part important en > apertium-cat), cal modificar una única vegada el paquet monolingüe i tots > els parells implicats per a incorporar el pas addicional amb CG. Això és el > que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden > afegir totes les preferències que es vulguin. > > Un dels avantatges que té aquest sistema i que s'està aprofitant molt és > que la creació de noves preferències pot ser progressiva. Apertium-cat > tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de > qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat > eliminant aquestes marques i canviant-les per les preferències > corresponents, que després apliquen els modes "val_gva" i "val_uni" > (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos > sistemes poden conviure sense regressions durant tot el procés de > transformació, per la qual cosa puc canviar dues entrades avui i cinc demà > sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les > marques antigues de variant, es pot simplificar la compilació. Amb el > català queda poc per a poder prescindir d'una variant de compilació, com ha > dit en Xavi, però encara mantenim les 3 variants. > > Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però > crec que podríeu aprofitar aquest sistema com a mínim per a la generació. > No ho he vist implementat en el trànsfer, per exemple, però crec que seria > viable amb alguna modificació en els mòduls corresponents. > > A reveure, > > *Marc Riera* > > > Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. > 2022 a les 21:34: > >> De moment l'única preferència totalment integrada, que elimina la >> necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els >> topònims al bilingüe. >> >> A mesura que la resta de coses s'integren completament a apertium-cat >> (ara mateix no sé exactament què falta, per exemple, entre val_uni i >> val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la >> preferència lexic_val estiga completa, però per a això segurament es >> tardarà prou més) >> >> >> -- >> Xavi Ivars >> < http://xavi.ivars.me > >> >> El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hec...@gm...> >> va escriure: >> >>> Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. >>> 2022 a les 20:17: >>> >>>> >>>> >>>> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 >>>> de des. 2022 a les 17:02: >>>> >>>>> Hola, >>>>> >>>>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>>>> varietats i aquestes són francament diferents entre elles. A més, >>>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >>>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >>>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >>>>> sigui visible per a les altres. Això multiplica el nombre de línies en els >>>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>>>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>>>> següents de la llista. Per això estem pensant d'introduir el sistema noruec >>>>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >>>>> el temps de compilació. >>>>> >>>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? >>>>> Es guanya significativament en temps de compilació? >>>>> >>>>> Estem pensant de proposar fer aquest port com un projecte del Google >>>>> Summer of Code. Us sembla raonable? >>>>> >>>>> >>>> Hola Hèctor, >>>> >>>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui >>>> ha fet tota la feina d'integració de preferències, però ací van unes >>>> quantes coses. >>>> >>>> El sistema de preferències que ara mateix té apertium-cat dóna molta >>>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >>>> problema principal que té l'occità, inherent a la complexitat de la mateixa >>>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >>>> configurades. >>>> >>>> Com veus, són coses que van "a part" de les diferències lèxiques entre >>>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >>>> poden combinar. Per exemple, abans teníem una un català per a les >>>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >>>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les >>>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >>>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >>>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >>>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >>>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >>>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >>>> en valencià) enlloc del que la resta de variants valencianes feien servir >>>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >>>> diccionaris de generació diferents (amb el seu temps de compilació >>>> corresponent), per a cobrir tots els casos. >>>> >>>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >>>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >>>> durant de la generació) es generen dues o més versions del que siga >>>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >>>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >>>> Això fa que, a l'hora de compilar, només es compile un diccionari de >>>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. >>>> >>>> Una de les parts bones és que es pot fer de manera totalment >>>> incremental: nosaltres vam crear primer que res una preferència al spa-cat >>>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una de >>>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En >>>> canvi, la preferència del lèxic valencià encara no està (totalment) >>>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >>>> de generació diferents per al català i el valencià. >>>> >>>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >>>> deixar de pensar tant en variants o dialectes i més en "característiques" >>>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >>>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >>>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >>>> dialectals. >>>> >>>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >>>> correctes, i foren trets compartits entre dialectes), els plurals femenins >>>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >>>> (haver en català). Si eixes dues coses es modelen com a diferents >>>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >>>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >>>> existents, creant fitxers de preferències per a modes específics (ací pots >>>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >>>> exposant-ho a les interfícies perquè l'usuari trie la combinació de >>>> preferències que vol. >>>> >>>> Finalment, respecte a si paga la pena o no, segurament és algo que >>>> haureu de considerar vosaltres. Una migració completa segurament requereix >>>> un esforç molt significatiu. I potser no compensa la reducció del temps de >>>> compilació. Però si (per exemple), el provençal i el llemosí es poden >>>> modelar totalment com a un conjunt de característiques compartides (per >>>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >>>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >>>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >>>> diccionaris compilats. >>>> >>>> No sé si he ajudat massa... 😅 >>>> >>>> >>>> [1] >>>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >>>> [2] >>>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >>>> >>>> -- >>>> < Xavi Ivars > >>>> < http://xavi.ivars.me > >>>> >>> >>> >>> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo >>> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a >>> apertium-cat quan es toca el diccionari i altra vegada dels tres a >>> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt >>> perquè no veig bé què estan aportant les "característiques" quant a >>> reducció de compilacions o del temps de compilació. >>> >>> Quant a les especificitats de l'occità amb relació al català a Apertium, >>> jo diria que bàsicament són dues: >>> 1) que no només les varietats són presents en la generació, sinó també >>> en l'anàlisi (la qual cosa multiplica per dos les compilacions); >>> i 2) que hi ha força més varietats que les tres bàsiques que actualment >>> maneguem en català (gràcies al sistema tan enginyós que heu trobat per >>> tractar el català pre- i post- reforma). >>> Les dues coses fan que les compilacions dels diccionaris resultin molt >>> importants per fer més operatiu el desenvolupament de l'occità a Apertium. >>> >>> Cordialment, >>> Hèctor >>> >> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Marc R. I. <mar...@gm...> - 2022-12-20 15:26:02
|
Hola, Hèctor, En Xavi ja ha explicat tots els detalls tècnics; només volia afegir alguna informació més sobre la compilació i el procés d'implementació en apertium-cat. Per a habilitar les preferències de generació (que és la part important en apertium-cat), cal modificar una única vegada el paquet monolingüe i tots els parells implicats per a incorporar el pas addicional amb CG. Això és el que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden afegir totes les preferències que es vulguin. Un dels avantatges que té aquest sistema i que s'està aprofitant molt és que la creació de noves preferències pot ser progressiva. Apertium-cat tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat eliminant aquestes marques i canviant-les per les preferències corresponents, que després apliquen els modes "val_gva" i "val_uni" (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos sistemes poden conviure sense regressions durant tot el procés de transformació, per la qual cosa puc canviar dues entrades avui i cinc demà sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les marques antigues de variant, es pot simplificar la compilació. Amb el català queda poc per a poder prescindir d'una variant de compilació, com ha dit en Xavi, però encara mantenim les 3 variants. Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però crec que podríeu aprofitar aquest sistema com a mínim per a la generació. No ho he vist implementat en el trànsfer, per exemple, però crec que seria viable amb alguna modificació en els mòduls corresponents. A reveure, *Marc Riera* Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. 2022 a les 21:34: > De moment l'única preferència totalment integrada, que elimina la > necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els > topònims al bilingüe. > > A mesura que la resta de coses s'integren completament a apertium-cat (ara > mateix no sé exactament què falta, per exemple, entre val_uni i val_gva) > podrem anar a dos (cat/val) o fins i tot només un (quan la preferència > lexic_val estiga completa, però per a això segurament es tardarà prou més) > > > -- > Xavi Ivars > < http://xavi.ivars.me > > > El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hec...@gm...> > va escriure: > >> Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. >> 2022 a les 20:17: >> >>> >>> >>> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 >>> de des. 2022 a les 17:02: >>> >>>> Hola, >>>> >>>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>>> varietats i aquestes són francament diferents entre elles. A més, >>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >>>> sigui visible per a les altres. Això multiplica el nombre de línies en els >>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>>> següents de la llista. Per això estem pensant d'introduir el sistema noruec >>>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >>>> el temps de compilació. >>>> >>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? >>>> Es guanya significativament en temps de compilació? >>>> >>>> Estem pensant de proposar fer aquest port com un projecte del Google >>>> Summer of Code. Us sembla raonable? >>>> >>>> >>> Hola Hèctor, >>> >>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui >>> ha fet tota la feina d'integració de preferències, però ací van unes >>> quantes coses. >>> >>> El sistema de preferències que ara mateix té apertium-cat dóna molta >>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >>> problema principal que té l'occità, inherent a la complexitat de la mateixa >>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >>> configurades. >>> >>> Com veus, són coses que van "a part" de les diferències lèxiques entre >>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >>> poden combinar. Per exemple, abans teníem una un català per a les >>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les >>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >>> en valencià) enlloc del que la resta de variants valencianes feien servir >>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >>> diccionaris de generació diferents (amb el seu temps de compilació >>> corresponent), per a cobrir tots els casos. >>> >>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >>> durant de la generació) es generen dues o més versions del que siga >>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >>> Això fa que, a l'hora de compilar, només es compile un diccionari de >>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. >>> >>> Una de les parts bones és que es pot fer de manera totalment >>> incremental: nosaltres vam crear primer que res una preferència al spa-cat >>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una de >>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En >>> canvi, la preferència del lèxic valencià encara no està (totalment) >>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >>> de generació diferents per al català i el valencià. >>> >>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >>> deixar de pensar tant en variants o dialectes i més en "característiques" >>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >>> dialectals. >>> >>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >>> correctes, i foren trets compartits entre dialectes), els plurals femenins >>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >>> (haver en català). Si eixes dues coses es modelen com a diferents >>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >>> existents, creant fitxers de preferències per a modes específics (ací pots >>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >>> exposant-ho a les interfícies perquè l'usuari trie la combinació de >>> preferències que vol. >>> >>> Finalment, respecte a si paga la pena o no, segurament és algo que >>> haureu de considerar vosaltres. Una migració completa segurament requereix >>> un esforç molt significatiu. I potser no compensa la reducció del temps de >>> compilació. Però si (per exemple), el provençal i el llemosí es poden >>> modelar totalment com a un conjunt de característiques compartides (per >>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >>> diccionaris compilats. >>> >>> No sé si he ajudat massa... 😅 >>> >>> >>> [1] >>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >>> [2] >>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >>> >>> -- >>> < Xavi Ivars > >>> < http://xavi.ivars.me > >>> >> >> >> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo >> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a >> apertium-cat quan es toca el diccionari i altra vegada dels tres a >> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt >> perquè no veig bé què estan aportant les "característiques" quant a >> reducció de compilacions o del temps de compilació. >> >> Quant a les especificitats de l'occità amb relació al català a Apertium, >> jo diria que bàsicament són dues: >> 1) que no només les varietats són presents en la generació, sinó també en >> l'anàlisi (la qual cosa multiplica per dos les compilacions); >> i 2) que hi ha força més varietats que les tres bàsiques que actualment >> maneguem en català (gràcies al sistema tan enginyós que heu trobat per >> tractar el català pre- i post- reforma). >> Les dues coses fan que les compilacions dels diccionaris resultin molt >> importants per fer més operatiu el desenvolupament de l'occità a Apertium. >> >> Cordialment, >> Hèctor >> > _______________________________________________ > Apertium-catala mailing list > Ape...@li... > https://lists.sourceforge.net/lists/listinfo/apertium-catala > |
From: Xavi I. <xav...@gm...> - 2022-12-18 20:34:29
|
De moment l'única preferència totalment integrada, que elimina la necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els topònims al bilingüe. A mesura que la resta de coses s'integren completament a apertium-cat (ara mateix no sé exactament què falta, per exemple, entre val_uni i val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la preferència lexic_val estiga completa, però per a això segurament es tardarà prou més) -- Xavi Ivars < http://xavi.ivars.me > El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hec...@gm...> va escriure: > Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. > 2022 a les 20:17: > >> >> >> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 de >> des. 2022 a les 17:02: >> >>> Hola, >>> >>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>> varietats i aquestes són francament diferents entre elles. A més, >>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >>> sigui visible per a les altres. Això multiplica el nombre de línies en els >>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>> següents de la llista. Per això estem pensant d'introduir el sistema noruec >>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >>> el temps de compilació. >>> >>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es >>> guanya significativament en temps de compilació? >>> >>> Estem pensant de proposar fer aquest port com un projecte del Google >>> Summer of Code. Us sembla raonable? >>> >>> >> Hola Hèctor, >> >> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha >> fet tota la feina d'integració de preferències, però ací van unes quantes >> coses. >> >> El sistema de preferències que ara mateix té apertium-cat dóna molta >> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >> problema principal que té l'occità, inherent a la complexitat de la mateixa >> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >> configurades. >> >> Com veus, són coses que van "a part" de les diferències lèxiques entre >> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >> poden combinar. Per exemple, abans teníem una un català per a les >> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les >> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >> en valencià) enlloc del que la resta de variants valencianes feien servir >> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >> diccionaris de generació diferents (amb el seu temps de compilació >> corresponent), per a cobrir tots els casos. >> >> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >> durant de la generació) es generen dues o més versions del que siga >> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >> Això fa que, a l'hora de compilar, només es compile un diccionari de >> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. >> >> Una de les parts bones és que es pot fer de manera totalment incremental: >> nosaltres vam crear primer que res una preferència al spa-cat per als >> topònims (oficials vs tradicionals), i amb això vam resoldre una de les >> dimensions que teníem, reduint el nombre de diccionaris compilats. En >> canvi, la preferència del lèxic valencià encara no està (totalment) >> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >> de generació diferents per al català i el valencià. >> >> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >> deixar de pensar tant en variants o dialectes i més en "característiques" >> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >> dialectals. >> >> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >> correctes, i foren trets compartits entre dialectes), els plurals femenins >> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >> (haver en català). Si eixes dues coses es modelen com a diferents >> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >> existents, creant fitxers de preferències per a modes específics (ací pots >> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >> exposant-ho a les interfícies perquè l'usuari trie la combinació de >> preferències que vol. >> >> Finalment, respecte a si paga la pena o no, segurament és algo que haureu >> de considerar vosaltres. Una migració completa segurament requereix un >> esforç molt significatiu. I potser no compensa la reducció del temps de >> compilació. Però si (per exemple), el provençal i el llemosí es poden >> modelar totalment com a un conjunt de característiques compartides (per >> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >> diccionaris compilats. >> >> No sé si he ajudat massa... 😅 >> >> >> [1] >> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >> [2] >> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >> >> -- >> < Xavi Ivars > >> < http://xavi.ivars.me > >> > > > Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo segueixo > veient tres compilacions dels diccionaris cat, val_gva i val_uni a > apertium-cat quan es toca el diccionari i altra vegada dels tres a > apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt > perquè no veig bé què estan aportant les "característiques" quant a > reducció de compilacions o del temps de compilació. > > Quant a les especificitats de l'occità amb relació al català a Apertium, > jo diria que bàsicament són dues: > 1) que no només les varietats són presents en la generació, sinó també en > l'anàlisi (la qual cosa multiplica per dos les compilacions); > i 2) que hi ha força més varietats que les tres bàsiques que actualment > maneguem en català (gràcies al sistema tan enginyós que heu trobat per > tractar el català pre- i post- reforma). > Les dues coses fan que les compilacions dels diccionaris resultin molt > importants per fer més operatiu el desenvolupament de l'occità a Apertium. > > Cordialment, > Hèctor > |
From: Hèctor A. i F. <hec...@gm...> - 2022-12-18 19:26:38
|
Missatge de Xavi Ivars <xav...@gm...> del dia dg., 18 de des. 2022 a les 20:17: > > > Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 de > des. 2022 a les 17:02: > >> Hola, >> >> En els diccionaris occitans són un embolic perquè hi ha un fum de >> varietats i aquestes són francament diferents entre elles. A més, >> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >> sigui visible per a les altres. Això multiplica el nombre de línies en els >> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >> encara ho seran més quan afegim el provençal i el llemosí, que són els >> següents de la llista. Per això estem pensant d'introduir el sistema noruec >> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >> el temps de compilació. >> >> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es >> guanya significativament en temps de compilació? >> >> Estem pensant de proposar fer aquest port com un projecte del Google >> Summer of Code. Us sembla raonable? >> >> > Hola Hèctor, > > Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha > fet tota la feina d'integració de preferències, però ací van unes quantes > coses. > > El sistema de preferències que ara mateix té apertium-cat dóna molta > flexibilitat per a certes coses, però no sé fins a quin punt resoldria el > problema principal que té l'occità, inherent a la complexitat de la mateixa > llengua. Ací [1] pots veure les preferències que hi ha ara mateixa > configurades. > > Com veus, són coses que van "a part" de les diferències lèxiques entre les > variants: cobreixen sobretot diferències ortogràfiques que, a més, es poden > combinar. Per exemple, abans teníem una un català per a les universitats > valencianes que utilitzava el "lèxic valencià", marcat com a "val" als > diccionaris (p.ex. espill en lloc de mirall), però utilitzava les normés > d'accentuació "catalanes" (cafè, anglès,...) i els accents diacrítics > post-reforma 2017. En canvi, la variant que féiem servir a Softcatalà era > també lèxic valencià, però normes d'accentuació valencianes i diacrítics > pre-reforma 2017. Després, estava la variant que volia la Generalitat > Valenciana: lèxic valencià i normes d'accentuació valencianes, però > diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos en > valencià) enlloc del que la resta de variants valencianes feien servir > (Oriola). Tota eixa combinatòria feia que es generaren moltíssims > diccionaris de generació diferents (amb el seu temps de compilació > corresponent), per a cobrir tots els casos. > > Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en > diferents moments de la pipeline (en aplicar el diccionari bilingüe, o > durant de la generació) es generen dues o més versions del que siga > (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet > fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. > Això fa que, a l'hora de compilar, només es compile un diccionari de > generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. > > Una de les parts bones és que es pot fer de manera totalment incremental: > nosaltres vam crear primer que res una preferència al spa-cat per als > topònims (oficials vs tradicionals), i amb això vam resoldre una de les > dimensions que teníem, reduint el nombre de diccionaris compilats. En > canvi, la preferència del lèxic valencià encara no està (totalment) > integrada als diccionaris, per la qual cosa encara es compilen diccionaris > de generació diferents per al català i el valencià. > > Amb una desconeixença elevada de l'occità, el que jo recomanaria és deixar > de pensar tant en variants o dialectes i més en "característiques" que > puguen ser compartides pels diferents dialectes. Un bon exemple és la > preferència "motle" a l'apertium-cat: permet generar paraules com motle o > ametla vs motlle o ametlla, de forma totalment desacoblada de les variants > dialectals. > > Exemples podrien ser (si els articles sobre aranés a la Wikipedia són > correctes, i foren trets compartits entre dialectes), els plurals femenins > amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer > (haver en català). Si eixes dues coses es modelen com a diferents > "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o > amb vr o v), després es pot o bé combinar amb els diccionaris dialectals > existents, creant fitxers de preferències per a modes específics (ací pots > veure en què s'ha convertit el mode de valencià de la GVA [2]), o també > exposant-ho a les interfícies perquè l'usuari trie la combinació de > preferències que vol. > > Finalment, respecte a si paga la pena o no, segurament és algo que haureu > de considerar vosaltres. Una migració completa segurament requereix un > esforç molt significatiu. I potser no compensa la reducció del temps de > compilació. Però si (per exemple), el provençal i el llemosí es poden > modelar totalment com a un conjunt de característiques compartides (per > exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa > Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu > estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els > diccionaris compilats. > > No sé si he ajudat massa... 😅 > > > [1] > https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml > [2] > https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx > > -- > < Xavi Ivars > > < http://xavi.ivars.me > > Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a apertium-cat quan es toca el diccionari i altra vegada dels tres a apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt perquè no veig bé què estan aportant les "característiques" quant a reducció de compilacions o del temps de compilació. Quant a les especificitats de l'occità amb relació al català a Apertium, jo diria que bàsicament són dues: 1) que no només les varietats són presents en la generació, sinó també en l'anàlisi (la qual cosa multiplica per dos les compilacions); i 2) que hi ha força més varietats que les tres bàsiques que actualment maneguem en català (gràcies al sistema tan enginyós que heu trobat per tractar el català pre- i post- reforma). Les dues coses fan que les compilacions dels diccionaris resultin molt importants per fer més operatiu el desenvolupament de l'occità a Apertium. Cordialment, Hèctor |
From: Xavi I. <xav...@gm...> - 2022-12-18 17:17:23
|
Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 13 de des. 2022 a les 17:02: > Hola, > > En els diccionaris occitans són un embolic perquè hi ha un fum de > varietats i aquestes són francament diferents entre elles. A més, > l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta > varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en > els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que > fa que una paraula (o terminació) pertanyi només a una varietat, sense que > sigui visible per a les altres. Això multiplica el nombre de línies en els > diccionaris. Tot plegat fa que els temps de compilació ja són enormes i > encara ho seran més quan afegim el provençal i el llemosí, que són els > següents de la llista. Per això estem pensant d'introduir el sistema noruec > que, per una banda, dona més flexibilitat i, per altra, sembla que redueix > el temps de compilació. > > Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es > guanya significativament en temps de compilació? > > Estem pensant de proposar fer aquest port com un projecte del Google > Summer of Code. Us sembla raonable? > > Hola Hèctor, Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha fet tota la feina d'integració de preferències, però ací van unes quantes coses. El sistema de preferències que ara mateix té apertium-cat dóna molta flexibilitat per a certes coses, però no sé fins a quin punt resoldria el problema principal que té l'occità, inherent a la complexitat de la mateixa llengua. Ací [1] pots veure les preferències que hi ha ara mateixa configurades. Com veus, són coses que van "a part" de les diferències lèxiques entre les variants: cobreixen sobretot diferències ortogràfiques que, a més, es poden combinar. Per exemple, abans teníem una un català per a les universitats valencianes que utilitzava el "lèxic valencià", marcat com a "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les normés d'accentuació "catalanes" (cafè, anglès,...) i els accents diacrítics post-reforma 2017. En canvi, la variant que féiem servir a Softcatalà era també lèxic valencià, però normes d'accentuació valencianes i diacrítics pre-reforma 2017. Després, estava la variant que volia la Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos en valencià) enlloc del que la resta de variants valencianes feien servir (Oriola). Tota eixa combinatòria feia que es generaren moltíssims diccionaris de generació diferents (amb el seu temps de compilació corresponent), per a cobrir tots els casos. Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en diferents moments de la pipeline (en aplicar el diccionari bilingüe, o durant de la generació) es generen dues o més versions del que siga (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. Això fa que, a l'hora de compilar, només es compile un diccionari de generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. Una de les parts bones és que es pot fer de manera totalment incremental: nosaltres vam crear primer que res una preferència al spa-cat per als topònims (oficials vs tradicionals), i amb això vam resoldre una de les dimensions que teníem, reduint el nombre de diccionaris compilats. En canvi, la preferència del lèxic valencià encara no està (totalment) integrada als diccionaris, per la qual cosa encara es compilen diccionaris de generació diferents per al català i el valencià. Amb una desconeixença elevada de l'occità, el que jo recomanaria és deixar de pensar tant en variants o dialectes i més en "característiques" que puguen ser compartides pels diferents dialectes. Un bon exemple és la preferència "motle" a l'apertium-cat: permet generar paraules com motle o ametla vs motlle o ametlla, de forma totalment desacoblada de les variants dialectals. Exemples podrien ser (si els articles sobre aranés a la Wikipedia són correctes, i foren trets compartits entre dialectes), els plurals femenins amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer (haver en català). Si eixes dues coses es modelen com a diferents "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o amb vr o v), després es pot o bé combinar amb els diccionaris dialectals existents, creant fitxers de preferències per a modes específics (ací pots veure en què s'ha convertit el mode de valencià de la GVA [2]), o també exposant-ho a les interfícies perquè l'usuari trie la combinació de preferències que vol. Finalment, respecte a si paga la pena o no, segurament és algo que haureu de considerar vosaltres. Una migració completa segurament requereix un esforç molt significatiu. I potser no compensa la reducció del temps de compilació. Però si (per exemple), el provençal i el llemosí es poden modelar totalment com a un conjunt de característiques compartides (per exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els diccionaris compilats. No sé si he ajudat massa... 😅 [1] https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml [2] https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx -- < Xavi Ivars > < http://xavi.ivars.me > |
From: Hèctor A. i F. <hec...@gm...> - 2022-12-13 16:02:24
|
Hola, En els diccionaris occitans són un embolic perquè hi ha un fum de varietats i aquestes són francament diferents entre elles. A més, l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que fa que una paraula (o terminació) pertanyi només a una varietat, sense que sigui visible per a les altres. Això multiplica el nombre de línies en els diccionaris. Tot plegat fa que els temps de compilació ja són enormes i encara ho seran més quan afegim el provençal i el llemosí, que són els següents de la llista. Per això estem pensant d'introduir el sistema noruec que, per una banda, dona més flexibilitat i, per altra, sembla que redueix el temps de compilació. Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es guanya significativament en temps de compilació? Estem pensant de proposar fer aquest port com un projecte del Google Summer of Code. Us sembla raonable? Cordialment, Hèctor |
From: Hèctor A. i F. <hec...@gm...> - 2022-06-27 08:12:47
|
En Tino em demana de preparar noves versions per als parells cat-ita, por-cat i fra-cat. Si no hi ha inconvenient, canvio l'etiqueta de versió d'apertium-cat de 2.10.2 a 2.10.3. Cordialment, Hèctor |
From: Marc R. I. <mar...@gm...> - 2021-11-08 16:07:43
|
Hola, Hèctor, He provat exactament el mateix i tot funciona correctament. Podries provar d'executar "make clean" tant al parell com als monolingües i tornar-ho a compilar tot? L'únic que se m'ocorre és que hi hagi alguna cosa antiga en alguna banda que no sigui compatible. Si seguís petant, indica les versions d'apertium i lttoolbox que tens instal·lades, a veure si algú s'ho pot mirar. A reveure, *Marc Riera* Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dl., 8 de nov. 2021 a les 14:08: > Hola, Marc, > > Amb la nova versió, estic rebent aquesta petada en l'ita-cat: > > $ echo "supporta" | apertium -d . ita-cat-postchunk > ^donar<vblex><pri><p3><sg># suport$^.<sent>$ > $ echo "supporta" | apertium -d . ita-cat-generador > dona suport/dóna<v:pre2017> suport > $ echo "supporta" | apertium -d . ita-cat-pgen > dona suport/dóna [i el programa peta] > > El problema sembla el cas de "supportare > donar# suport" i donar és un > dels verbs amb "problemes". > > Cordialment, > Hèctor > > > Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 2 de > nov. 2021 a les 9:47: > >> Perfecte, Marc. Jo no hi tinc cap inconvenient (i estic molt temptat >> d'afegir "és clar"). >> Cordialment, >> Hèctor >> >> Missatge de Marc Riera Irigoyen <mar...@gm...> del dia >> dt., 2 de nov. 2021 a les 0:32: >> >>> Hola, Hèctor, >>> >>> Aquest missatge apareix perquè s'han marcat els canvis com a esborrany, >>> per impedir que es fusionessin mentre ho enllestíem. Cal fusionar els >>> canvis a apertium-cat i als parells alhora o primer a apertium-cat i >>> després als parells, per a evitar que no es puguin compilar. Quan apliquem >>> els canvis a apertium-cat (quan vulgueu, si ningú hi té res en contra) >>> marcaré els PR com a definitius perquè es puguin fusionar. >>> >>> A reveure, >>> >>> *Marc Riera* >>> >>> >>> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dl., 1 de >>> nov. 2021 a les 12:44: >>> >>>> Hola Marc, >>>> >>>> Si entenc bé, tots aquests pull requests no es encara poden fusionar. >>>> Per a tots ells, Github diu que "this pull request is stil a work in >>>> progress": https://github.com/apertium/apertium-fra-cat/pull/8 >>>> >>>> Cordialment, >>>> Hèctor >>>> >>>> Missatge de Marc Riera Irigoyen <mar...@gm...> del >>>> dia dl., 1 de nov. 2021 a les 1:48: >>>> >>>>> Hola a tothom, >>>>> >>>>> Segurament heu vist Pull Requests en els parells que utilitzen >>>>> apertium-cat. Us explico de què tracta. >>>>> >>>>> La versió més recent d'Apertium permet la definició de "preferències" >>>>> en els parells que els usuaris poden activar o desactivar. Aquestes >>>>> preferències d'estil poden ser, per exemple, seleccionar un lèxic >>>>> determinat o alterar l'ortografia de generació. Actualment, està >>>>> implementat en el parell bokmal-nynorsk, si el proveu veureu que apareix un >>>>> desplegable amb preferències: >>>>> https://beta.apertium.org/index.cat.html#?dir=nob-nno >>>>> >>>>> En Xavi Ivars va presentar els problemes que tenim actualment en els >>>>> parells de català (diacrítics, valencià i topònims) i va veure que aquest >>>>> sistema ens permetria desfer l'embolic i tenir-ho tot més ordenat >>>>> (discussió original: https://github.com/apertium/apertium/issues/118). >>>>> A GitHub teniu tots els detalls de com funciona, però bàsicament consisteix >>>>> a utilitzar el mòdul de CG per a triar unes formes o altres de les >>>>> entrades. El que s'ha fet fins ara són preferències pròpiament del parell >>>>> (després de la selecció lèxica) i preferències de la llengua de destinació >>>>> (després de la generació). El gran avantatge és que NO cal tenir diversos >>>>> diccionaris: sempre hi ha disponibles totes les opcions possibles, i amb CG >>>>> es trien o descarten formes. Per tant, si les preferències són del parell, >>>>> només cal compilar un diccionari bilingüe. >>>>> >>>>> Dit això, què suposa per al català? Un dels canvis més recents ha >>>>> estat el canvi de generació relacionat amb els diacrítics. Per fer-ho, >>>>> utilitzem un mòdul creat ad hoc que ha donat alguns problemes. Doncs bé, >>>>> hem fet la conversió a aquests sistema de preferències, més robust, com a >>>>> primer pas abans d'ampliar les preferències a altres aspectes. Si es >>>>> convertissin les variants de valencià, per exemple, es reduiria el temps de >>>>> compilació, ja que actualment cal compilar el diccionari lèxic tres >>>>> vegades. Si necessitéssim més variants, les podríem afegir sense >>>>> multiplicar el temps de compilació cada vegada i sense multiplicar els >>>>> modes. >>>>> >>>>> Aquest canvi als diacrítics NO suposa cap canvi a nivell de modes: les >>>>> preferències s'ofereixen en tots els modes, però mantenim els modes pre2017 >>>>> per a aplicar la preferència de manera "forçada". Sí que implica una >>>>> modificació a apertium-cat que requereixen retocs en els parells (canviar >>>>> el mòdul intergen per CG3), però ens hem encarregat de tot i l'únic que >>>>> haureu de fer és acceptar el PR corresponent. Això i, evidentment, >>>>> preguntar qualsevol dubte que tingueu, esperem resoldre'l. >>>>> >>>>> A reveure, >>>>> >>>>> *Marc Riera* >>>>> _______________________________________________ >>>>> Apertium-catala mailing list >>>>> Ape...@li... >>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>>> >>>> _______________________________________________ >>> Apertium-catala mailing list >>> Ape...@li... >>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>> >> |
From: Hèctor A. i F. <hec...@gm...> - 2021-11-08 13:08:51
|
Hola, Marc, Amb la nova versió, estic rebent aquesta petada en l'ita-cat: $ echo "supporta" | apertium -d . ita-cat-postchunk ^donar<vblex><pri><p3><sg># suport$^.<sent>$ $ echo "supporta" | apertium -d . ita-cat-generador dona suport/dóna<v:pre2017> suport $ echo "supporta" | apertium -d . ita-cat-pgen dona suport/dóna [i el programa peta] El problema sembla el cas de "supportare > donar# suport" i donar és un dels verbs amb "problemes". Cordialment, Hèctor Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dt., 2 de nov. 2021 a les 9:47: > Perfecte, Marc. Jo no hi tinc cap inconvenient (i estic molt temptat > d'afegir "és clar"). > Cordialment, > Hèctor > > Missatge de Marc Riera Irigoyen <mar...@gm...> del dia > dt., 2 de nov. 2021 a les 0:32: > >> Hola, Hèctor, >> >> Aquest missatge apareix perquè s'han marcat els canvis com a esborrany, >> per impedir que es fusionessin mentre ho enllestíem. Cal fusionar els >> canvis a apertium-cat i als parells alhora o primer a apertium-cat i >> després als parells, per a evitar que no es puguin compilar. Quan apliquem >> els canvis a apertium-cat (quan vulgueu, si ningú hi té res en contra) >> marcaré els PR com a definitius perquè es puguin fusionar. >> >> A reveure, >> >> *Marc Riera* >> >> >> Missatge de Hèctor Alòs i Font <hec...@gm...> del dia dl., 1 de >> nov. 2021 a les 12:44: >> >>> Hola Marc, >>> >>> Si entenc bé, tots aquests pull requests no es encara poden fusionar. >>> Per a tots ells, Github diu que "this pull request is stil a work in >>> progress": https://github.com/apertium/apertium-fra-cat/pull/8 >>> >>> Cordialment, >>> Hèctor >>> >>> Missatge de Marc Riera Irigoyen <mar...@gm...> del dia >>> dl., 1 de nov. 2021 a les 1:48: >>> >>>> Hola a tothom, >>>> >>>> Segurament heu vist Pull Requests en els parells que utilitzen >>>> apertium-cat. Us explico de què tracta. >>>> >>>> La versió més recent d'Apertium permet la definició de "preferències" >>>> en els parells que els usuaris poden activar o desactivar. Aquestes >>>> preferències d'estil poden ser, per exemple, seleccionar un lèxic >>>> determinat o alterar l'ortografia de generació. Actualment, està >>>> implementat en el parell bokmal-nynorsk, si el proveu veureu que apareix un >>>> desplegable amb preferències: >>>> https://beta.apertium.org/index.cat.html#?dir=nob-nno >>>> >>>> En Xavi Ivars va presentar els problemes que tenim actualment en els >>>> parells de català (diacrítics, valencià i topònims) i va veure que aquest >>>> sistema ens permetria desfer l'embolic i tenir-ho tot més ordenat >>>> (discussió original: https://github.com/apertium/apertium/issues/118). >>>> A GitHub teniu tots els detalls de com funciona, però bàsicament consisteix >>>> a utilitzar el mòdul de CG per a triar unes formes o altres de les >>>> entrades. El que s'ha fet fins ara són preferències pròpiament del parell >>>> (després de la selecció lèxica) i preferències de la llengua de destinació >>>> (després de la generació). El gran avantatge és que NO cal tenir diversos >>>> diccionaris: sempre hi ha disponibles totes les opcions possibles, i amb CG >>>> es trien o descarten formes. Per tant, si les preferències són del parell, >>>> només cal compilar un diccionari bilingüe. >>>> >>>> Dit això, què suposa per al català? Un dels canvis més recents ha estat >>>> el canvi de generació relacionat amb els diacrítics. Per fer-ho, utilitzem >>>> un mòdul creat ad hoc que ha donat alguns problemes. Doncs bé, hem fet la >>>> conversió a aquests sistema de preferències, més robust, com a primer pas >>>> abans d'ampliar les preferències a altres aspectes. Si es convertissin les >>>> variants de valencià, per exemple, es reduiria el temps de compilació, ja >>>> que actualment cal compilar el diccionari lèxic tres vegades. Si >>>> necessitéssim més variants, les podríem afegir sense multiplicar el temps >>>> de compilació cada vegada i sense multiplicar els modes. >>>> >>>> Aquest canvi als diacrítics NO suposa cap canvi a nivell de modes: les >>>> preferències s'ofereixen en tots els modes, però mantenim els modes pre2017 >>>> per a aplicar la preferència de manera "forçada". Sí que implica una >>>> modificació a apertium-cat que requereixen retocs en els parells (canviar >>>> el mòdul intergen per CG3), però ens hem encarregat de tot i l'únic que >>>> haureu de fer és acceptar el PR corresponent. Això i, evidentment, >>>> preguntar qualsevol dubte que tingueu, esperem resoldre'l. >>>> >>>> A reveure, >>>> >>>> *Marc Riera* >>>> _______________________________________________ >>>> Apertium-catala mailing list >>>> Ape...@li... >>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>> >>> _______________________________________________ >> Apertium-catala mailing list >> Ape...@li... >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > |