morfologik-devel Mailing List for Morfologik
Brought to you by:
dawidweiss,
milek_pl
You can subscribe to this list here.
2011 |
Jan
(19) |
Feb
(5) |
Mar
(6) |
Apr
(4) |
May
|
Jun
(1) |
Jul
|
Aug
|
Sep
|
Oct
|
Nov
|
Dec
|
---|---|---|---|---|---|---|---|---|---|---|---|---|
2014 |
Jan
|
Feb
(2) |
Mar
|
Apr
|
May
|
Jun
|
Jul
|
Aug
|
Sep
|
Oct
|
Nov
|
Dec
|
2015 |
Jan
|
Feb
(1) |
Mar
|
Apr
|
May
|
Jun
|
Jul
|
Aug
|
Sep
(1) |
Oct
|
Nov
|
Dec
|
From: Dawid W. <daw...@gm...> - 2015-09-10 08:39:58
|
Hi everyone, We have moved Morfologik from SourceForge to GitHub a while ago. Today I cleaned up the last remaining few references on SourceForge and this ends the transition. Just about the only thing that remained is this mailing list. We will leave it open for a bit longer, but if you're interested in participating in the project, use GitHub's ticketing system. https://github.com/morfologik/morfologik-stemming Dawid |
From: Dawid W. <daw...@gm...> - 2015-02-03 08:28:36
|
Hi everyone, I've just cut a release with all the changes Daniel and Jaume did over the past year or so. I also updated the dependencies but otherwise the data and stemming routines are unchanged. Dawid |
From: Marcin M. <mil...@o2...> - 2014-02-17 16:13:34
|
W dniu 2014-02-17 15:02, Dawid Weiss pisze: > http://builds.carrotsearch.com/browse/MFLGIK-SOFTWARE/latest > > You can subscribe yourself to these builds, I believe? :) With pleasure. ;) But is there anything else than RSS there? Marcin |
From: Dawid W. <daw...@gm...> - 2014-02-17 14:02:59
|
http://builds.carrotsearch.com/browse/MFLGIK-SOFTWARE/latest You can subscribe yourself to these builds, I believe? :) Dawid |
From: Dawid W. <daw...@gm...> - 2011-06-21 11:14:34
|
It is my pleasure to announce that morfologik-stemming 1.5.2 has just been released. This release provides two key highlights: - An alternative Polish dictionary added (BSD licensed): SGJP (Morfeusz). PolishStemmer can now take an enum switching between the dictionary to be used or combine both. This is a _large_ dictionary (over 5 million words). Great! - The project has been split into smaller modules. A single jar version (no external dependencies) is also available so that java -jar morfologik*standalone.jar will run the tools for you. Minor improvements are listed in CHANGES file. 1.5.2 is available as a ZIP bundle on SourceForge and in Maven Central (mirrors will take few minutes to sync). Dawid |
From: Dawid W. <daw...@gm...> - 2011-04-10 07:19:57
|
W repozytorium pojawił się podział na podkomponenty (podmoduły) mavenowe: - morfologik-fsa [budowanie i runtime automatów] - morfologik-stemming [dodatkowe elementy dot. słowników i stemmingu; Dictionary, DictionaryMetadata] - morfologik-polish [polski słownik i klasa implementując a gotowy stemmer] - morfologik-tools [narzędzia z linii poleceń]. Wszystko ładnie od siebie zależy tak, że np. zależność od morfologik-polish wciąga tylko potrzebne komponenty w runtime, a nie te potrzebne do budowania słowników. Dodatkowo jest też budowana wersja morfologik-tools-standalone, która zawiera wszystkie zależności (HPPC, commons-*) i którą można traktować jako jeden JAR. Proszę zainteresowanych o ew. sprawdzenie czy wszystko jest ok i jeśli tak, to puścimy release. Dawid |
From: Marcin M. <lis...@wp...> - 2011-04-02 13:00:48
|
Hm, popatrzyłem, czy można zmienić u nas w narzędziu tab2morph znak separatora na tabulator (albo na cokolwiek tego rodzaju) i odpowiedź jest niestety negatywna: interpretery poleceń (bash, cmd itd.) po prostu przekształcają to tak, że nie ma możliwości przekazania tego parametru jako \u09 czy \t. Wydaje mi się, że trzeba by to zapewnić, ale w Javie nie ma chyba ładnej funkcji, która by "\\t" przekształcała w prawdziwe "\t" (z obsługą też kodów Unicode itd.) Marcin W dniu 2011-03-31 13:23, Dawid Weiss pisze: > Tak. Ewentualnie musimy zmienić zachowanie tej metody tak, by zwracała > false na pytanie o ciąg zawierający separator... to niestety jest > kiszka, która się ciągnie od automatów Janka, bo w zasadzie nic nie > stoi na przeszkodzie, by separatorem był bajt o kodzie zero... w > większości stron kodowych zero raczej nie występuje (z oczywistych > przyczyn) i wtedy nie ma problemu... > > Dawid > > 2011/3/31 Marcin Milkowski<mar...@gm...>: >> Tak, są dla każdej małej litery. Nie pytaj mnie dlaczego. >> >> To co, powinienem po prostu z góry odrzucić wszelkie lookupy dla >> ciągów zawierających separator słownika? To dosyć proste. >> >> Pozdrawiam >> MM >> >> 2011/3/31 Dawid Weiss<daw...@cs...>: >>> Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie >>> adnotacje do 'l' (małe L): >>> >>> l+A+LW >>> l+A+NN1d >>> >>> Dawid >>> >>> 2011/3/31 Dawid Weiss<daw...@cs...>: >>>> Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: >>>> >>>> l+A >>>> >>>> który to łańcuch zawiera znak separatora części logicznych w >>>> automacie. Innymi słowy to dopasowuje się w pełni (-4 to >>>> SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego >>>> ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe >>>> niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i >>>> adnotacji się kaszani (no i słusznie). >>>> >>>> Dodałem do kodu weryfikację czy na wejściu jest znak separatora i >>>> IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, >>>> że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator >>>> się nie pojawia... można to też załatać po stronie morfologika w tej >>>> sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest >>>> separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej >>>> jest chyba z wyjątkiem. >>>> >>>> Dawid >>>> >>>> >>>> >>>> 2011/3/30 Marcin Milkowski<mar...@gm...>: >>>>> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >>>>> >>>>> 2011/3/30 Dawid Weiss<daw...@cs...>: >>>>>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>>>>> >>>>>> D. >>>>>> >>>>>> 2011/3/30 Marcin Miłkowski<mar...@gm...>: >>>>>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>>>>> LT następuje drobny problem (DictionaryLookup.java). >>>>>>> >>>>>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>>>>> >>>>>>> - potem bbSize == sepPos robi się w wersie 196 >>>>>>> >>>>>>> - potem sepPos++ w wierszu 210 >>>>>>> >>>>>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>>>>> >>>>>>> if (sepPos< bbSize) sepPos++; >>>>>>> >>>>>>> to problemu nie ma. >>>>>>> >>>>>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>>>>> >>>>>>> Pozdrawiam >>>>>>> MM >>>>>>> >>>>>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>>>>> >>>>>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>>>>> >>>>>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>>>>> >>>>>>>> mvn eclipse:eclipse >>>>>>>> >>>>>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>>>>> zaimportować do Eclipse'a. >>>>>>>> >>>>>>>> Dawid >>>>>>>> >>>>>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>>>>> >>>>>>>>> Cześć, >>>>>>>>> >>>>>>>>> znaleźliśmy coś takiego: >>>>>>>>> >>>>>>>>> >>>>>>>>> java.lang.IndexOutOfBoundsException >>>>>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>>>>> ... >>>>>>>>> >>>>>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>>>>> tekstu: >>>>>>>>> >>>>>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>>>>> gaan >>>>>>>>> prestaren als de overige scholen. >>>>>>>>> >>>>>>>>> Oczywiście, błąd powoduje ciąg: >>>>>>>>> >>>>>>>>> l+A >>>>>>>>> >>>>>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>>>>> mavena... >>>>>>>>> >>>>>>>>> pozdrawiam, >>>>>>>>> MM >>>>>>>>> >>>>>>>>> >>>>>>>> >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>>>>> OpenOffice.org 3.0 >>>>>>> http://www.languagetool.org/ >>>>>>> >>>>>>> >>>>>> >>>>> >>>>> >>>> >>> >> >> > > ------------------------------------------------------------------------------ > Create and publish websites with WebMatrix > Use the most popular FREE web apps or write code yourself; > WebMatrix provides all the features you need to develop and > publish your website. http://p.sf.net/sfu/ms-webmatrix-sf > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Marcin M. <lis...@wp...> - 2011-04-01 09:54:07
|
Tak, to wygodniejsze rozwiązanie. Marcin W dniu 1 kwietnia 2011 11:07 użytkownik Dawid Weiss <daw...@gm...>napisał: > Jednak zmieniłem tę implementację na taką, która zwraca pustą listę > dla wejścia zawierającego separator. Nie ma sensu by wszystko > sprawdzać wielokrotnie, a jeśli ktoś będzie chciał, to może sprawdzić > ten warunek ręcznie (dodałem też getSeparatorChar). > > Kod w trunku. > > Dawid > > > ------------------------------------------------------------------------------ > Create and publish websites with WebMatrix > Use the most popular FREE web apps or write code yourself; > WebMatrix provides all the features you need to develop and > publish your website. http://p.sf.net/sfu/ms-webmatrix-sf > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel > |
From: Dawid W. <daw...@gm...> - 2011-04-01 09:07:36
|
Jednak zmieniłem tę implementację na taką, która zwraca pustą listę dla wejścia zawierającego separator. Nie ma sensu by wszystko sprawdzać wielokrotnie, a jeśli ktoś będzie chciał, to może sprawdzić ten warunek ręcznie (dodałem też getSeparatorChar). Kod w trunku. Dawid |
From: Marcin M. <lis...@wp...> - 2011-03-31 14:08:23
|
Ale żeby sprawdzać, czy w ciągu wejściowym jest separator, IStemmer lub DictionaryLookup powinno mieć metodę public getDictionarySeparator. Inaczej tagger tego nie może wiedzieć. Marcin W dniu 2011-03-31 13:23, Dawid Weiss pisze: > Tak. Ewentualnie musimy zmienić zachowanie tej metody tak, by zwracała > false na pytanie o ciąg zawierający separator... to niestety jest > kiszka, która się ciągnie od automatów Janka, bo w zasadzie nic nie > stoi na przeszkodzie, by separatorem był bajt o kodzie zero... w > większości stron kodowych zero raczej nie występuje (z oczywistych > przyczyn) i wtedy nie ma problemu... > > Dawid > > 2011/3/31 Marcin Milkowski<mar...@gm...>: >> Tak, są dla każdej małej litery. Nie pytaj mnie dlaczego. >> >> To co, powinienem po prostu z góry odrzucić wszelkie lookupy dla >> ciągów zawierających separator słownika? To dosyć proste. >> >> Pozdrawiam >> MM >> >> 2011/3/31 Dawid Weiss<daw...@cs...>: >>> Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie >>> adnotacje do 'l' (małe L): >>> >>> l+A+LW >>> l+A+NN1d >>> >>> Dawid >>> >>> 2011/3/31 Dawid Weiss<daw...@cs...>: >>>> Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: >>>> >>>> l+A >>>> >>>> który to łańcuch zawiera znak separatora części logicznych w >>>> automacie. Innymi słowy to dopasowuje się w pełni (-4 to >>>> SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego >>>> ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe >>>> niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i >>>> adnotacji się kaszani (no i słusznie). >>>> >>>> Dodałem do kodu weryfikację czy na wejściu jest znak separatora i >>>> IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, >>>> że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator >>>> się nie pojawia... można to też załatać po stronie morfologika w tej >>>> sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest >>>> separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej >>>> jest chyba z wyjątkiem. >>>> >>>> Dawid >>>> >>>> >>>> >>>> 2011/3/30 Marcin Milkowski<mar...@gm...>: >>>>> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >>>>> >>>>> 2011/3/30 Dawid Weiss<daw...@cs...>: >>>>>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>>>>> >>>>>> D. >>>>>> >>>>>> 2011/3/30 Marcin Miłkowski<mar...@gm...>: >>>>>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>>>>> LT następuje drobny problem (DictionaryLookup.java). >>>>>>> >>>>>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>>>>> >>>>>>> - potem bbSize == sepPos robi się w wersie 196 >>>>>>> >>>>>>> - potem sepPos++ w wierszu 210 >>>>>>> >>>>>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>>>>> >>>>>>> if (sepPos< bbSize) sepPos++; >>>>>>> >>>>>>> to problemu nie ma. >>>>>>> >>>>>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>>>>> >>>>>>> Pozdrawiam >>>>>>> MM >>>>>>> >>>>>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>>>>> >>>>>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>>>>> >>>>>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>>>>> >>>>>>>> mvn eclipse:eclipse >>>>>>>> >>>>>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>>>>> zaimportować do Eclipse'a. >>>>>>>> >>>>>>>> Dawid >>>>>>>> >>>>>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>>>>> >>>>>>>>> Cześć, >>>>>>>>> >>>>>>>>> znaleźliśmy coś takiego: >>>>>>>>> >>>>>>>>> >>>>>>>>> java.lang.IndexOutOfBoundsException >>>>>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>>>>> ... >>>>>>>>> >>>>>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>>>>> tekstu: >>>>>>>>> >>>>>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>>>>> gaan >>>>>>>>> prestaren als de overige scholen. >>>>>>>>> >>>>>>>>> Oczywiście, błąd powoduje ciąg: >>>>>>>>> >>>>>>>>> l+A >>>>>>>>> >>>>>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>>>>> mavena... >>>>>>>>> >>>>>>>>> pozdrawiam, >>>>>>>>> MM >>>>>>>>> >>>>>>>>> >>>>>>>> >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>>>>> OpenOffice.org 3.0 >>>>>>> http://www.languagetool.org/ >>>>>>> >>>>>>> >>>>>> >>>>> >>>>> >>>> >>> >> >> > > ------------------------------------------------------------------------------ > Create and publish websites with WebMatrix > Use the most popular FREE web apps or write code yourself; > WebMatrix provides all the features you need to develop and > publish your website. http://p.sf.net/sfu/ms-webmatrix-sf > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Marcin M. <lis...@wp...> - 2011-03-31 13:56:26
|
W dniu 2011-03-31 13:23, Dawid Weiss pisze: > Tak. Ewentualnie musimy zmienić zachowanie tej metody tak, by zwracała > false na pytanie o ciąg zawierający separator... to niestety jest > kiszka, która się ciągnie od automatów Janka, bo w zasadzie nic nie > stoi na przeszkodzie, by separatorem był bajt o kodzie zero... w > większości stron kodowych zero raczej nie występuje (z oczywistych > przyczyn) i wtedy nie ma problemu... Z powodu skryptów jest to dosyć kłopotliwe (trudno przekazać kod zero do AWK itd.), ale moglibyśmy zaimplementować u nas w fsa_build, nie? Po prostu chyba wystarczyłoby podać separator jako \u0? Marcin > Dawid > > 2011/3/31 Marcin Milkowski<mar...@gm...>: >> Tak, są dla każdej małej litery. Nie pytaj mnie dlaczego. >> >> To co, powinienem po prostu z góry odrzucić wszelkie lookupy dla >> ciągów zawierających separator słownika? To dosyć proste. >> >> Pozdrawiam >> MM >> >> 2011/3/31 Dawid Weiss<daw...@cs...>: >>> Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie >>> adnotacje do 'l' (małe L): >>> >>> l+A+LW >>> l+A+NN1d >>> >>> Dawid >>> >>> 2011/3/31 Dawid Weiss<daw...@cs...>: >>>> Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: >>>> >>>> l+A >>>> >>>> który to łańcuch zawiera znak separatora części logicznych w >>>> automacie. Innymi słowy to dopasowuje się w pełni (-4 to >>>> SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego >>>> ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe >>>> niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i >>>> adnotacji się kaszani (no i słusznie). >>>> >>>> Dodałem do kodu weryfikację czy na wejściu jest znak separatora i >>>> IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, >>>> że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator >>>> się nie pojawia... można to też załatać po stronie morfologika w tej >>>> sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest >>>> separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej >>>> jest chyba z wyjątkiem. >>>> >>>> Dawid >>>> >>>> >>>> >>>> 2011/3/30 Marcin Milkowski<mar...@gm...>: >>>>> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >>>>> >>>>> 2011/3/30 Dawid Weiss<daw...@cs...>: >>>>>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>>>>> >>>>>> D. >>>>>> >>>>>> 2011/3/30 Marcin Miłkowski<mar...@gm...>: >>>>>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>>>>> LT następuje drobny problem (DictionaryLookup.java). >>>>>>> >>>>>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>>>>> >>>>>>> - potem bbSize == sepPos robi się w wersie 196 >>>>>>> >>>>>>> - potem sepPos++ w wierszu 210 >>>>>>> >>>>>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>>>>> >>>>>>> if (sepPos< bbSize) sepPos++; >>>>>>> >>>>>>> to problemu nie ma. >>>>>>> >>>>>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>>>>> >>>>>>> Pozdrawiam >>>>>>> MM >>>>>>> >>>>>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>>>>> >>>>>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>>>>> >>>>>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>>>>> >>>>>>>> mvn eclipse:eclipse >>>>>>>> >>>>>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>>>>> zaimportować do Eclipse'a. >>>>>>>> >>>>>>>> Dawid >>>>>>>> >>>>>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>>>>> >>>>>>>>> Cześć, >>>>>>>>> >>>>>>>>> znaleźliśmy coś takiego: >>>>>>>>> >>>>>>>>> >>>>>>>>> java.lang.IndexOutOfBoundsException >>>>>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>>>>> ... >>>>>>>>> >>>>>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>>>>> tekstu: >>>>>>>>> >>>>>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>>>>> gaan >>>>>>>>> prestaren als de overige scholen. >>>>>>>>> >>>>>>>>> Oczywiście, błąd powoduje ciąg: >>>>>>>>> >>>>>>>>> l+A >>>>>>>>> >>>>>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>>>>> mavena... >>>>>>>>> >>>>>>>>> pozdrawiam, >>>>>>>>> MM >>>>>>>>> >>>>>>>>> >>>>>>>> >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>>>>> OpenOffice.org 3.0 >>>>>>> http://www.languagetool.org/ >>>>>>> >>>>>>> >>>>>> >>>>> >>>>> >>>> >>> >> >> > > ------------------------------------------------------------------------------ > Create and publish websites with WebMatrix > Use the most popular FREE web apps or write code yourself; > WebMatrix provides all the features you need to develop and > publish your website. http://p.sf.net/sfu/ms-webmatrix-sf > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Dawid W. <daw...@cs...> - 2011-03-31 11:23:48
|
Tak. Ewentualnie musimy zmienić zachowanie tej metody tak, by zwracała false na pytanie o ciąg zawierający separator... to niestety jest kiszka, która się ciągnie od automatów Janka, bo w zasadzie nic nie stoi na przeszkodzie, by separatorem był bajt o kodzie zero... w większości stron kodowych zero raczej nie występuje (z oczywistych przyczyn) i wtedy nie ma problemu... Dawid 2011/3/31 Marcin Milkowski <mar...@gm...>: > Tak, są dla każdej małej litery. Nie pytaj mnie dlaczego. > > To co, powinienem po prostu z góry odrzucić wszelkie lookupy dla > ciągów zawierających separator słownika? To dosyć proste. > > Pozdrawiam > MM > > 2011/3/31 Dawid Weiss <daw...@cs...>: >> Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie >> adnotacje do 'l' (małe L): >> >> l+A+LW >> l+A+NN1d >> >> Dawid >> >> 2011/3/31 Dawid Weiss <daw...@cs...>: >>> Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: >>> >>> l+A >>> >>> który to łańcuch zawiera znak separatora części logicznych w >>> automacie. Innymi słowy to dopasowuje się w pełni (-4 to >>> SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego >>> ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe >>> niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i >>> adnotacji się kaszani (no i słusznie). >>> >>> Dodałem do kodu weryfikację czy na wejściu jest znak separatora i >>> IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, >>> że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator >>> się nie pojawia... można to też załatać po stronie morfologika w tej >>> sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest >>> separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej >>> jest chyba z wyjątkiem. >>> >>> Dawid >>> >>> >>> >>> 2011/3/30 Marcin Milkowski <mar...@gm...>: >>>> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >>>> >>>> 2011/3/30 Dawid Weiss <daw...@cs...>: >>>>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>>>> >>>>> D. >>>>> >>>>> 2011/3/30 Marcin Miłkowski <mar...@gm...>: >>>>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>>>> LT następuje drobny problem (DictionaryLookup.java). >>>>>> >>>>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>>>> >>>>>> - potem bbSize == sepPos robi się w wersie 196 >>>>>> >>>>>> - potem sepPos++ w wierszu 210 >>>>>> >>>>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>>>> >>>>>> if (sepPos < bbSize) sepPos++; >>>>>> >>>>>> to problemu nie ma. >>>>>> >>>>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>>>> >>>>>> Pozdrawiam >>>>>> MM >>>>>> >>>>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>>>> >>>>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>>>> >>>>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>>>> >>>>>>> mvn eclipse:eclipse >>>>>>> >>>>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>>>> zaimportować do Eclipse'a. >>>>>>> >>>>>>> Dawid >>>>>>> >>>>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>>>> >>>>>>>> Cześć, >>>>>>>> >>>>>>>> znaleźliśmy coś takiego: >>>>>>>> >>>>>>>> >>>>>>>> java.lang.IndexOutOfBoundsException >>>>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>>>> ... >>>>>>>> >>>>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>>>> tekstu: >>>>>>>> >>>>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>>>> gaan >>>>>>>> prestaren als de overige scholen. >>>>>>>> >>>>>>>> Oczywiście, błąd powoduje ciąg: >>>>>>>> >>>>>>>> l+A >>>>>>>> >>>>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>>>> mavena... >>>>>>>> >>>>>>>> pozdrawiam, >>>>>>>> MM >>>>>>>> >>>>>>>> >>>>>>> >>>>>> >>>>>> >>>>>> -- >>>>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>>>> OpenOffice.org 3.0 >>>>>> http://www.languagetool.org/ >>>>>> >>>>>> >>>>> >>>> >>>> >>> >> > > |
From: Marcin M. <mar...@gm...> - 2011-03-31 11:19:28
|
Tak, są dla każdej małej litery. Nie pytaj mnie dlaczego. To co, powinienem po prostu z góry odrzucić wszelkie lookupy dla ciągów zawierających separator słownika? To dosyć proste. Pozdrawiam MM 2011/3/31 Dawid Weiss <daw...@cs...>: > Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie > adnotacje do 'l' (małe L): > > l+A+LW > l+A+NN1d > > Dawid > > 2011/3/31 Dawid Weiss <daw...@cs...>: >> Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: >> >> l+A >> >> który to łańcuch zawiera znak separatora części logicznych w >> automacie. Innymi słowy to dopasowuje się w pełni (-4 to >> SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego >> ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe >> niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i >> adnotacji się kaszani (no i słusznie). >> >> Dodałem do kodu weryfikację czy na wejściu jest znak separatora i >> IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, >> że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator >> się nie pojawia... można to też załatać po stronie morfologika w tej >> sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest >> separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej >> jest chyba z wyjątkiem. >> >> Dawid >> >> >> >> 2011/3/30 Marcin Milkowski <mar...@gm...>: >>> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >>> >>> 2011/3/30 Dawid Weiss <daw...@cs...>: >>>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>>> >>>> D. >>>> >>>> 2011/3/30 Marcin Miłkowski <mar...@gm...>: >>>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>>> LT następuje drobny problem (DictionaryLookup.java). >>>>> >>>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>>> >>>>> - potem bbSize == sepPos robi się w wersie 196 >>>>> >>>>> - potem sepPos++ w wierszu 210 >>>>> >>>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>>> >>>>> if (sepPos < bbSize) sepPos++; >>>>> >>>>> to problemu nie ma. >>>>> >>>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>>> >>>>> Pozdrawiam >>>>> MM >>>>> >>>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>>> >>>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>>> >>>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>>> >>>>>> mvn eclipse:eclipse >>>>>> >>>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>>> zaimportować do Eclipse'a. >>>>>> >>>>>> Dawid >>>>>> >>>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>>> >>>>>>> Cześć, >>>>>>> >>>>>>> znaleźliśmy coś takiego: >>>>>>> >>>>>>> >>>>>>> java.lang.IndexOutOfBoundsException >>>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>>> ... >>>>>>> >>>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>>> tekstu: >>>>>>> >>>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>>> gaan >>>>>>> prestaren als de overige scholen. >>>>>>> >>>>>>> Oczywiście, błąd powoduje ciąg: >>>>>>> >>>>>>> l+A >>>>>>> >>>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>>> mavena... >>>>>>> >>>>>>> pozdrawiam, >>>>>>> MM >>>>>>> >>>>>>> >>>>>> >>>>> >>>>> >>>>> -- >>>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>>> OpenOffice.org 3.0 >>>>> http://www.languagetool.org/ >>>>> >>>>> >>>> >>> >>> >> > |
From: Dawid W. <daw...@cs...> - 2011-03-31 10:16:06
|
Swoją drogą, w tym automacie z holenderskimi danymi są aż dwie adnotacje do 'l' (małe L): l+A+LW l+A+NN1d Dawid 2011/3/31 Dawid Weiss <daw...@cs...>: > Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: > > l+A > > który to łańcuch zawiera znak separatora części logicznych w > automacie. Innymi słowy to dopasowuje się w pełni (-4 to > SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego > ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe > niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i > adnotacji się kaszani (no i słusznie). > > Dodałem do kodu weryfikację czy na wejściu jest znak separatora i > IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, > że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator > się nie pojawia... można to też załatać po stronie morfologika w tej > sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest > separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej > jest chyba z wyjątkiem. > > Dawid > > > > 2011/3/30 Marcin Milkowski <mar...@gm...>: >> https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ >> >> 2011/3/30 Dawid Weiss <daw...@cs...>: >>> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >>> >>> D. >>> >>> 2011/3/30 Marcin Miłkowski <mar...@gm...>: >>>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>>> LT następuje drobny problem (DictionaryLookup.java). >>>> >>>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>>> >>>> - potem bbSize == sepPos robi się w wersie 196 >>>> >>>> - potem sepPos++ w wierszu 210 >>>> >>>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>>> >>>> if (sepPos < bbSize) sepPos++; >>>> >>>> to problemu nie ma. >>>> >>>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>>> >>>> Pozdrawiam >>>> MM >>>> >>>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>>> >>>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>>> >>>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>>> >>>>> mvn eclipse:eclipse >>>>> >>>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>>> zaimportować do Eclipse'a. >>>>> >>>>> Dawid >>>>> >>>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>>> >>>>>> Cześć, >>>>>> >>>>>> znaleźliśmy coś takiego: >>>>>> >>>>>> >>>>>> java.lang.IndexOutOfBoundsException >>>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>>> ... >>>>>> >>>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>>> tekstu: >>>>>> >>>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>>> gaan >>>>>> prestaren als de overige scholen. >>>>>> >>>>>> Oczywiście, błąd powoduje ciąg: >>>>>> >>>>>> l+A >>>>>> >>>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>>> mavena... >>>>>> >>>>>> pozdrawiam, >>>>>> MM >>>>>> >>>>>> >>>>> >>>> >>>> >>>> -- >>>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>>> OpenOffice.org 3.0 >>>> http://www.languagetool.org/ >>>> >>>> >>> >> >> > |
From: Dawid W. <daw...@cs...> - 2011-03-31 10:14:18
|
Problem tkwi w tym, Marcin, że próbujesz zrobić lookup na łańcuchu: l+A który to łańcuch zawiera znak separatora części logicznych w automacie. Innymi słowy to dopasowuje się w pełni (-4 to SEQUENCE_IS_A_PREFIX, czyli w automacie jest pełne dopasowanie tego ciągu: wszystkie sekwencje pasujące zakodowane w automacie są dłuższe niż dany ciąg). To powoduje, że dalsza logika rozbicia lematu i adnotacji się kaszani (no i słusznie). Dodałem do kodu weryfikację czy na wejściu jest znak separatora i IllegalArgumentException jeśli tak jest. To niestety oznaczać będzie, że trzeba sprawdzać (albo apriori zakładać), że na wejściu separator się nie pojawia... można to też załatać po stronie morfologika w tej sposób, żeby zwracał pustą listę dopasowań jeśli na wejściu jest separator, ale po krótkim przemyśleniu doszedłem do wniosku, że lepiej jest chyba z wyjątkiem. Dawid 2011/3/30 Marcin Milkowski <mar...@gm...>: > https://languagetool.svn.sourceforge.net/svnroot/languagetool/trunk/JLanguageTool/src/resource/nl/ > > 2011/3/30 Dawid Weiss <daw...@cs...>: >> Wrzuć mi Marcin lub przyślij mailem ten kod/słownik, to sprawdzę w czym rzecz. >> >> D. >> >> 2011/3/30 Marcin Miłkowski <mar...@gm...>: >>> Już wstępnie widzę, w czym rzecz: dla tego słownika niderlandzkiego z repo >>> LT następuje drobny problem (DictionaryLookup.java). >>> >>> - match.kind == -4 (dziwne, czyżby l+A było znalezione? chyba tylko l?) >>> >>> - potem bbSize == sepPos robi się w wersie 196 >>> >>> - potem sepPos++ w wierszu 210 >>> >>> i mamy ujemną wielkość bufora w wierszu 218. Jeśli zmienię wers 210 tak: >>> >>> if (sepPos < bbSize) sepPos++; >>> >>> to problemu nie ma. >>> >>> Ale nadal nie jestem pewien, skąd w ogóle match.kind == -4. >>> >>> Pozdrawiam >>> MM >>> >>> W dniu 2011-03-29 21:39, Dawid Weiss pisze: >>>> >>>> A możesz mi napisać test JUnitowy, który to pokazuje? >>>> >>>> Co do Mavena: nie potrzebujesz wtyczki, zrób: >>>> >>>> mvn eclipse:eclipse >>>> >>>> i powinny się wygenerować normalne pliki projektu, który możesz >>>> zaimportować do Eclipse'a. >>>> >>>> Dawid >>>> >>>> 2011/3/29 Marcin Miłkowski<mar...@gm...>: >>>>> >>>>> Cześć, >>>>> >>>>> znaleźliśmy coś takiego: >>>>> >>>>> >>>>> java.lang.IndexOutOfBoundsException >>>>> java.nio.Buffer.checkBounds(Buffer.java:530) >>>>> java.nio.HeapByteBuffer.put(HeapByteBuffer.java:163) >>>>> morfologik.stemming.DictionaryLookup.lookup(Unknown Source) >>>>> de.danielnaber.languagetool.tagging.BaseTagger.tag(BaseTagger.java:70) >>>>> ... >>>>> >>>>> Występuje to przy niektórych słownikach fsa, np. w niderladzkim dla >>>>> tekstu: >>>>> >>>>> De centrale doelstelling van het leerplus is dat l+A scholen even goed >>>>> gaan >>>>> prestaren als de overige scholen. >>>>> >>>>> Oczywiście, błąd powoduje ciąg: >>>>> >>>>> l+A >>>>> >>>>> Masz pomysł, dlaczego tak jest? W czasie debugu okazało się, że to przy >>>>> wywołaniu charAt() lub w okolicach. Niestety, ja mam starą eclipse na tym >>>>> komputerze i nie mam czasu bawić się w upgrade z powodu wtyczki do >>>>> mavena... >>>>> >>>>> pozdrawiam, >>>>> MM >>>>> >>>>> >>>> >>> >>> >>> -- >>> Polecam LanguageTool - bezpłatne narzędzie do korekty tekstu do >>> OpenOffice.org 3.0 >>> http://www.languagetool.org/ >>> >>> >> > > |
From: Dawid W. <daw...@gm...> - 2011-02-18 09:28:30
|
Uaktualnione słowniki do Morfologik 1.8.1. Snapshot w SonaType: https://oss.sonatype.org/content/repositories/snapshots/org/carrot2/morfologik-stemming/1.5.2-SNAPSHOT/ Dawid |
From: Marcin M. <lis...@wp...> - 2011-02-11 15:44:34
|
Wrzuciłem newsa na bloga, ale nie generuję binarek, bo to już przesada. Jak będą większe zmiany, to możemy pokombinować. Marcin W dniu 2011-02-09 15:06, Dawid Weiss pisze: > Obie powinny być dostępne w repozytoriach Mavena za godzinę (batch > rsync z sonatype). Dla użytkowników mavena zmieni się pakiet *-nodict. > Teraz nie jest osobnym artefaktem, tylko wspólnym z > morfologik-stemming, z modyfikatorem (classifier). > > Marcin: można na blogu napisać notatkę o wersji 1.5.0 i 1.5.1 w > repozytorium Mavena, ale większego sensu publikacji oddzielnych > binarek dla 1.5.1 na SF nie widzę, bo one są identyczne, szkoda > zachodu. Jeśli jednak chcesz bardzo, no to (z taga 1.5.1): > > mvn clean > mvn -Prelease > > potem masz w target/apidocs wygenerowanego JavaDoca, a w > target/morfologik-stemming*.zip ZIPa z dystrybucją. > > Dawid > > ------------------------------------------------------------------------------ > The ultimate all-in-one performance toolkit: Intel(R) Parallel Studio XE: > Pinpoint memory and threading errors before they happen. > Find and fix more than 250 security defects in the development cycle. > Locate bottlenecks in serial and parallel code that limit performance. > http://p.sf.net/sfu/intel-dev2devfeb > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Dawid W. <daw...@gm...> - 2011-02-09 14:07:22
|
Obie powinny być dostępne w repozytoriach Mavena za godzinę (batch rsync z sonatype). Dla użytkowników mavena zmieni się pakiet *-nodict. Teraz nie jest osobnym artefaktem, tylko wspólnym z morfologik-stemming, z modyfikatorem (classifier). Marcin: można na blogu napisać notatkę o wersji 1.5.0 i 1.5.1 w repozytorium Mavena, ale większego sensu publikacji oddzielnych binarek dla 1.5.1 na SF nie widzę, bo one są identyczne, szkoda zachodu. Jeśli jednak chcesz bardzo, no to (z taga 1.5.1): mvn clean mvn -Prelease potem masz w target/apidocs wygenerowanego JavaDoca, a w target/morfologik-stemming*.zip ZIPa z dystrybucją. Dawid |
From: Dawid W. <daw...@gm...> - 2011-02-09 12:56:56
|
W repozytorium jest wersja, która się kompiluje Mavenem. Nie rozbijałem jednak na podmoduły, bo mnie gorączka ogarnia jak widzę Mavena... Ale wydaje się działać. Marcin, jeśli nie korzystałeś z mavena, to pobierz sobie (najlepiej wersję 2.x, bo ta nowa to jeszcze klapa w wielu miejscach) i później w folderze projektu: mvn eclipse:eclipse => można projekt zaimportować do Eclipse'a mvn package => tworzy w folderze target/ plik dystrybucyjny (*.zip). Zrobię taga na wersję 1.5.1 po tych zmianach (w kodzie nic w zasadzie się nie zmieniło) i puszczę z tą wersją do Maven Central. Dawid |
From: Dawid W. <daw...@cs...> - 2011-02-08 12:00:24
|
Cześć Michał! Pozwalam sobie na CC na listę Morfologika. Co do POMa -- mam to na liście spraw do zrobienia. Przyspieszę to, skoro potrzebujecie. Jutro nowa wersja będzie w Maven Central. W 1.5 zmieniło się API FSA (nie wiem czego dokładnie używacie), więc będziecie musieli wprowadzić drobne poprawki jeśli akurat z tego korzystacie. Btw. jeśli możesz, to dopisz się na listę mailingową, to dobre miejsce na takie prośby i dyskusję -- dzięki. Dawid 2011/2/8 Michal Draminski <mic...@gm...>: > Czesc Dawidzie. > Pojawiaja sie nowe wersje morfologica ktorego bardzo chetnie uzywamy w IPI. > Rozwijamy projekt NEKST w ktorym uzywamy Maven. Ostatnia opublikowana wersja > Morfologika na oficjalnym repozytorium to 1.4 > Czy jest jakas szansa ze opublikujecie kolejne wersje? > W najgorszym razie poprosze o opublikowanie pliku pom na stronie projektu. > Mamy wlasne repozytorium wiec mozemy sobie wrzucic jara i poma (a moze > zaleznosci sie nie zmienily jest wciaz commons-cli-1.2.jar ale dodatkowo > hppc-0.3.2.jar ktorego chyba we wczesniejszej wersji nie bylo??) > Oczywiscie w najgorszym razie moge zrobic jakiegos prostego poma dla > wlasnych potrzeb. Nie jest to jednak eleganckie rozwiazanie :/ > Byc moze nie zajmujesz sie Morfologikiem od tej strony w takim razie prosze > o podanie mi kontaktu do kogos kto sie tym zajmuje. > Pozdrawiam serdecznie > > -- > -------------------------------------------------- > Best Regards > Pozdrawiam Serdecznie :) > Michał Dramiński > > |
From: Grzegorz S. <gs...@ti...> - 2011-01-17 09:52:39
|
OK Na podstawie kodu w trunk'u, czy którymś branch'u? Grzesiek On 2011-01-15 16:54, Dawid Weiss wrote: > Cześć. > > Co prawda nadal nie jestem jakimś wielkim orędownikiem mavena, ale > skoro i tak publikujemy artefakty, a dostałem w końcu to konto na > sonatype, to przynajmniej jest okazja, żeby spróbować się przekonać. > Proponuję zatem, prócz przejścia na mavena do budowy projektu, > wyodrębnienie (pod?) modułów: > > [org.carrot2.morfologik] fsa.jar [optional > dependency on hppc if automata building is to be enabled] > [org.carrot2.morfologik] morfologik.jar [depends on > fsa.jar, equivalent of former -nodict] > [org.carrot2.morfologik] morfologik-tools.jar [depends on > morfologik.jar, hppc, commons-cli] > [org.carrot2.morfologik] morfologik-polish.jar [depends on morfologik.jar] > > Każda z tych rzeczy w zasadzie ma swoje odrębne przeznaczenie i może > być użyta osobno. Grzegorz, czy mógłbyś przygotować mavenowy template, > który byłby mniej więcej standardowy? Chodzi mi głównie na to, jak to > porozbijać na podmoduły zależne od siebie z jednym masterem do budowy > wszystkiego. Lepiej się orientujesz w mavenie, więc pewnie będziesz > miał rozeznanie. > > Jeśli podeślesz strukturę, to ja ją wypełnię pewnie detalami (które > klasy i zasoby gdzie, licencje, etc.). Acha -- nie wiem jak to > dokładnie wygląda, ale powinna być możliwość wypchnięcia z mastera też > release do staging i snapshot (wszystkich artefaktów + -sources, > -javadoc za jednym razem?). Sonatype dostarcza parent-pom, w którym > niewiele jest, ale pewnie można się od nich nieco uzależnić, aby > ułatwić deployment: > > http://repo2.maven.org/maven2/org/sonatype/oss/oss-parent/5/oss-parent-5.pom > > Z góry dzięki. Oczywiście czekam też na głosy polemiczne :) > > D. > > ------------------------------------------------------------------------------ > Protect Your Site and Customers from Malware Attacks > Learn about various malware tactics and how to avoid them. Understand > malware threats, the impact they can have on your business, and how you > can protect your company and customers by using code signing. > http://p.sf.net/sfu/oracle-sfdevnl > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Dawid W. <daw...@gm...> - 2011-01-15 15:55:12
|
Cześć. Co prawda nadal nie jestem jakimś wielkim orędownikiem mavena, ale skoro i tak publikujemy artefakty, a dostałem w końcu to konto na sonatype, to przynajmniej jest okazja, żeby spróbować się przekonać. Proponuję zatem, prócz przejścia na mavena do budowy projektu, wyodrębnienie (pod?) modułów: [org.carrot2.morfologik] fsa.jar [optional dependency on hppc if automata building is to be enabled] [org.carrot2.morfologik] morfologik.jar [depends on fsa.jar, equivalent of former -nodict] [org.carrot2.morfologik] morfologik-tools.jar [depends on morfologik.jar, hppc, commons-cli] [org.carrot2.morfologik] morfologik-polish.jar [depends on morfologik.jar] Każda z tych rzeczy w zasadzie ma swoje odrębne przeznaczenie i może być użyta osobno. Grzegorz, czy mógłbyś przygotować mavenowy template, który byłby mniej więcej standardowy? Chodzi mi głównie na to, jak to porozbijać na podmoduły zależne od siebie z jednym masterem do budowy wszystkiego. Lepiej się orientujesz w mavenie, więc pewnie będziesz miał rozeznanie. Jeśli podeślesz strukturę, to ja ją wypełnię pewnie detalami (które klasy i zasoby gdzie, licencje, etc.). Acha -- nie wiem jak to dokładnie wygląda, ale powinna być możliwość wypchnięcia z mastera też release do staging i snapshot (wszystkich artefaktów + -sources, -javadoc za jednym razem?). Sonatype dostarcza parent-pom, w którym niewiele jest, ale pewnie można się od nich nieco uzależnić, aby ułatwić deployment: http://repo2.maven.org/maven2/org/sonatype/oss/oss-parent/5/oss-parent-5.pom Z góry dzięki. Oczywiście czekam też na głosy polemiczne :) D. |
From: Dawid W. <daw...@gm...> - 2011-01-13 12:55:20
|
Moja. D. 2011/1/13 Grzegorz Słowikowski <gs...@ti...>: > A "org.carrot2" czyja jest? > > On 2011-01-13 13:47, Marcin Miłkowski wrote: >> W dniu 2011-01-13 09:38, Dawid Weiss pisze: >>> Cześć. >>> >>> Uzyskałem możliwość wgrywania artefaktów mavenowych do Maven Central w >>> nieco łatwiejszy (tak mi się wydaje) sposób. W chwili obecnej groupId >>> jest ustawione na org.carrot2... zostawiamy taki? Alternatywa jest >>> taka, że trzeba wykupić domenę jakąś (morfologik.net?), bo sonatype >>> się upiera, żeby groupId był zgodny z domeną, której jest się >>> właścicielem. Z mojej strony nie ma problemu -- może być i pakiet >>> org.carrot2, ale chciałem uzyskać Waszą opinię w tym temacie. >> Mi obojętne, ale chyba może być też domena morfologik.sourceforge.net, >> gdybyśmy nie chcieli wykupywać? >> >> Marcin >> >> ------------------------------------------------------------------------------ >> Protect Your Site and Customers from Malware Attacks >> Learn about various malware tactics and how to avoid them. Understand >> malware threats, the impact they can have on your business, and how you >> can protect your company and customers by using code signing. >> http://p.sf.net/sfu/oracle-sfdevnl >> _______________________________________________ >> Morfologik-devel mailing list >> Mor...@li... >> https://lists.sourceforge.net/lists/listinfo/morfologik-devel > > ------------------------------------------------------------------------------ > Protect Your Site and Customers from Malware Attacks > Learn about various malware tactics and how to avoid them. Understand > malware threats, the impact they can have on your business, and how you > can protect your company and customers by using code signing. > http://p.sf.net/sfu/oracle-sfdevnl > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel > |
From: Grzegorz S. <gs...@ti...> - 2011-01-13 12:50:23
|
A "org.carrot2" czyja jest? On 2011-01-13 13:47, Marcin Miłkowski wrote: > W dniu 2011-01-13 09:38, Dawid Weiss pisze: >> Cześć. >> >> Uzyskałem możliwość wgrywania artefaktów mavenowych do Maven Central w >> nieco łatwiejszy (tak mi się wydaje) sposób. W chwili obecnej groupId >> jest ustawione na org.carrot2... zostawiamy taki? Alternatywa jest >> taka, że trzeba wykupić domenę jakąś (morfologik.net?), bo sonatype >> się upiera, żeby groupId był zgodny z domeną, której jest się >> właścicielem. Z mojej strony nie ma problemu -- może być i pakiet >> org.carrot2, ale chciałem uzyskać Waszą opinię w tym temacie. > Mi obojętne, ale chyba może być też domena morfologik.sourceforge.net, > gdybyśmy nie chcieli wykupywać? > > Marcin > > ------------------------------------------------------------------------------ > Protect Your Site and Customers from Malware Attacks > Learn about various malware tactics and how to avoid them. Understand > malware threats, the impact they can have on your business, and how you > can protect your company and customers by using code signing. > http://p.sf.net/sfu/oracle-sfdevnl > _______________________________________________ > Morfologik-devel mailing list > Mor...@li... > https://lists.sourceforge.net/lists/listinfo/morfologik-devel |
From: Marcin M. <lis...@wp...> - 2011-01-13 12:47:32
|
W dniu 2011-01-13 09:38, Dawid Weiss pisze: > Cześć. > > Uzyskałem możliwość wgrywania artefaktów mavenowych do Maven Central w > nieco łatwiejszy (tak mi się wydaje) sposób. W chwili obecnej groupId > jest ustawione na org.carrot2... zostawiamy taki? Alternatywa jest > taka, że trzeba wykupić domenę jakąś (morfologik.net?), bo sonatype > się upiera, żeby groupId był zgodny z domeną, której jest się > właścicielem. Z mojej strony nie ma problemu -- może być i pakiet > org.carrot2, ale chciałem uzyskać Waszą opinię w tym temacie. Mi obojętne, ale chyba może być też domena morfologik.sourceforge.net, gdybyśmy nie chcieli wykupywać? Marcin |