Obeliks: Oblikoslovni označevalnik za slovenski jezik
Dolgoročni cilj projekta Obeliks je izdelava in nadgrajevanje najbolj natančnega statističnega označevalnika za slovenski jezik. Oblikoskladenjsko označevanje je proces pripisovanja oblikoslovnih (in deloma skladenjskih) lastnosti besedam v poljubnem besedilu. Tako označeno besedilo je predpogoj za delovanje večine aplikacij, ki temeljijo na analizi naravnega jezika. Označevanje slovenskih besedil je zelo težak problem, saj mora algoritem za označevanje pravilno izbirati med skoraj dva tisoč...
This project attempts to develop natural language processing routines as applied to a Bible text domain. Many common technologies (e.g., tokenization, Brill POS tagger) are used in conjunction with theoretical paradigms (e.g., hierarchical word definition trees, phrasal concordance).