Re: [Culmus-langtools] נקדן בקוד פתוח
Status: Beta
Brought to you by:
iorsh
From: Maxim I. <io...@us...> - 2012-02-21 22:28:48
|
שלום לכולם, ברשותכם, אסקור בקצרה את היקף הכלים הלשוניים שברשותי. מקורות מידע: 1. *מילון ולדשטיין* סרוק במלואו, הנמצא ברשות הציבור. מספר עמודים מתוך המילון (14 מתוך 470) הוקלדו על-ידי מתנדבים לתוך קבצי מלל פשוטים. המילון הוא מילון עברי-אנגלי, וכולל מילים עבריות מנוקדות בצורה בסיסית ולצדן תרגום לאנגלית. למיטב ידיעתי קיים גם מילון אנגלי-עברי מקביל, אך לא התעניינתי בו מעולם. 2. *לקסיקון מיל"ה*. אין מידע אודות הפרויקט שלהם בכללותו, אבל ברשותי קבצים עם מילים עבריות מנוקדות בצורה בסיסית, ולצדן הגדרה בעברית, דוגמת שימוש בעברית, תרגום אנגלי ומילים נרדפות בעברית. 3. *ויקימילון*, שהוא שואף להיות המקור השלם ביותר עם ניתוח מלא לכל מילה ומילה (ע"ע דבר <http://he.wiktionary.org/wiki/%D7%93%D7%91%D7%A8>). בשלב זה, רוב הערכים אינם מושלמים, ולרוב חסרות בהם נטיות. גם אוסף המילים של ויקימילון מעט אידיוסינקרטי - יש בו למשל ערך "עמולז" אך לא "קבוע". מוצרים: 1. *מילון עברי-עברי-אנגלי* שנבנה ע"י ניתוח אוטומטי של שלושת המקורות. זה היה הרעיון המקורי מאחורי המיזם הלשוני שלי, אבל היענות הציבור ורמת השימוש בו נראות מצומצמות ביותר. 2. *נקדן חצי-אוטומטי* שמשתדל להתאים למילה בכתיב מלא תקני את כל אפשרויות הניקוד העולות על הדעת. הנקדן בנוי על בסיס ויקימילון בלבד, והוא יודע לנקד רק שמות עצם עם אותיות שימוש וללא כינויי גוף. כלים: ישנו אוסף של סקריפטים (תוכנות קצרות) שמסדרים מחדש את שלושת מקורות המידע לצורה שתקל על בניית מילון עברי-אנגלי. אחד מהם יודע לנתח את תוכן ויקימילון ולשלוף ממנו הרבה מידע שימושי, כגון כתיב חסר/מלא, נטיות, שורש וגזרה. יצויין שלסקריפטים אין שום בינה מלאכותית או כלים של בלשנות חישובית. הם פרימיטיביים מאוד. מה אפשר לעשות? 1. *להעשיר את ויקימילון*. אם מחר מישהו יוסיף ניתוח דקדוקי לערך של "קול", אז תוך זמן קצר הנטיות של "קול" ייכנסו למאגר של הנקדן. אפשר ליצור רשימה של ערכים קיימים שדורשים השלמה, זה לא קשה, אך ההשלמה בפועל תדרוש הרבה מאמץ. 2. *לשפר תוכנה*. אם יש כללים ברורים לצירוף כינוי גוף, כדוגמת סוסים->סוסינו, אפשר ליישם אותם. הבעיה היא שככל הנראה אין כללים כאלה או שרשימת הסייגים שלהם היא אינסופית. גם בעניין פעלים. כשהטיית פעלים מסתמכת על יותר ממאתיים לוחות, קשה לחשוב על פתרון תוכנה שיבטל את כולם לטובת שיטה מדויקת מתמטית. 3. *עזרה ממסדית* עשויה להיות מבורכת, אבל תדרוש מאמץ ארגוני שאין לי לא זמן ולא עניין בו. אפשר להשתמש בתוכנות האלה כדוגמה לשימושים האפשריים של ויקימילון, כשהשמיים הם הגבול בהנתן מספיק עניין. במקרה כזה אני כנראה ארד מהבמה לטובת מאמץ מסודר יותר של מישהו אחר :) בנסיבות הנוכחיות הפרויקט הזה הוא קצת יתום. 4. *להקליד משהו*. יצויין שבמילון מודרני זכויות היוצרים חלות ככל הנראה לא רק על דוגמאות שימוש אלא גם על האוסף עצמו. לפיכך יש לקחת בסיס מילים עצמאי ולהקליד נטיות או כל מידע נלווה מתוך הצלבה של מילונים, בדומה למאגר של מיל"ה. בסיס כזה עשוי להתקבל מהמאגר של hspell. סליחה שאני חופר ותודה על תשומת לבכם, -- מקסים. נ.ב. אני מכתב רשימת תפוצה פתוחה למטרות ארכיוניות. |