Слово "совершенной" иногда может быть и с е.
Столкнулся в результате неправильным результатом ёфикации: "Одной такой девице — совершённой психопатке, над которой дрожали любящие родители"
Тут - сложная ситуация. Чтобы Ёфикатор смог распознавать, когда нужно использовать ё, а когда - е в слове "совершенной" (как и во многих других словах) нужно использовать нейронные сети и алгоритмы конечных автоматов. Офис такого просто не позволит сделать в силу своей ограниченности. Да и сложность - сопоставима с написание Finereader, где используется подобная технология.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Можно ввести простое правило: ёфицировать только если однозначно понятно, что надо ёфицировать, иначе не трогать слово. Это просто логично. Например, ёфикатор же не заменяет слово "все" на "всё", и это правильно.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
В Ёфикаторе реализовал самый простой алгоритм: в базе задано соответствие слов-кандидатов и их замен. Если вводить более сложные правила, боюсь это в разы увеличит время обработки и нужно будет разрабатывать сложный алгоритм, позволяющий понять, какое слово и почему не должно ёфицироваться.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Сейчас в базе есть слово-кандидат и замена: "совершенный" -> "совершённый". Но почему в базу внесли эту замену, если употребимы обе формы? По какому принципу? Почему тогда "все" не заменяется на "всё"?
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Дело в том, что я эту базу взял из одного проекта по ёфикации - не помню уже где брал. Он открытый. Там пользователи собрали возможные кандидаты в их понимании, конечно. Проверить визуально все слова на правильность их внесения в кандидаты - у меня просто не хватит времени ни на что другое тогда...
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
https://u.pomf.is/ldjzng.zip Вот версия словаря с удалёнными кандидатами "совершенн..." (т.е. исправлена ошибка, на которую жаловался создатель этого багрепорта.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Вот версия словаря, из которого убраны слова-кандидаты со звёздочками. Некоторые слова удалены совсем как уже неупотребимые, а остальные очищены от звёздочек, чтобы могли участвовать в заменах.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Э…
Это самое…
А проверка соответствия файла оригиналу?
К ссылке на архив на некотором ресурсе полезно приложить манифест (размер в байтах и пару контрольных сумм, когда-то полагали достаточным MD5 + SHA256, сейчас уже скорее SHA256 + SHA512).
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
Тут - сложная ситуация. Чтобы Ёфикатор смог распознавать, когда нужно использовать ё, а когда - е в слове "совершенной" (как и во многих других словах) нужно использовать нейронные сети и алгоритмы конечных автоматов. Офис такого просто не позволит сделать в силу своей ограниченности. Да и сложность - сопоставима с написание Finereader, где используется подобная технология.
Можно ввести простое правило: ёфицировать только если однозначно понятно, что надо ёфицировать, иначе не трогать слово. Это просто логично. Например, ёфикатор же не заменяет слово "все" на "всё", и это правильно.
В Ёфикаторе реализовал самый простой алгоритм: в базе задано соответствие слов-кандидатов и их замен. Если вводить более сложные правила, боюсь это в разы увеличит время обработки и нужно будет разрабатывать сложный алгоритм, позволяющий понять, какое слово и почему не должно ёфицироваться.
Сейчас в базе есть слово-кандидат и замена: "совершенный" -> "совершённый". Но почему в базу внесли эту замену, если употребимы обе формы? По какому принципу? Почему тогда "все" не заменяется на "всё"?
Дело в том, что я эту базу взял из одного проекта по ёфикации - не помню уже где брал. Он открытый. Там пользователи собрали возможные кандидаты в их понимании, конечно. Проверить визуально все слова на правильность их внесения в кандидаты - у меня просто не хватит времени ни на что другое тогда...
Не надо проверять всю базу на правильность, надо просто удалить оттуда ошибочных кандидатов. В каком формате база?
В формате txt - просто текстовый файл. Он находится в самом расширении в папке db
https://u.pomf.is/ldjzng.zip Вот версия словаря с удалёнными кандидатами "совершенн..." (т.е. исправлена ошибка, на которую жаловался создатель этого багрепорта.
Спасибо, я заменю потом базу.
Вот версия словаря, из которого убраны слова-кандидаты со звёздочками. Некоторые слова удалены совсем как уже неупотребимые, а остальные очищены от звёздочек, чтобы могли участвовать в заменах.
Э…
Это самое…
А проверка соответствия файла оригиналу?
К ссылке на архив на некотором ресурсе полезно приложить манифест (размер в байтах и пару контрольных сумм, когда-то полагали достаточным MD5 + SHA256, сейчас уже скорее SHA256 + SHA512).
Спсибо за исправленный словарь - заменил им базу данных...