Menu

#25 Ёфикатор - слово совершённой иногда может быть и совершенной

2.9999
open
nobody
None
2016-10-03
2015-08-07
Igor Velkov
No

Слово "совершенной" иногда может быть и с е.
Столкнулся в результате неправильным результатом ёфикации: "Одной такой девице — совершённой психопатке, над которой дрожали любящие родители"

Discussion

  • dikbsd

    dikbsd - 2015-11-03

    Тут - сложная ситуация. Чтобы Ёфикатор смог распознавать, когда нужно использовать ё, а когда - е в слове "совершенной" (как и во многих других словах) нужно использовать нейронные сети и алгоритмы конечных автоматов. Офис такого просто не позволит сделать в силу своей ограниченности. Да и сложность - сопоставима с написание Finereader, где используется подобная технология.

     
    • Onion Cucumber

      Onion Cucumber - 2016-09-30

      Можно ввести простое правило: ёфицировать только если однозначно понятно, что надо ёфицировать, иначе не трогать слово. Это просто логично. Например, ёфикатор же не заменяет слово "все" на "всё", и это правильно.

       
      • dikbsd

        dikbsd - 2016-09-30

        В Ёфикаторе реализовал самый простой алгоритм: в базе задано соответствие слов-кандидатов и их замен. Если вводить более сложные правила, боюсь это в разы увеличит время обработки и нужно будет разрабатывать сложный алгоритм, позволяющий понять, какое слово и почему не должно ёфицироваться.

         
        • Onion Cucumber

          Onion Cucumber - 2016-10-01

          Сейчас в базе есть слово-кандидат и замена: "совершенный" -> "совершённый". Но почему в базу внесли эту замену, если употребимы обе формы? По какому принципу? Почему тогда "все" не заменяется на "всё"?

           
          • dikbsd

            dikbsd - 2016-10-01

            Дело в том, что я эту базу взял из одного проекта по ёфикации - не помню уже где брал. Он открытый. Там пользователи собрали возможные кандидаты в их понимании, конечно. Проверить визуально все слова на правильность их внесения в кандидаты - у меня просто не хватит времени ни на что другое тогда...

             
            • Onion Cucumber

              Onion Cucumber - 2016-10-01

              Не надо проверять всю базу на правильность, надо просто удалить оттуда ошибочных кандидатов. В каком формате база?

               
              • dikbsd

                dikbsd - 2016-10-01

                В формате txt - просто текстовый файл. Он находится в самом расширении в папке db

                 
                • Onion Cucumber

                  Onion Cucumber - 2016-10-01

                  https://u.pomf.is/ldjzng.zip Вот версия словаря с удалёнными кандидатами "совершенн..." (т.е. исправлена ошибка, на которую жаловался создатель этого багрепорта.

                   
                  • dikbsd

                    dikbsd - 2016-10-01

                    Спасибо, я заменю потом базу.

                     
                    • Onion Cucumber

                      Onion Cucumber - 2016-10-02

                      Вот версия словаря, из которого убраны слова-кандидаты со звёздочками. Некоторые слова удалены совсем как уже неупотребимые, а остальные очищены от звёздочек, чтобы могли участвовать в заменах.

                       
                  • Starikov Sergey

                    Starikov Sergey - 2016-10-05

                    Э…
                    Это самое…
                    А проверка соответствия файла оригиналу?

                    К ссылке на архив на некотором ресурсе полезно приложить манифест (размер в байтах и пару контрольных сумм, когда-то полагали достаточным MD5 + SHA256, сейчас уже скорее SHA256 + SHA512).

                     
  • dikbsd

    dikbsd - 2016-10-03

    Спсибо за исправленный словарь - заменил им базу данных...

     

Log in to post a comment.