OOoFBTools / bugs / #25 Ёфикатор - слово совершённой иногда может быть и совершенной

dikbsd - 2015-11-03

Тут - сложная ситуация. Чтобы Ёфикатор смог распознавать, когда нужно использовать ё, а когда - е в слове "совершенной" (как и во многих других словах) нужно использовать нейронные сети и алгоритмы конечных автоматов. Офис такого просто не позволит сделать в силу своей ограниченности. Да и сложность - сопоставима с написание Finereader, где используется подобная технология.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
- Onion Cucumber - 2016-09-30
  
  Можно ввести простое правило: ёфицировать только если однозначно понятно, что надо ёфицировать, иначе не трогать слово. Это просто логично. Например, ёфикатор же не заменяет слово "все" на "всё", и это правильно.
  
  If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
  - dikbsd - 2016-09-30
    
    В Ёфикаторе реализовал самый простой алгоритм: в базе задано соответствие слов-кандидатов и их замен. Если вводить более сложные правила, боюсь это в разы увеличит время обработки и нужно будет разрабатывать сложный алгоритм, позволяющий понять, какое слово и почему не должно ёфицироваться.
    
    If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
    - Onion Cucumber - 2016-10-01
      
      Сейчас в базе есть слово-кандидат и замена: "совершенный" -> "совершённый". Но почему в базу внесли эту замену, если употребимы обе формы? По какому принципу? Почему тогда "все" не заменяется на "всё"?
      
      If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
      - dikbsd - 2016-10-01
        
        Дело в том, что я эту базу взял из одного проекта по ёфикации - не помню уже где брал. Он открытый. Там пользователи собрали возможные кандидаты в их понимании, конечно. Проверить визуально все слова на правильность их внесения в кандидаты - у меня просто не хватит времени ни на что другое тогда...
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        Onion Cucumber - 2016-10-01
        
        Не надо проверять всю базу на правильность, надо просто удалить оттуда ошибочных кандидатов. В каком формате база?
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        dikbsd - 2016-10-01
        
        В формате txt - просто текстовый файл. Он находится в самом расширении в папке db
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        Onion Cucumber - 2016-10-01
        
        https://u.pomf.is/ldjzng.zip Вот версия словаря с удалёнными кандидатами "совершенн..." (т.е. исправлена ошибка, на которую жаловался создатель этого багрепорта.
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        dikbsd - 2016-10-01
        
        Спасибо, я заменю потом базу.
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        Onion Cucumber - 2016-10-02
        
        Вот версия словаря, из которого убраны слова-кандидаты со звёздочками. Некоторые слова удалены совсем как уже неупотребимые, а остальные очищены от звёздочек, чтобы могли участвовать в заменах.
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
        
        Starikov Sergey - 2016-10-05
        
        Э…
        Это самое…
        А проверка соответствия файла оригиналу?
        
        К ссылке на архив на некотором ресурсе полезно приложить манифест (размер в байтах и пару контрольных сумм, когда-то полагали достаточным MD5 + SHA256, сейчас уже скорее SHA256 + SHA512).
        
        If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

dikbsd - 2016-10-03

Спсибо за исправленный словарь - заменил им базу данных...

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Ёфикатор - слово совершённой иногда может быть и совершенной

Open/Libre Office extension for converting eBooks in fb2 format

Milestone

Searches

Help

#25 Ёфикатор - слово совершённой иногда может быть и совершенной

Discussion