Текст, перенесённый через буфер памяти из текстового pdf.
В тексте закономерно встречаются текстовые же номера страниц.
Инструмент их никак не обрабатывает. В результате чего требуется многовато ручно руботы.
Решения не вижу, потому пока отмечаю на память здесь, а не в качестве FR.
P.S. Столь же похабно обрабатываются сноски/тексты сносок. Но тут надо начинать с вопроса: в какой степени эту проблему нужно решать на уровне OOoFBTools.
If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
app-officeext/ooofbtools-2.42
Текст, перенесённый через буфер памяти из текстового pdf.
В тексте закономерно встречаются текстовые же номера страниц.
Инструмент их никак не обрабатывает. В результате чего требуется многовато ручно руботы.
Решения не вижу, потому пока отмечаю на память здесь, а не в качестве FR.
P.S. Столь же похабно обрабатываются сноски/тексты сносок. Но тут надо начинать с вопроса: в какой степени эту проблему нужно решать на уровне OOoFBTools.
Тот же инструмент там же неадекватно обрабатывает сокращения (например «т. н.»).
Last edit: Starikov Sergey 2016-02-28
Сергей, мне бы пример такого текста из pdf.