История (идентификация исходного файла)
Open/Libre Office extension for converting eBooks in fb2 format
Brought to you by:
ikonta_521
Originally created by: BlackCat...@yandex.ru
В электронных библиотеках для удобства отработки дублей было бы весьма полезно иметь в fb2 какую-никакую информацию об исходном файле.
Считаю разумным балансом между необходимостью и достаточностью писать в тэге <history> информацию об исходном файле:
1. Имя.
2. И стандартный манифест (размер в байтах, контрольные суммы md5 и sha256).
3. Возможно туда же имеет смысл дописывать дату создания и последней модификации исходного файла).
Верно ли я понял: исходный файл - это тот, из которого делается fb2?
Да, речь не просто о «файле, из которого делается fb2», но об исходной версии скачанного из Сети файла (преимущественно текстового или в одном из форматов текстового процессора).
Информация об уже скорректированном (инструментами OOoFBTools) и правильно (т.е. в родном формате) сохранённом файле исходника с точки зрения этой задачи практически бесполезна.
26 августа 2014 г., 11:09 пользователь Starikov Sergey ikonta_521@users.sf.net написал:
А вот здесь - проблема: все экспортируемый файлы хранятся на жестком диске.
Оттуда же они и открываются в LO/OO. Программно "догадаться",откуда из Сети
(и из сети ли вообще) были они взяты, чтобы программно занести в историю
его данные - невозможно. Наверное. лучше это вручную делать самому
пользователю.
С другой стороны, на вкладке FB2 (Document info) диалога fb2 свойств есть
поле "Источник URLs", куда как раз и заносятся по стандарту fb2 данные от
источнике экспортируемого файла...
С уважением,
Вадим
Adm: При цитировании отделяй цитируемый текст пустой строкой. Иначе твой ответ интерпретируется как продолжение цитаты.
Last edit: Starikov Sergey 2014-08-26
Пытаться изображать телепатов и не нужно.
Достаточно кнопки по нажатию на которую информация о файле заносится в заголовок (пока обсуждаем вопрос что делать, не рассматривая вопрос как).
Да.
Но здесь рассматривается вопрос не откуда, а что взято.
Ибо с учётом фундаментального свойства Сети (простота и дешевизна копирования) один и тот же файл как правило можно добыть из нескольких источников.
Вследствие чего поле URL обычно полезно разве что для прокачивания ЧСВ.
26 августа 2014 г., 13:03 пользователь Starikov Sergey ikonta_521@users.sf.net написал:
Сделать несложно. Нужно тогда описание, ЧТО и КАК конкретно должно
заноситься в историю.
Какое практическое значение в истории fb2 файла могут иметь md5 и sha256
исходного файла? Имя исходника еще может пригодиться. Но зачем нужны
контрольные суммы (для простого пользователя, читающего fb2)?
26 августа 2014 г., 13:37 пользователь dikbsd dikbsd@users.sf.net написал:
Спорный момент... Многие fb2-книги делаются путем сканирования и
распознавания. Другие - путем скачивания из сети текстовых файлов и их
последующей конвертации. Первые исходники вряд ли кем-то еще будут
использованы, кроме самого fb2-делателя, который уже сделал fb2. При нужде
он же может и исправить fb2, занеся в историю, что он делал. Вторые
исходники - да, их могут использовать множество пользователей для создания
fb2.
Но , на мой субъективный взгляд, "отлов" дублей лучше все-таки библиотекам
производить не по данным об исходниках в истории fb2 файла (таких
исходников ОДНОЙ И ТОЙ ЖЕ книги может быть десятки - по своему опыту знаю),
а путем создания спец. скриптов на сайтах библиотек, которые будут при
добавлении пользователем книг искать дубли по Авторам, Названию книги,
издательству... Так было бы вернее.
Представим , что будет, если библиотеки будут искать дубли по данным об
исходниках в истории fb2 файла:
есть 5 одинаковых книг (например, Дюма, Три мушкитёра), но сделаны они из
разных истодников. В истории будут РАЗНЫЕ данные на исходники, и библиотеки
спокойно пропустят эти дубли.
Идея хорошая, отлавливать дубли, но, на мой субъективный взгляд, если в
самом fb2 должно быть что-то, помогающее поиску дублей, то нужно, наверное,
что-то другое.
Надо думать всем вместе в этом направлении, если оно надо...
Мне сделать не сложно, просто предложенный вариант навряд ли будет приемлем
библиотекам.
Last edit: Starikov Sergey 2014-08-26
Идеальным для отлова дублей было бы введение в fb2 УДК и ББК.
Тэгов таких стандартом не предусмотрено, но есть кастовные тэги, куда можно
было бы и заносить эти данные.
Сделать жестко прописакнные тэги:
<custom-info name="UDK">
и
<custom-info name="BBK">
И две кнопки на вкладке описания книги в диалоге fb2 свойств. По их нажатию
вводятся эти данные пользователем и заносятся в список кастомных свойст.
А библиотеки могли бы уже отлавливать копии по этим данным.
Плюс такого подхода: разные издания одной и той же книги имеют разные ББК,
что позволило бы иметь несколько вариантов книг от разных издательств.
Минус: Не все пользователи "обременяют" себя заполнение максимального
количества информации о книге.
Момент ни фига не спорный.
Для случая создания fb2 из самолично распознанного оно очевидно не нужно.
Но для скачанного из Сети может быть полезно.
Мой опыт вопиёт о том, что достаточно часто количество все распространяемые версии восходят к сугубо ограниченному числу первоисточников (часто единственному). И пример с Дюма я бы здесь не назвал удачным. Не хотите лучше посмотреть на «Венецианскую империю»?
Имени файла в силу простоты переименования и различий в договорённостях о формате имени мало.
А в библиотеках работают люди, и совсем не сверхчеловеки…
Обработка текста вообще алгоритмизируется… не очень (ручной работы остаётся более чем до фига).
27 августа 2014 г., 16:39 пользователь Starikov Sergey ikonta_521@users.sf.net написал:
Здесь будет все разно сложность с ИМЕНЕМ исходника - мало ли , как его на
жестком диске перед экспортом переименует пользователь?
Например
Венецианская империя.odt
или
Венецианская империя (2013).odt
Уникальность fb2 из-за этого просто теряется.
Хорошо, давайте я сделаю добавление данных об исходнике в fb2 описание. Но
лучше, на мой взгляд. все-таки его разместить не в историю, а в кастомные
тэги, например
<custom-info name="source_name">Венецианская империя.odt</custom-info>
<custom-info name="source_md5">57E78BF8A67CDF</custom-info>
В историю лучше эти данные не вносить по 3-м причинам:
1. Историю библиотам будет сложнее парсить для вычленения этих данных.
2. История служит прежде всего для отображения в ней разных изменений в
самом fb2 файле: правка опечаток, форматирование, вставка картинок и т.д.
3. Для добавления "сторонней" информации стандарт fb2 предусматривает
именно кастомные тэги.
Что вы думаете по этому поводу?
И еще. Мне надо будет тогда подробное описание где какую информацию брать
об исходнике (в случае автоматизации добавления данных). По контрольным
сумма все ясно. Здесь будет автоматизация по указанию пути к исходнику на
жестком диске. А в имени исходника что должно быть: имя книги. записанное в
тексте этого исходника, или имя файла этого исходника?
Какие данные нужны еще?
Здесь как раз все просто: пользователь вводит в описание книги как раз то
название книги, которое есть на ее обложке, или же - в распознанном тексте.
Здесь мудрить ничего не надо - что есть - то и ввел. Это уже, как минимум,
для книг одной и той же языковой группы, будет обеспечивать возможность
отлова копий (в комбинациях с ФИО авторов книги и ББК, БИК). То есть,
переименовывать имя книги внутри тэгов описания книги как ему вздумается
будет только тот пользователь, которому глубоко безразлично описание книги,
а таких среди книгоделов - единицы...
Да, обработка текста - извечная проблема. Но, все же - она должна быть возложена в любом случае именно на сетевые библиотеки - ведь, в конце концов, по ЛЮБОМУ признаку уникальности книги (будь то ваше предложение о контрольных суммах исходника, будь то мое - по имени, Авторам и/или ББК, БИК) отлов копий будут (если будут) делать именно сетевые библиотеки...
Last edit: Starikov Sergey 2014-08-28
Если говорить об отлове дублей - то да, момент не спорный. Это очень важно- отлов дублей.
А если говорить о механизме его реализации (что считать уникальным признаком) - то - спорный.
Главное - понять, КАК обеспечить уникальность книги в сетевой библиотеке (ID книги не обеспечивает этого, так как одну и туже книгу могут сделать
100 человек с разными ID)...
Давайте думать вместе...
Last edit: Starikov Sergey 2014-08-28
Этот нюанс, как и многие другие, работает только при соблюдении участниками некоторых договорённостей.
В данном случае — предложение умеет смысл только для скачанного, но не изменённого (ни переименованного, ни модифицированного) файла.
Я думаю, что начать можно с расширения информации об издании.
Латиницу вместе с cp1251 нафиг!
ББК и БИК в publish-info (как есть, т.е. кириллицей!)
С записью в custom-info.
После чего можно подступиться к тому, о чём я начинал.
Это практически недостижимо, только для малого круга людей...
Не совсем понял - о какой ЛАТИНИЦЕ идет речь?
windows-1251 выкидывать не стоит: все-таки есть масса текста, где НЕТ Юникодных символов, и на windows-1251 такие fb2 будут меньше "весить".
Эти данные пользователь сам по-идее будет вносить - если они кирилицей в тексте, то он внесет кирилицей.
Last edit: Starikov Sergey 2014-08-29