Menu

#38 История (идентификация исходного файла)

New
nobody
None
Medium
Defect
2014-08-22
2010-11-05
Anonymous
No

Originally created by: BlackCat...@yandex.ru

В электронных библиотеках для удобства отработки дублей было бы весьма полезно иметь в fb2 какую-никакую информацию об исходном файле.

Считаю разумным балансом между необходимостью и достаточностью писать в тэге <history> информацию об исходном файле:
1. Имя.
2. И стандартный манифест (размер в байтах, контрольные суммы md5 и sha256).
3. Возможно туда же имеет смысл дописывать дату создания и последней модификации исходного файла).

Discussion

  • dikbsd

    dikbsd - 2014-08-22

    Верно ли я понял: исходный файл - это тот, из которого делается fb2?

     
    • Starikov Sergey

      Starikov Sergey - 2014-08-26

      Да, речь не просто о «файле, из которого делается fb2», но об исходной версии скачанного из Сети файла (преимущественно текстового или в одном из форматов текстового процессора).
      Информация об уже скорректированном (инструментами OOoFBTools) и правильно (т.е. в родном формате) сохранённом файле исходника с точки зрения этой задачи практически бесполезна.

       
      • dikbsd

        dikbsd - 2014-08-26

        26 августа 2014 г., 11:09 пользователь Starikov Sergey ikonta_521@users.sf.net написал:

        Да, речь не просто о «файле, из которого делается fb2», но об исходной
        версии скачанного из Сети файла (преимущественно текстового или в одном из
        форматов текстового процессора).

        А вот здесь - проблема: все экспортируемый файлы хранятся на жестком диске.
        Оттуда же они и открываются в LO/OO. Программно "догадаться",откуда из Сети
        (и из сети ли вообще) были они взяты, чтобы программно занести в историю
        его данные - невозможно. Наверное. лучше это вручную делать самому
        пользователю.
        С другой стороны, на вкладке FB2 (Document info) диалога fb2 свойств есть
        поле "Источник URLs", куда как раз и заносятся по стандарту fb2 данные от
        источнике экспортируемого файла...

        С уважением,
        Вадим

        Adm: При цитировании отделяй цитируемый текст пустой строкой. Иначе твой ответ интерпретируется как продолжение цитаты.

         

        Last edit: Starikov Sergey 2014-08-26
        • Starikov Sergey

          Starikov Sergey - 2014-08-26

          Программно "догадаться",откуда из Сети
          (и из сети ли вообще) были они взяты, чтобы программно занести в историю
          его данные - невозможно. Наверное. лучше это вручную делать самому
          пользователю.

          Пытаться изображать телепатов и не нужно.
          Достаточно кнопки по нажатию на которую информация о файле заносится в заголовок (пока обсуждаем вопрос что делать, не рассматривая вопрос как).

          С другой стороны, на вкладке FB2 (Document info) диалога fb2 свойств есть поле "Источник URLs", куда как раз и заносятся по стандарту fb2 данные от источнике экспортируемого файла...

          Да.
          Но здесь рассматривается вопрос не откуда, а что взято.
          Ибо с учётом фундаментального свойства Сети (простота и дешевизна копирования) один и тот же файл как правило можно добыть из нескольких источников.
          Вследствие чего поле URL обычно полезно разве что для прокачивания ЧСВ.

           
          • dikbsd

            dikbsd - 2014-08-26

            26 августа 2014 г., 13:03 пользователь Starikov Sergey ikonta_521@users.sf.net написал:

            Программно "догадаться",откуда из Сети
            (и из сети ли вообще) были они взяты, чтобы программно занести в историю
            его данные - невозможно. Наверное. лучше это вручную делать самому
            пользователю.

            Пытаться изображать телепатов и не нужно.
            Достаточно кнопки по нажатию на которую информация о файле заносится в
            заголовок (пока обсуждаем вопрос что делать, не рассматривая вопрос
            как).

            Сделать несложно. Нужно тогда описание, ЧТО и КАК конкретно должно
            заноситься в историю.

            В электронных библиотеках для удобства отработки дублей было бы весьма
            полезно иметь в fb2 какую-никакую информацию об исходном файле.

            Считаю разумным балансом между необходимостью и достаточностью писать в
            тэге <history> информацию об исходном файле:
            1. Имя.
            2. И стандартный манифест (размер в байтах, контрольные суммы md5 и
            sha256).
            3. Возможно туда же имеет смысл дописывать дату создания и последней
            модификации исходного файла).

            Какое практическое значение в истории fb2 файла могут иметь md5 и sha256
            исходного файла? Имя исходника еще может пригодиться. Но зачем нужны
            контрольные суммы (для простого пользователя, читающего fb2)?

             
            • dikbsd

              dikbsd - 2014-08-26

              26 августа 2014 г., 13:37 пользователь dikbsd dikbsd@users.sf.net написал:

              26 августа 2014 г., 13:03 пользователь Starikov Sergey
              ikonta_521@users.sf.net написал:

              В электронных библиотеках для удобства отработки дублей было бы весьма
              полезно иметь в fb2 какую-никакую информацию об исходном файле.

              Спорный момент... Многие fb2-книги делаются путем сканирования и
              распознавания. Другие - путем скачивания из сети текстовых файлов и их
              последующей конвертации. Первые исходники вряд ли кем-то еще будут
              использованы, кроме самого fb2-делателя, который уже сделал fb2. При нужде
              он же может и исправить fb2, занеся в историю, что он делал. Вторые
              исходники - да, их могут использовать множество пользователей для создания
              fb2.
              Но , на мой субъективный взгляд, "отлов" дублей лучше все-таки библиотекам
              производить не по данным об исходниках в истории fb2 файла (таких
              исходников ОДНОЙ И ТОЙ ЖЕ книги может быть десятки - по своему опыту знаю),
              а путем создания спец. скриптов на сайтах библиотек, которые будут при
              добавлении пользователем книг искать дубли по Авторам, Названию книги,
              издательству... Так было бы вернее.
              Представим , что будет, если библиотеки будут искать дубли по данным об
              исходниках в истории fb2 файла:
              есть 5 одинаковых книг (например, Дюма, Три мушкитёра), но сделаны они из
              разных истодников. В истории будут РАЗНЫЕ данные на исходники, и библиотеки
              спокойно пропустят эти дубли.

              Идея хорошая, отлавливать дубли, но, на мой субъективный взгляд, если в
              самом fb2 должно быть что-то, помогающее поиску дублей, то нужно, наверное,
              что-то другое.
              Надо думать всем вместе в этом направлении, если оно надо...

              Мне сделать не сложно, просто предложенный вариант навряд ли будет приемлем
              библиотекам.

               

              Last edit: Starikov Sergey 2014-08-26
              • dikbsd

                dikbsd - 2014-08-26

                Идеальным для отлова дублей было бы введение в fb2 УДК и ББК.
                Тэгов таких стандартом не предусмотрено, но есть кастовные тэги, куда можно
                было бы и заносить эти данные.
                Сделать жестко прописакнные тэги:
                <custom-info name="UDK">
                и
                <custom-info name="BBK">

                И две кнопки на вкладке описания книги в диалоге fb2 свойств. По их нажатию
                вводятся эти данные пользователем и заносятся в список кастомных свойст.
                А библиотеки могли бы уже отлавливать копии по этим данным.
                Плюс такого подхода: разные издания одной и той же книги имеют разные ББК,
                что позволило бы иметь несколько вариантов книг от разных издательств.
                Минус: Не все пользователи "обременяют" себя заполнение максимального
                количества информации о книге.

                 
              • Starikov Sergey

                Starikov Sergey - 2014-08-27

                Момент ни фига не спорный.
                Для случая создания fb2 из самолично распознанного оно очевидно не нужно.
                Но для скачанного из Сети может быть полезно.
                Мой опыт вопиёт о том, что достаточно часто количество все распространяемые версии восходят к сугубо ограниченному числу первоисточников (часто единственному). И пример с Дюма я бы здесь не назвал удачным. Не хотите лучше посмотреть на «Венецианскую империю»?

                Имени файла в силу простоты переименования и различий в договорённостях о формате имени мало.
                А в библиотеках работают люди, и совсем не сверхчеловеки…
                Обработка текста вообще алгоритмизируется… не очень (ручной работы остаётся более чем до фига).

                 
                • dikbsd

                  dikbsd - 2014-08-28

                  27 августа 2014 г., 16:39 пользователь Starikov Sergey ikonta_521@users.sf.net написал:

                  Момент ни фига не спорный.
                  Для случая создания fb2 из самолично распознанного оно очевидно не
                  нужно.
                  Но для скачанного из Сети может быть полезно.
                  Мой опыт вопиёт о том, что достаточно часто количество все
                  распространяемые версии восходят к сугубо ограниченному числу
                  первоисточников (часто единственному). И пример с Дюма я бы здесь не назвал
                  удачным. Не хотите лучше посмотреть на «Венецианскую империю»?

                  Здесь будет все разно сложность с ИМЕНЕМ исходника - мало ли , как его на
                  жестком диске перед экспортом переименует пользователь?
                  Например
                  Венецианская империя.odt
                  или
                  Венецианская империя (2013).odt
                  Уникальность fb2 из-за этого просто теряется.

                  Хорошо, давайте я сделаю добавление данных об исходнике в fb2 описание. Но
                  лучше, на мой взгляд. все-таки его разместить не в историю, а в кастомные
                  тэги, например
                  <custom-info name="source_name">Венецианская империя.odt</custom-info>
                  <custom-info name="source_md5">57E78BF8A67CDF</custom-info>
                  В историю лучше эти данные не вносить по 3-м причинам:
                  1. Историю библиотам будет сложнее парсить для вычленения этих данных.
                  2. История служит прежде всего для отображения в ней разных изменений в
                  самом fb2 файле: правка опечаток, форматирование, вставка картинок и т.д.
                  3. Для добавления "сторонней" информации стандарт fb2 предусматривает
                  именно кастомные тэги.

                  Что вы думаете по этому поводу?

                  И еще. Мне надо будет тогда подробное описание где какую информацию брать
                  об исходнике (в случае автоматизации добавления данных). По контрольным
                  сумма все ясно. Здесь будет автоматизация по указанию пути к исходнику на
                  жестком диске. А в имени исходника что должно быть: имя книги. записанное в
                  тексте этого исходника, или имя файла этого исходника?
                  Какие данные нужны еще?

                  Имени файла в силу простоты переименования и различий в договорённостях о
                  формате имени мало.

                  Здесь как раз все просто: пользователь вводит в описание книги как раз то
                  название книги, которое есть на ее обложке, или же - в распознанном тексте.
                  Здесь мудрить ничего не надо - что есть - то и ввел. Это уже, как минимум,
                  для книг одной и той же языковой группы, будет обеспечивать возможность
                  отлова копий (в комбинациях с ФИО авторов книги и ББК, БИК). То есть,
                  переименовывать имя книги внутри тэгов описания книги как ему вздумается
                  будет только тот пользователь, которому глубоко безразлично описание книги,
                  а таких среди книгоделов - единицы...

                  А в библиотеках работают люди, и совсем не сверхчеловеки…
                  Обработка текста вообще алгоритмизируется… не очень (ручной работы
                  остаётся более чем до фига).

                  Да, обработка текста - извечная проблема. Но, все же - она должна быть возложена в любом случае именно на сетевые библиотеки - ведь, в конце концов, по ЛЮБОМУ признаку уникальности книги (будь то ваше предложение о контрольных суммах исходника, будь то мое - по имени, Авторам и/или ББК, БИК) отлов копий будут (если будут) делать именно сетевые библиотеки...

                   

                  Last edit: Starikov Sergey 2014-08-28
                  • dikbsd

                    dikbsd - 2014-08-28

                    27 августа 2014 г., 16:39 пользователь Starikov Sergey
                    ikonta_521@users.sf.net написал:

                    Момент ни фига не спорный.

                    Если говорить об отлове дублей - то да, момент не спорный. Это очень важно- отлов дублей.
                    А если говорить о механизме его реализации (что считать уникальным признаком) - то - спорный.
                    Главное - понять, КАК обеспечить уникальность книги в сетевой библиотеке (ID книги не обеспечивает этого, так как одну и туже книгу могут сделать
                    100 человек с разными ID)...

                    Давайте думать вместе...

                     

                    Last edit: Starikov Sergey 2014-08-28
                  • Starikov Sergey

                    Starikov Sergey - 2014-08-29

                    Здесь будет все разно сложность с ИМЕНЕМ исходника - мало ли , как его на жестком диске перед экспортом переименует пользователь?
                    Например Венецианская империя.odt или Венецианская империя (2013).odt
                    Уникальность fb2 из-за этого просто теряется.

                    Этот нюанс, как и многие другие, работает только при соблюдении участниками некоторых договорённостей.
                    В данном случае — предложение умеет смысл только для скачанного, но не изменённого (ни переименованного, ни модифицированного) файла.

                    Что вы думаете по этому поводу?

                    Я думаю, что начать можно с расширения информации об издании.
                    Латиницу вместе с cp1251 нафиг!
                    ББК и БИК в publish-info (как есть, т.е. кириллицей!)
                    С записью в custom-info.

                    После чего можно подступиться к тому, о чём я начинал.

                     
                    • dikbsd

                      dikbsd - 2014-08-29

                      Этот нюанс, как и многие другие, работает только при соблюдении
                      участниками некоторых договорённостей.

                      Это практически недостижимо, только для малого круга людей...

                      В данном случае — предложение умеет смысл только для скачанного, но не
                      изменённого
                      (ни переименованного, ни модифицированного) файла.

                      Что вы думаете по этому поводу?

                      Я думаю, что начать можно с расширения информации об издании.
                      Латиницу

                      Не совсем понял - о какой ЛАТИНИЦЕ идет речь?

                      вместе с cp1251 нафиг!

                      windows-1251 выкидывать не стоит: все-таки есть масса текста, где НЕТ Юникодных символов, и на windows-1251 такие fb2 будут меньше "весить".

                      ББК и БИК в publish-info (как есть, т.е. кириллицей!)

                      Эти данные пользователь сам по-идее будет вносить - если они кирилицей в тексте, то он внесет кирилицей.

                       

                      Last edit: Starikov Sergey 2014-08-29

Log in to post a comment.