Duplicate files optimization

  • Chelovek K.

    Chelovek K. - 2011-12-22

    Got a problem, need solution.
    I have some duplicate files (need for normal work) with size more than dic size i can use in archive, so these files are not recognized as copies and will be compressed independent on each other. Due to this I get not optimal, much more larger archive, it chouldn't be.
    Please, add a (may be switchable) feature for checking duplicates  before compressing (e.g. by md5 and then by content for sure). This will make such archives more optimized and smaller.

    Имеется проблема, нужно решение.
    У меня есть дубликаты файлов (по работе так надо) с размером, который больше словаря, который я могу дать на архив. В результате, в этих файлах не улавливается их совпадение и они жмутся просто независимо друг от друга. Из-за этого получается неоптимальный архив, намного больший, чем следовало бы.
    Пожалуйста, добавьте (возможно, переключаемую по выбору) функцию поиска дубликатов перед сжатием (напр., через md5 с последующим сранением по содержимому у совпавших для надёжности). Это поможет сделать подобные архивы намного оптимальнее и меньше.

  • Igor Pavlov

    Igor Pavlov - 2011-12-23

    I don't plan that feature for 7z format.
    Maybe you can use WIM archive (wuthout compression) inside 7z archive. WIM format supports that feature.

  • Chelovek K.

    Chelovek K. - 2011-12-23

    why not?

  • krawhitham

    krawhitham - 2013-05-12

    It would be a nice feature, or have a switch where files would compress in the order listed in an included @filelist. I have an archive of 740 files (22GB) with a little more than half of them being duplicates. Using 7zip it "compresses" down to 15GB using the solid option, but an optimized ISO or a WIM file makes that archive 10.5GB. When I move the file to different workstations I have to unpack 7zip and then unpack from an ISO instead up just unpacking it from 7zip and being done


Get latest updates about Open Source Projects, Conferences and News.

Sign up for the SourceForge newsletter:

No, thanks