Re: Посоветовать хэш
От Alex Mizrahi (2:5020/400) к Alex Aka Parasite
В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)
From: "Alex Mizrahi" <udodenko@users.sourceforge.net>
EG>> Сортировка и затем поиск дубликатов. Быстрее никак.
AAP> Поиск дубликатов каким методом предлагается внедрять? Побайтовым
AAP> сравнением каждого найденного с остальными найденными сотоварищами?
Как такое могло вообще в голову прийти... Если ты разбил файлы на группы
"подозрительные" на одинаковость (к примеру, теми же хэшами), внутри
каждой группы тебе нужно проверить файлы на одинаковость -- просто сравнивай
первый с каждым, получится одно сравнение на элемент, меньше уж никак.
Если окажуется все равны первому, значит они все одинаковые и равны между
собой.
Если найдутся неодинаковые, то имеет место коллизия -- теперь прийдётся
сравнивать не только с первым, а ещё несколькими разными элементами...
Если использовать сортировку, там вообще не надо думать ни о каких
коллизиях,
сравнивать просто соседние в отсортированном списке, одно сравнение на
элемент
для самой группировки. Плюс, для миллиона, примерно 20 сравнений на элемент
для самой сортировки, так что лучше всё-таки хэши.
--- ifmail v.2.15dev5.4
* Origin: Demos online service (2:5020/400)
Ответы на это письмо:
From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку
From: Username
Или коротким