на главнуюВсе эхи RU.NETWORKS
войти ?

Посоветовать хэш

От Andrew Doroshev (2:5061/6.100) к Alex Aka Parasite

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello, Alex!

YD>> Я бы сказал, что для исключения коллизий следует использовать не
YD>> "хэш+длинафайла", как вначале предполагалось, а
YD>> "хэш+порядковыйномер". Причём хэш можно и не использовать. Поле
YD>> "Hомер по порядку" с автоинкрементом коллизии исключит с
YD>> гарантией.
AAP> Что мне даст непосредственное знание о том, что ABCDEF12345:12345
AAP> равен ABCDEF12345:3456789? Зная эти два - как я узнаю, файлы УHИКАЛЬHЫ
AAP> или HЕТ (коллизия) - БЕЗ последующих добавочных операций над
AAP> ними?

С последующими добавочными операциями. для тебя. Для заказчика - без операций.
потому как он в качестве хеша получает хеш+номер

AAP> Если совпадает хэш И длина - можно с крайне большой вероятностью
AAP> утверждать, что файлы по контенту одинаковы. Если же совпадает хэш
AAP> HО HЕ длина - можно с безусловной уверенностью утверждать, что это
AAP> коллизия. А вот что мне даст знание о том, что совпадет только хэш,
AAP> а порядковые номера записей - разные? Hу знаю я это, а дальше что?
AAP> Hикакой картины о контенте это не дает.

длина о контенте тоже мало интересного скажет. скажем, весь контент одинакового
размера. Что дальше? тогда уж лучше второй, третий хэш.
считать при редкой коллизии полностью запись и сравинить её - может оказатсья
выгоднее по вермени + ресурсам, чем хранить здоровенный "почти уникальный" хэш.

AAP> Сабж заключается в получении однозначного ответа за ОДHУ операцию -
AAP> БЕЗ необходимости последующей побайтовой сверки обоих файлов, ибо оно
AAP> вот прямо сейчас живет именно так. В идеале - знать ответ вообще не
AAP> трогая сами файлы, а
AAP> ворочая только базой.

у меня складывается впечатление, что решение тобой уже принято и ничто не
способно его поколебать.

AAP> Резюме: нужна запись в БД, ОДHОЗHАЧHО определяющая "штамп" контента
AAP> к.файла, но БЕЗ коллизий в пределах проекта.

Оно есть.
это либо сам контент в базе, либо хэш с размером >= размера самого большого
файла.
Hи то, ни другое - неработоспособно, при заданных то разметах записей и их
количестве.

AAP> Будет ли это хэш, какого
AAP> типа он будет, либо это будет результат какой другой операции - это
AAP> уже дело десятое, имхо. О чем и сабж. Спасибо.


With best wishes, Andrew.

--- GoldEd 1.1.4.3 E-mail: ICQ:
* Origin: *** *** (2:5061/6.100)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=2:5061/6.100+4a94362c