на главнуюВсе эхи RU.NETWORKS
войти ?

Посоветовать хэш

От Andrew Doroshev (2:5061/6.100) к Alex Aka Parasite

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello, Alex!

AAP>>> Рассматривались (как варианты с нулевой вероятностью ошибки)
AAP>>> попытки покладания в базу собственно контента как такового - но
AAP>>> размер базы получается совсем недетский, и поиск по ней -
AAP>>> соответственный. :(
AD>> есть возможность проверить на коллизию в момент её
AD>> возниктновения?
AAP> Есть (сверять хэш покладаемого нового файла на совпадение с уже
AAP> существуюшими в базе - а их весьма много), но это шибко замедлит всю
AAP> работу проекта, ибо придется ПОСТОЯHHО рыться в базе на предмет
AAP> предыдущих хэшей.

вычисление тройки разных хешей, каждого по 512 бит, замедлит работу тоже
неслабо. И, за счёт большого размера хеша, увеличит размер базы.
Вот при коллизии, да, потребуется больше работы, на проверку, реальный это
дубликат, или записи реально разные при совпадении хеша. Hо частота такой
обработки невелика, для 100М записей и 64-х битного хеша = 10e-12

AAP> Более того, это: а)не гарантирует таки отсутствия
AAP> коллизий - а будет обеспечивать их отлов и обработку по какому-то
AAP> другому алгоритму, что уже приводит к необходимости наличия минимум
AAP> ДВУХ обработок

да.
пара хэш+номерок - уникальна. и неразрешимая прежде коллизиия заменяется на, за
счёт более слозной обработки, гарантированное отсутствие коллизий для разных
файлов.

AD>> Или просто для уникальности рассматривать хеш+номер объекта в
AD>> базе.
AAP> Что мне даст знание, что номер 234234234 в базе совпадает по хэшу
AAP> ABCDE12345<итд> с номером 1010984398 в той же базе? Это знание пока не
AAP> отвечает на вопрос - коллизия это или файлы действительно идентичны.
AAP> :(

в момент обнаружения коллизии по хэшу - производится полный просмотр всех
имеющихся записей с этим хэшем. и новый номерок выдаётся только в случае
действительно различных записей. в случае совпадения - присваивается уже
существующий номер.

With best wishes, Andrew.

--- GoldEd 1.1.4.3 E-mail: ICQ:
* Origin: *** *** (2:5061/6.100)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=2:5061/6.100+4a9431e6