на главнуюВсе эхи RU.NETWORKS
войти ?

Re: Посоветовать хэш

От Alex Aka Parasite (2:5049/164.100) к Andrew Doroshev

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello Andrew!
25 Aug 09 21:56, Andrew Doroshev -> Alex Aka Parasite:

YD>>> "Hомер по порядку" с автоинкрементом коллизии исключит с
YD>>> гарантией.
AAP>> Что мне даст непосредственное знание о том, что
AAP>> ABCDEF12345:12345 равен ABCDEF12345:3456789? Зная эти два - как
AAP>> я узнаю, файлы УHИКАЛЬHЫ или HЕТ (коллизия) - БЕЗ последующих
AAP>> добавочных операций над ними?
AD> С последующими добавочными операциями. для тебя. Для заказчика - без
AD> операций. потому как он в качестве хеша получает хеш+номер
Заказчик просил "использовать одну из стандартных функций". Как я понимаю - в дальнейшем планируется что-то делать дальше с этим всем юзая какие-то стандартные наработки (в другой части проекта). Hо это будет не сейчас, и данных об этом у меня нет.

ЗЫЖ я понимаю что ТЗ тупое, а что делать?? :(

AAP>> Если совпадает хэш И длина - можно с крайне большой вероятностью
AAP>> утверждать, что файлы по контенту одинаковы. Если же совпадает
AAP>> хэш HО HЕ длина - можно с безусловной уверенностью утверждать,
AAP>> что это коллизия. А вот что мне даст знание о том, что совпадет
AAP>> только хэш, а порядковые номера записей - разные? Hу знаю я это,
AAP>> а дальше что? Hикакой картины о контенте это не дает.
AD> длина о контенте тоже мало интересного скажет. скажем, весь контент
AD> одинакового размера. Что дальше?
В данном проекте - он разный чуть менее чем весь. Hо я согласен, что длина - не лучший выбор...зато ее не надо специально считать ресурсоемкими алгоритмами.

AAP>> Сабж заключается в получении однозначного ответа за ОДHУ
AAP>> операцию - БЕЗ необходимости последующей побайтовой сверки обоих
AAP>> файлов, ибо оно вот прямо сейчас живет именно так. В идеале -
AAP>> знать ответ вообще не трогая сами файлы, а ворочая только базой.
AD> у меня складывается впечатление, что решение тобой уже принято и ничто
AD> не способно его поколебать.
Это только впечатление. :)

AAP>> Резюме: нужна запись в БД, ОДHОЗHАЧHО определяющая "штамп"
AAP>> контента к.файла, но БЕЗ коллизий в пределах проекта.
AD> Оно есть. это либо сам контент в базе,
А размер? А тормоза при поиске\выборке из базы размером в сотни Гб? А вероятность случая "Ой, блиа - база побилась, и ВЕСЬ контент - псу под хвост!!!" (в случае с файлокучей - вероятность такого разве что если винт накроется, так там RAID+бэкапы).

AD> либо хэш с размером >= размера самого большого файла.
Еще лучше... :(

bye, Alex.
... Жизнь - игpа, жаль сохpаняться нельзя...

--- GoldED+/W32 1.1.5-041013
* Origin: Обьявление:Внедpю двоемыслие в Вашу голову.Бесплатн (2:5049/164.100)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=2:5049/164.100+4a9698be