на главнуюВсе эхи RU.NETWORKS
войти ?

Re^4: Посоветовать хэш

От Alex Aka Parasite (2:5049/164.100) к Yan Alexandrovsky

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello Yan!
28 Aug 09 22:39, Yan Alexandrovsky -> Alex Aka Parasite:

YA>>> 2. для гарантированного сравнения требуется, что бы твой "хеш"
YA>>> (запись в базе) была эквивалентна содержимому файла.
AAP>> Hе кажется ли тебе, что такое решение обладает огромной
AAP>> избыточностью?
YA> Кажется. Правильным вариантом является все-таки двух-ступенчатая
YA> проверка. Hо если хочется одноступенчатой - то из каждого файла обязан
YA> получится заведомо уникальный код. Hу или уникальный в пределах логики
YA> содержимого файлов
Совершенно верно.

YA> Hапример... если у нас там только русский текст и пробелы и знаки
YA> пунктуации нам пофиг, то мы можем сначала удалить все, кроме букв,
YA> перевести их в 1 регистр... возможно даже свести кол-во букв к
YA> круглому числу 32 и кодировать каждый символ текста 5 битами, а не 8.
Там бинарь. Причем в виде готовых архивов, то есть жать там уже по большому счету больше нечего.

YA> Если ты хочешь исключить вероятность коллизии, то тебе нужно
YA> использовать не хэширование, а сжатие. Возможно сжатие на основе
YA> понимания содержимого файла.
Оно там и есть.

YA> Кстати, положенный в базу контент, примененный к контенту 32битный хэш
YA> и построенный индекс по хэшу даст тебе возможно самый быстрый вариант
YA> для сравнения.
Рухнет база - рухнет ВСЁ......

bye, Alex.
... Обьявление: Внедpю двоемыслие в Вашу голову.

--- GoldED+/W32 1.1.5-041013
* Origin: Обьявление:Внедpю двоемыслие в Вашу голову.Бесплатн (2:5049/164.100)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=2:5049/164.100+4a9965e6