на главнуюВсе эхи RU.NETWORKS
войти ?

Re^2: Посоветовать хэш

От Alex Aka Parasite (2:5049/164.100) к Alex Mizrahi

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello Alex!
23 Aug 09 20:26, Alex Mizrahi -> Alex Aka Parasite:

AAP>> Рассматривались (как варианты с нулевой вероятностью ошибки)
AAP>> попытки покладания в базу собственно контента как такового - но
AAP>> размер базы получается совсем недетский, и поиск по ней -
AAP>> соответственный. :(
AM> Гм, так задача в поиске больших объектов в базе?
Задача в однозначном и уникальном "отпечатке" контента в каждом конкретно взятом файле (БЕЗ коллизий). Отпечаток должен лежать в базе, файл - на своем месте. Файлы могут быть какого угодно размера, в БД - поле MEMO под отпечаток.

AM> запрос вернёт более одного результата, нужна вторая проверка -- для
AM> этого пересылается сам контент (файлы, мелкие, как ты говоришь, так
AM> что это не проблема), поднимаются с диска указанные базой данные
AM> (опять же не проблема), сравниваются.
Желательно обойтись ОДHОЙ проверкой - и, при наличии отпечатка в базе -юзать только его, не трогая контент (его в жтом случае может вообще уже не быть - главное, чтобы был уникальный снимок контента в базе).

AM> Есть более сложные ситуации, например, комьютер A даёт компьютеру Б
AM> хэш, и компьютер Б должен получить объект у компьютера В по этому
AM> хэшу, они тоже имеют простые и быстрые решения со 100% надёжностью.
Hет, это не мой вариант. :)

AM> Есть и нерешаемые задачи -- например, найти файл по его хэшу за один
AM> акт посылки, но я не представляю в какой реальной задачи такое может
AM> встретиться (ну, разве что от лени и тупизма).
Бгы.
ТЗ всего сабжа: есть файл А, есть множество на него похожих файлов Б. *ОДHОЗHАЧHО СКАЗАТЬ* - имеются ли среди множества файлов Б ПОЛHЫЕ ДУПЛИКАТЫ файла А, и если да - то выдать пути к ним в виде таблички. И сказать это БЕЗ коллизий и ошибок, и оперируя только "снимком" в базе.

Пути до ВСЕХ файлов уже есть в базе, очередь только за снимком контента. Поле MEMO для каждого файла можно забить чем угодно - хоть хэшем, хоть анекдотами про Ржевского - лигь бы оно однозначно идентифицировало контент. Пока что это место - пустое (см.сабж), и поиск дубликатов делается через обход дерева папок.

bye, Alex.
... Женщины могут все, только некотоpые стесняются.

--- GoldED+/W32 1.1.5-041013
* Origin: Обьявление:Внедpю двоемыслие в Вашу голову.Бесплатн (2:5049/164.100)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=2:5049/164.100+4a9424eb