на главнуюВсе эхи RU.NETWORKS
войти ?

Re: Посоветовать хэш

От Eugene Grosbein (2:5006/1) к Alex Aka Parasite

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Reply-To: eugen@grosbein.pp.ru

21 авг 2009, пятница, в 21:58 KRAT, Alex Aka Parasite написал(а):

AAP>>> ручное восстановление наработок но уже без ошибок, с
AAP>>> перепроверками и за свой счет, включая неустойки и срыв сроков и
AAP>>> обязательств - вообще).
EG>> Ты всё ещё не понимаешь, для чего вообще существуют хеши.
AAP> Предлагаю не обсуждать меня - а просто обоснованно посоветовать алгоритм.
AAP> Если бы я понимал сабж в его тонкостях и деталях - этого треда в эхе
AAP> вообще не
AAP> было бы.

Это был намёк подучить теорию, если что. И не уподобляться тому чуваку,
который ляпнул: "я программист, мне мануалы читать некогда".

EG>> По значению хеш-функции определяется не один-единственный объект,
EG>> а их небольшая группа, в которой нужный ищется _перебором_.
EG>> По определению.
AAP> Группа - 100М бинарных файлов разной длины и состава.

Хеш-функция разбивает сто миллионов на _небольшие_ группы.
Hо не идентифицирует уникально, так не бывает.

AAP> Hужно идентифицировать
AAP> например дубликаты по контенту,

Сортировка и затем поиск дубликатов. Быстрее никак.

AAP> а потом распарсить параметры пути
AAP> (разного)+контента(одинакового), кои потом обработать и вывалить. Это
AAP> самый
AAP> простой репорт из более чем сотни более соседних.
AAP> Решение можешь дать - *без* наработки\применения хэша, либо "с
AAP> _перебором_ в
AAP> группе обьектов (цэ)"?

Hе надо впадать в крайности: сначала искать решения исключительно одним
хешем, потом требовать вообще без хешей. Хеш тебе даст разбиение
сотни миллионов на маленькие группы, каждую группу можно представить
упрядоченным списком или массивом. Уникальный ключ будет состоять
в значении хеша - оно используется для быстрого поиска группы,
и некоего индекса в группе - вот он уже используется для уникальной
идентификации. Конкретные индексы зависят от отношения порядка,
которое ты введешь внутри групп, это можно сделать по-разному,
имеет смысл учитывать характер содержимого.

Eugene
--
И кого не любишь, в лицо не знать, и смотреть на звезды и жить спокойно.
--- slrn/0.9.8.1 (FreeBSD)
* Origin: Svyaz Service JSC (2:5006/1@fidonet)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=www.svzserv.kemerovo.su+2686e278