на главнуюВсе эхи RU.NETWORKS
войти ?

Re: Re^2: Посоветовать хэш

От Ilya Anfimov (2:5020/400) к Alex Aka Parasite

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


From: Ilya Anfimov <ilan@astelecom.ru>

2009-08-23, Alex Aka Parasite <Alex.Aka.Parasite@p100.f164.n5049.z2.fidonet.org> пишет:
> Hello Eugene!
> 22 Aug 09 09:31, Eugene Grosbein -> Alex Aka Parasite:
>
> AAP>>>> перепроверками и за свой счет, включая неустойки и срыв сроков
> AAP>>>> и обязательств - вообще).
> EG>>> Ты всё ещё не понимаешь, для чего вообще существуют хеши.
> AAP>> Предлагаю не обсуждать меня - а просто обоснованно посоветовать
> AAP>> алгоритм. Если бы я понимал сабж в его тонкостях и деталях -
> AAP>> этого треда в эхе вообще не было бы.
> EG> Это был намёк подучить теорию, если что. И не уподобляться тому
> EG> чуваку, который ляпнул: "я программист, мне мануалы читать некогда".
> Так мне их действительно некогда читать, да и сам я - не программер. Я тот, кто
> выиграл тендер на проект - а программеры сидят и ждут отмашки, чтобы приступить
> к непосредственной реализации. Один из предложенных вариантов (и пока что самый
> реальный кандидат на реализацию) мною указан в предыдущем посте.
>
> EG>>> По значению хеш-функции определяется не один-единственный
> EG>>> объект, а их небольшая группа, в которой нужный ищется
> EG>>> _перебором_. По определению.
> AAP>> Группа - 100М бинарных файлов разной длины и состава.
> EG> Хеш-функция разбивает сто миллионов на _небольшие_ группы.
> EG> Hо не идентифицирует уникально, так не бывает.
> Значит меняем термин "хэш-функция" на термин "что-то, что обеспечит УHИКАЛЬHЫЙ
> штамп о контенте с наименьшими затратами и наибольшей эффективностью", и вопрос
> в силе. :)
>
> AAP>> Hужно идентифицировать
> AAP>> например дубликаты по контенту,
> EG> Сортировка и затем поиск дубликатов. Быстрее никак.
> Поиск дубликатов каким методом предлагается внедрять? Побайтовым сравнением
> каждого найденного с остальными найденными сотоварищами? А если их, например -
> миллион (кстати, вполне реальная ситуация) - обычных, действительно одинаковых,
> не коллизий - но их ВСЕ таки придется перебрать...?

Если твоя БД тебе стабильно выдаёт миллион одинаковых результатов --
то она говно. Поскольку они одинаковые, и более одного тебе нафиг не
нужно.

>
> bye, Alex.
> ... Я щас на пять сек отpублюсь на пять минут.

--- ifmail v.2.15dev5.4
* Origin: Demos online service (2:5020/400)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=<1187351714@krondor.astelecom.ru>+c8817e92