Re: distributed tagging + Bayes' theorem = ?
От Ivan Shmakov (2:5020/400) к Alex Mizrahi
В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)
From: Ivan Shmakov <ivan@main.uusia.org>
>>>>> "AM" == Alex Mizrahi <udodenko@users.sourceforge.net> writes:
AM> Может так, хотя людям проще работать с удобоваримой информацией :)
IS> Так или иначе, каждый новый URI должен быть уникален. Пытаться
IS> сделать таковым имя пользователя в рамках обсуждаемой системы --
IS> весьма сомнительная идея.
AM> Вот тут описана схема как делать удобоваримые уникальные URI:
AM> http://www.ietf.org/rfc/rfc4151.txt
Занятно -- решить проблему с <<неуникальностью>> доменных имен
(адресов электронной почты) введением даты в поле authorityName.
Есть, однако, следующие проблемы:
∙ для участия в системе требуется, таким образом, доменное имя
или адрес электронной почты; проблема не велика, но стоит
заметить, что получение R/W-директории на Web-сервере еще не
предполагает получения таковых;
∙ пользователь может использовать свой уникальный authorityName
не только для участия в обсуждаемой системе -- в таком случае,
система должна быть об этом извещена и не должна пытаться
выдать URI, который может совпасть с генерируемым для других
целей;
∙ соображения privacy / anonymity.
Таким образом, использование этой схемы влечет еще и
необходимость в двух дополнительных настройках на стороне
пользовательского агента: доменное имя (адрес e-mail) и префикс
(суффикс, инфикс, -- что угодно) для specific.
При использовании uuid: URI, первая настройка остается
опциональной, вторая -- не нужной.
Так или иначе, напомню, что Atom работает на uuid: URI и, IIUC,
проблем у пользователей не вызывает.
IS> (Hе совсем понимаю, как достоверность включить в формулу Байеса,
IS> но подозреваю, что такой способ есть.)
AM> Hа самом деле формула Байеса не единственный и не лучший способ
AM> решать задачи классификации, фильтрации и т.д.
Разве это -- задача классификации? Классификацию, на мой
взгляд, проводят участники системы, формула Байеса используется
лишь для фильтрации тогда, когда задача классификации уже
считается решенной.
AM> Латентные сематические модели показывают лучшие результаты на
AM> практике. Они как раз в какой-то мере и используют достоверность,
AM> считая что попадающая нам в руки информация может быть неточна и
AM> неидеальна. Такие модели ищут в данных закономерности и пытаются
AM> найти свою собственную, оптимальную в каком-то плане -- например,
AM> ортогональную -- классификацию.
IIUC, речь идет о классификации без <<обучающей выборки>>?
AM> За одно они находят и отображение из/в эту модель, которое и решает
AM> задачу.
AM> Такие модели учитывают, к примеру, что некоторые тэги могут быть
AM> близкими по смыслу.
Я не против, но эта математика мне незнакома.
Формула Байеса, напротив, мне знакома и у меня есть некоторая
уверенность, что ее применение в рамках данной задачи принесет
некоторые результаты.
Собственно, проверить это предположение несложно взяв за основу
одну из существующих классификаций. E. g., debtags. Обучающая
выборка -- установленные пакеты из вывода dpkg-query(1).
--
FSF associate member #7257
--- ifmail v.2.15dev5.4
* Origin: Aioe.org NNTP Server (2:5020/400)
Ответы на это письмо:
From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку
From: Username
Или коротким