на главнуюВсе эхи RU.NETWORKS
войти ?

Re: distributed tagging + Bayes' theorem = ?

От Ivan Shmakov (2:5020/400) к Alex Mizrahi

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


From: Ivan Shmakov <ivan@main.uusia.org>

>>>>> "AM" == Alex Mizrahi <udodenko@users.sourceforge.net> writes:

AM> Может так, хотя людям проще работать с удобоваримой информацией :)

IS> Так или иначе, каждый новый URI должен быть уникален. Пытаться
IS> сделать таковым имя пользователя в рамках обсуждаемой системы --
IS> весьма сомнительная идея.

AM> Вот тут описана схема как делать удобоваримые уникальные URI:

AM> http://www.ietf.org/rfc/rfc4151.txt

Занятно -- решить проблему с <<неуникальностью>> доменных имен
(адресов электронной почты) введением даты в поле authorityName.

Есть, однако, следующие проблемы:

∙ для участия в системе требуется, таким образом, доменное имя
или адрес электронной почты; проблема не велика, но стоит
заметить, что получение R/W-директории на Web-сервере еще не
предполагает получения таковых;

∙ пользователь может использовать свой уникальный authorityName
не только для участия в обсуждаемой системе -- в таком случае,
система должна быть об этом извещена и не должна пытаться
выдать URI, который может совпасть с генерируемым для других
целей;

∙ соображения privacy / anonymity.

Таким образом, использование этой схемы влечет еще и
необходимость в двух дополнительных настройках на стороне
пользовательского агента: доменное имя (адрес e-mail) и префикс
(суффикс, инфикс, -- что угодно) для specific.

При использовании uuid: URI, первая настройка остается
опциональной, вторая -- не нужной.

Так или иначе, напомню, что Atom работает на uuid: URI и, IIUC,
проблем у пользователей не вызывает.

IS> (Hе совсем понимаю, как достоверность включить в формулу Байеса,
IS> но подозреваю, что такой способ есть.)

AM> Hа самом деле формула Байеса не единственный и не лучший способ
AM> решать задачи классификации, фильтрации и т.д.

Разве это -- задача классификации? Классификацию, на мой
взгляд, проводят участники системы, формула Байеса используется
лишь для фильтрации тогда, когда задача классификации уже
считается решенной.

AM> Латентные сематические модели показывают лучшие результаты на
AM> практике. Они как раз в какой-то мере и используют достоверность,
AM> считая что попадающая нам в руки информация может быть неточна и
AM> неидеальна. Такие модели ищут в данных закономерности и пытаются
AM> найти свою собственную, оптимальную в каком-то плане -- например,
AM> ортогональную -- классификацию.

IIUC, речь идет о классификации без <<обучающей выборки>>?

AM> За одно они находят и отображение из/в эту модель, которое и решает
AM> задачу.

AM> Такие модели учитывают, к примеру, что некоторые тэги могут быть
AM> близкими по смыслу.

Я не против, но эта математика мне незнакома.

Формула Байеса, напротив, мне знакома и у меня есть некоторая
уверенность, что ее применение в рамках данной задачи принесет
некоторые результаты.

Собственно, проверить это предположение несложно взяв за основу
одну из существующих классификаций. E. g., debtags. Обучающая
выборка -- установленные пакеты из вывода dpkg-query(1).

--
FSF associate member #7257
--- ifmail v.2.15dev5.4
* Origin: Aioe.org NNTP Server (2:5020/400)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://RU.NETWORKS?msgid=<1187408626@violet.siamics.net>+3dcd83d5