на главнуюВсе эхи HOBBIT.LOCAL
войти ?

Отличия rss2pkt от аналогов

От Nil A (2:5015/46) к Vladimir Fyodorov

В ответ на Заголовок предыдущего сообщения в треде (Имя Автора)


Hello, Vladimir!

Monday November 08 2021 20:09, from Vladimir Fyodorov -> Nil A:

VF> А, понятно. В гремлиновском скрипте такого не было. Непривычно.

Я уже отсмотрел серию этих скриптов rss2mail, rss2mail.pl, .. они все разные, но чем-то похожи.
Сейчас я опишу отличия в моей версии.

Аналоги: Они все пытаются попарсить XML вручную, какими-то регулярками, а потом уже понять из этого формат RSS.
rss2pkt: Я взял библиотеку RSS/Atom, качество её кода мне нравится, основана на стандартном XML парсере и далее RSS/Atom парсинг тоже по спеками.

Аналоги: Ведут собственную дупобазу, например, считают хеш-функцию по всему сообщению или по заголовку и добавляют хеш в свой файл. При сканировании фида, считают хеш по всем статьям и сранивают с базой каждый раз.
rss2pt: Я беру за основу дату создания статьи, как она указана в фиде, сортирую статьи по этой дате (обычно они уже отсортированы), читаю из файла сохранённую дату последней обработанной статьи (просто дата в текстовом виде), и обрабатываю все статьи новее этой сохранённой даты.

Аналоги: MSGID сообщения будет то, которое поставит txt2pkt, дупы проверяются на стадии rss2mail.
rss2pkt: MSGID сообщения создаётся как crc32 по GUID (или аналогичному полю) статьи. Разные узлы, запускающие rss2pkt, будут создавать из одного и того же фида одинаковые MSGID, что в теории поможет отловить дупы на уровне тоссера.

Аналоги: Дата/время создания сообщения обычно равна текущему местному времени, когда отрабатывает rss2mail скрипт.
rss2pkt: Не изобретает велосипед, а "гейтует" rss статью, с сохранением оригинальных параметров, например, время создания статьи.

NA>> В RSS, наверное, время в UTC, надо будет подумать, может быть
NA>> перевести в местное.
VF> Было бы неплохо. Или ставить местное, или время запуска rss2pkt.

Сделаю параметром. По-дефолту, будет добавляться TZUTC клудж. Оператор rss2pkt сможет изменить, чтобы ставилось его местное время, ибо мало фидонет редакторов работают с TZUTC. Голдед? Вроде нет.

Best Regards, Nil
--- GoldED+/LNX 1.1.5
* Origin: Linux 2.6.32-042stab145.3 (2:5015/46)

Ответы на это письмо:

From: Username
Заголовок следующего сообщения в треде может быть длинным и его придется перенести на новую строку

From: Username
Или коротким

FGHI-url этого письма: area://HOBBIT.LOCAL?msgid=2:5015/46+618964b5