Follow Alternative v.1.0 – примочка для парсеров

Вы все еще парсите? Тогда мы идем к вам!

Заметил тут случайно, что валяется среди всех моих программок одно забытое чудное творение: Follow Alternative 1-ой версии. Писалась эта примочка ну ооочень давно, но рас уж внезапно объявилась, то решил чего добру пропадать – выношу в паблик, авось кому и пригодится.

Итак, что же это за примочка и для чего она нужна.

Многие из вас знают такую программу как Spamit-B, а в ней есть такая функцию Follow (да и не только в ней, а во всех нормальных парсерах). Так вот если нажать на Follow, то программа выдирает ссылки из текущего списка страниц и ищет на них благоприятные формы для добавления комментариев. Все бы ничего, но результативность такого подхода не ахти, а ресурсов при этом съедается ооочень много. Зачастую гораздо проще указать шаблоны, по которым на определенных типах гостевых и находятся эти самые формы.
Именно это и помогает сделать Follow Alternative.

Подробности работы:
выбираете файл с результатами напарсенного (формат файла должен быть вида: “URL”,“Query”)
выбираете файл с шаблонами для подстановок
выбираете файл для сохранения результатов

После того как вы нажмете на “Start”:
программа построчно считает каждую запись по значению в поле Query
определит все необходимые шаблоны
преобразует URL в соответствии с шаблоном и сохранит измененную запись в файл с результатами

Вместе с программой идут следующие файлы:
Queries.csv – файл соответствий признаков для парсинга и имен шаблонов
Rules.csv – файл шаблонов для обработки записей

С файлом Queries.csv все понятно, а вот про Rules.csv следует еще кое-что рассказать. Итак, в файле Rules.csv всего 5 колонок. Подробнее о том, что должно быть в каждой из них:
В 1-ой колонке пишется макрос для отрезания лишнего от URL. Возможны следующие значения: QUESTION – удаляет все после последнего знака вопроса, SLASH – удаляет все после последнего слеша, AnyText.php – удаляет все после последнего указанного текста;
Во 2-ой колонке пишется то, что необходимо подставить к URL после обрезания;
В 3-ей колонке пишется путь, по которому следует проверять результативность постинга;
В 4-ей пишется тип обрамления ссылки (AHREF — html, CLEAR – просто URL, PROFILE – ссылка в профиле, URL — BBCode);
В 5-ой колонке пишется имя шаблона.

Вот, в общем-то, и все! Добавлю лишь то, что полученный результат не помешает дополнительно проверить каким-нибудь форм чекером или 404 чекером.

Хотя этот процесс и вносит дополнительную рутину в процесс работы, но все же при этом он помогает вам собрать чистую и хорошую базу, в которую вы можете быстро запостить ваши комментарии в том формате, который пригоден для данного типа гостевых

Добавить комментарий