Халявный парсер яндекс-каталога

Статус
В этой теме нельзя размещать новые ответы.

devaka

Писатель
Регистрация
10 Июн 2008
Сообщения
9
Реакции
1
Имеется фришный парсер ЯК, если кому нада, ссылка ниже. В парсере есть возможность поставить задержку между запросами к каталогу, задать определенную категорию и скачать результат в виде .txt файла.

 
Если такое дело, тогда уж так:



ТРЕБОВАНИЯ
PHP 4+
Библиотека cURL
Поддержка функций работы с файлами (fopen, fwrite)

УСТАНОВКА

Перепишите папку YacaParser на свой сервер в любое место, доступное из web. Папка files должна быть доступна для записи. Если вы записали на сайт site.ru, тогда запустите парсер, введя в строку браузера путь Для просмотра ссылки Войди или Зарегистрируйся

ИСПОЛЬЗОВАНИЕ

При использовании скрипта необходимо задать категорию, которую требуется спарсить. Поддерживается два формата категории:

1. Категория/Подкатегория
Например, для парсинга категории “Недвижимость”, необходимо ввести путь
Business/Realty

2. Полный путь
Например,
Для просмотра ссылки Войди или Зарегистрируйся

При переходе по страницам Яндекс Каталога используется задержка в 1 секунду (строка 48 файла class.Grabber.php). Этот параметр можно менять, задавая целое число секунд. Регулярные выражения для работы со структурой кода страниц каталога можно изменять в файле config.php.


А под парсинг блогов к примеру сможешь переписать ??
 
перед тем как попробовать, подскажите есть ли там возможность поиска по урлу? то есть такой запрос как у гуугли "inurl:"?
 
Способов несколько, но все слегка кривые:

1. Оператор url="" позволяет найти любые подстроки URL с начала адреса документа.
Плюсы: ищет любую подстроку, можно использовать wildcard.
Минусы: ищет только с начала URL.

2. Оператор domain="" позволяет найти все документы, в названии доменов которых между точками есть запрашиваемые подстроки (раньше его было видно в переколдовке поиска по сайту; теперь — только в хелпе).
Плюсы: ищет подстроки, можно использовать wildcard; ищет с любом куске имени (под)домена.
Минусы: ищет только с начала (под)доменных имен, не «ест» точку.
Замечательно то, что несколько имен можно сочетать и указывать их точный порядок.
Есть еще прекрасный мета-домен root, каковой всегда занимает последнюю «позицию» в доменном имени. Впрочем, нормальное доменное имя root не запрещено.

3. Операторы host="" и rhost="" работают аналогично URL, но ограничиваются доменным именем. Оператор rhost еще и переставляет порядок следования имен (под)доменов, что очень удобно, например, для поиска по фрихостам.
Плюсы: ищут подстроки, можно использовать wildcard; можно менять порядок доменных имен.
Минусы: ищет только с начала/конца домена.
 
Я скачал, установил на денвер. Вроде запускает индексный файл, ввожу категорию... Пауза.. В той же страницы предлагает сохранить текстовый файл с результатами. В текстовом файле та же страница, только в строчке URL та чать, что мне нужно было отпарсить.
 
Кстати, хочу добавить...

Данный скрипт по сути не дает нужного результата, так как он парсит PDA версию Яндекс каталога.

Зайдя в него можно увидеть, насколько отстала PDA версия от нормальной — там только малая часть инфы и даже структура нарушена(. Так что это тухлый номер. :confused:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху