Простая серверная парсилка поисковиков

Статус
В этой теме нельзя размещать новые ответы.

tuo34

Постоялец
Регистрация
24 Апр 2008
Сообщения
59
Реакции
16
Нашел, не помню где, серверную парсилку, решил исправить в ней пару ошибок, добавить интерфейс, логирование.
Новичкам (как мне) для первых задач, думаю, сгодится. Делалось на скорую руку, так что если кто что прикрутит
интересное, выкладывайте ;)
Парсит гугл, яху, мсн, 10 серпов по сто, мсн парсить можно без задержки и прокси, не банит.
Ставим на денвер, либо что либо подобное, mysql не требуется. max_execution_time выставить в ноль.
 

Вложения

  • parser.rar
    5,4 KB · Просмотры: 100
а как без бана

не скромный вопрос, а как можно обойти бан гугла, га частые запросы ? или хотябы получить капчу, чтоб вручную вбить и скрипт продолжил - работать ? :nezn:
 
В каком формате ей надо скармливать файл запросов? Я положил его в директорию с парсилкой, указал имя (xyz.txt), пишет, "pattern is empty, fill pattern".
 
Такая же ошибка ,и неясно что такое Pattern File Name
 
в паттерн файл нэйм надо прописывать желаемое имя файла, создавать его не надо, она сама создаст,
а в поле паттерн, большое, надо построчно прописать свои запросы, проэскейпленные.
обойти бан гугла можно только используя прокси и в много потоков. этот скрипт можно доработать, но пока времени нет.
мсн не банит, так что его можно парсить сколько угодно
 
Это типа моя грабилка но кем-то дописана морда к ней :)
Вот новая версия без майскл и потоков, но с замешиванием доменов и удалением дублей.
Интерфейс натягивайте сами :)
Патерны уже можна писать в простом тексте.

я запускаю в консоли
php -f grap.php


P.S. Читайте config.php там все по русски ;)
Не пугайтесь - но временная запись грабленного тут убрана - это нужно для проверки на дубли и правильного чекинга форм. Так что результат ляжет на диск только после окончания ВСЕЙ работы. Так что думайте перед тем как пихать ему задания - планируйте время.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху