tulvit
Создатель
- Регистрация
- 26 Янв 2010
- Сообщения
- 30
- Реакции
- 6
- Автор темы
- #1
Требуется парсить серп Яндекса и Гугла, а также чекать количество страниц в индексе, нахождения страницы в кэше. Задача состоит в том, чтобы капча вылезала максимально редко, а в идеале вообще не появлялась.
Есть ли разница, парсить файловыми функциями(file_get_contents()) или надо эмулировать браузер и юзать сокеты/CURL? Если разница большая и эмулировать браузер надо, то фальсифицировать достаточно только USER_AGENT или еще что-нибудь, реферер тот же?
С какой частотой лучше делать запросы? Если делать паузу, то какой продолжительности, и надо ли делать ее рандомной, например в промежутке 2-4 секунды? Или же более продуктивно делать запросов n без задержки, потом пауза в несколько секунд, потом снова несколько запросов.
Очень не хочется искать самому оптимальный вариант, тем более задача более чем тривиальна. Надеюсь, кто-нибудь поделится практическим опытом. Заранее спасибо.
Есть ли разница, парсить файловыми функциями(file_get_contents()) или надо эмулировать браузер и юзать сокеты/CURL? Если разница большая и эмулировать браузер надо, то фальсифицировать достаточно только USER_AGENT или еще что-нибудь, реферер тот же?
С какой частотой лучше делать запросы? Если делать паузу, то какой продолжительности, и надо ли делать ее рандомной, например в промежутке 2-4 секунды? Или же более продуктивно делать запросов n без задержки, потом пауза в несколько секунд, потом снова несколько запросов.
Очень не хочется искать самому оптимальный вариант, тем более задача более чем тривиальна. Надеюсь, кто-нибудь поделится практическим опытом. Заранее спасибо.