Порекомендуйте набор для парсинга на PHP 2017

Тема ну очень обширная.
Один только краулинг (обход сайта) можно много недель писать ;)

Поэтому тоже порекомендую готовые решения:
Для просмотра ссылки Войди или Зарегистрируйся

Для третьего пункта надо искать реализации поддерживающие selenium или PhantomJS, но это в сравнении с курлом работает в десятки раз медленнее.
 
Это вот этот софт под винду ?

Теперь вообще не понятно что изучать, если PHP можно связать только через софт на ПК.
Ну это единственное что есть под пых с эмуляцией. А ставить можно и на ВПС с виндой.
 
php и имитация работы юзера - однозначно php Human Emulator
Это вот этот софт под винду ?
Скрытое содержимое доступно для зарегистрированных пользователей!



Тема ну очень обширная.
Один только краулинг (обход сайта) можно много недель писать ;)

Поэтому тоже порекомендую готовые решения:
Для просмотра ссылки Войди или Зарегистрируйся

Для третьего пункта надо искать реализации поддерживающие selenium или PhantomJS, но это в сравнении с курлом работает в десятки раз медленнее.
Торопится некуда, главное мне сейчас понять, что изучить, чтобы научиться парсить с использованием кликов , имитацией событий и прочее.

Теперь вообще не понятно что изучать, если PHP можно связать только через софт на ПК.
<-------------- добавлено через 3045 сек. -------------->
Ну это единственное что есть под пых с эмуляцией. А ставить можно и на ВПС с виндой.
Спасибо за просвещение, может тогда есть смысл ПИТОНОМ заняться ? Может у питона есть решение чтобы имитировать работу юзера в браузере ? Питоновцем писать наверное по этому поводу ?
 
Последнее редактирование:
А вам шашечки или ехать?
Мне бы ехать, я просто хочу решение все в одном: и парсить и имитировать в одной среде, на базе знаний и бесплатных решениях, желательно на серверных технологиях, зеннопостером я умею пользоваться, мне бы решение на коде и своих собственных знанияю.
А так да сарказм поняла :) шашечки ....
 
PHP - не очень удачный выбор для парсинга. Вам нужны Python и JS.
1) Нужно будет научиться: собирать ссылки со всего сайта (DOM не DOM).
2) Собирать контент со страниц со скриптами (DOM не DOM).
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.
Для этого понадобится headless-браузер. Такой парсинг сильно медленнее, чем "классический", не нужно пытаться этим способом покрыть все задачи.

Для просмотра ссылки Войди или Зарегистрируйся
------------
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
На более низком уровне можно использовать:
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
------------
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся
 
Последнее редактирование:
PHP - не очень удачный выбор для парсинга. Вам нужны Python и JS.

Ну про JS я согласен, после того как гугл переписал его движок он стал очень шустрым, а вот Python сильно сдал, в академических целях ему замену предложить не смогу, а вот для парсинга PHP подойдёт куда лучше, есть куча библиотек для скрапинга написанных как на php так и как C-расширений для разбора DOM. При этом выбор неправильной либы в питоне будет чреват тормозами гораздо более жуткими чем в пыхе - Для просмотра ссылки Войди или Зарегистрируйся (в самом конце статьи)
 
Ну про JS я согласен, после того как гугл переписал его движок он стал очень шустрым, а вот Python сильно сдал, в академических целях ему замену предложить не смогу, а вот для парсинга PHP подойдёт куда лучше, есть куча библиотек для скрапинга написанных как на php так и как C-расширений для разбора DOM. При этом выбор неправильной либы в питоне будет чреват тормозами гораздо более жуткими чем в пыхе - Для просмотра ссылки Войди или Зарегистрируйся (в самом конце статьи)
Для нубов можете пояснить, что Вы имеете ввиду, когда пишете "Ну про JS я согласен", какой JS имеется ввиду, типа В PHP парсить с использованием JS ? Но Как в PHP JS имитировать, как то выполнить JS ? , ничего не понимаю уже.....
 
Для нубов можете пояснить, что Вы имеете ввиду, когда пишете "Ну про JS я согласен", какой JS имеется ввиду, типа В PHP парсить с использованием JS ? Но Как в PHP JS имитировать, как то выполнить JS ? , ничего не понимаю уже.....
Имеется ввиду плюнуть на пых и изучить js.
Есть такая приблуда как Node.JS и для неё тоже написано много скраперов и лоадеров + там получше с асинхронностью и параллельными процессами, что может хорошо ускорить парсинг.
А так же всегда можно написать приложение или скрипт для хрома, который сможет парсить и переходить по страницам.
С оглядкой на эти пункты JS подходит для парсинга лучше, чем PHP.

Но к примеру для меня будет гораздо продуктивнее зафигачить на PHP, потому как я его уже изучил достаточно глубоко и знаю, где подстелить соломки. А вот для новичков в программировании, скорость реализации как и шанс сделать фигню будет примерно одинаковы для разных языков и они вполне могут перепрыгнуть на JS.
 
На PHP в основном пишут простенькие парсеры через post/get запросы. Основная либа для обхода урлов, как вам и говорили, это CURL. Сам контент страницы можно распарсить через XPATH. Вот и ввесь набор, не ждите чудес)

На счет имитации кликов, клавиатуры и т.д, это нужно делать в браузере. Использовать или готовые решения типа Зеннопостер/BAS. Или фантомJS/селениум, если сможете их закодить под себя)
 
Пробуйте Selenium и Phantom.js(Horseman). Отличные инструменты для парсинга, можно вытянуть любую инфу. Советую разобраться в них, в сети много примеров, вы сможете) Имхо, это лучше Зеннопостера/Bas.
 
Назад
Сверху