Порекомендуйте набор для парсинга на PHP 2017

Очень полезный материал для вашего уровня будет вот здесь Для просмотра ссылки Войди или Зарегистрируйся
Поможет понять что и как работает.
 
лично юзал simple_html_dom, для чего подходил datacol 2,3 (не php, десктоп винда) с самописными скриптами обработки данных после парсинга(там есть редактор на c#,кажется) + в итоге написал пару простых либ с регулярками и загрузкой страниц curl. Лучше отталкиваться от конкретной задачи. напрмиер, на некоторых сайтах пришлось proxy прикрутить и рекапчу.. где-то контент генерился по ходу дела. все сразу не предусмотришь
 
лично юзал simple_html_dom, для чего подходил datacol 2,3 (не php, десктоп винда) с самописными скриптами обработки данных после парсинга(там есть редактор на c#,кажется) + в итоге написал пару простых либ с регулярками и загрузкой страниц curl. Лучше отталкиваться от конкретной задачи. напрмиер, на некоторых сайтах пришлось proxy прикрутить и рекапчу.. где-то контент генерился по ходу дела. все сразу не предусмотришь
Ну датакал + simpla + с шарп - это не совсем то что хотелось бы лепить, хотя мне нравится ваш извращенный подход к теме :))))))))))))))
Я все таки node.js выбрала, это вроде самое адекватное с моим входным набором данных было.
 
Ну датакал + simpla + с шарп - это не совсем то что хотелось бы лепить, хотя мне нравится ваш извращенный подход к теме :))))))))))))))
Я все таки node.js выбрала, это вроде самое адекватное с моим входным набором данных было.
Ну, да, в зависимости от проекта и задачи приходится выбирать разные инструменты, чтобы не стрелять из пушки по воробьям. на ноде какое-то готовое решение? парсинг по расписанию или "когда надо"?
 
Ну, да, в зависимости от проекта и задачи приходится выбирать разные инструменты, чтобы не стрелять из пушки по воробьям. на ноде какое-то готовое решение? парсинг по расписанию или "когда надо"?
Не ну просто ты предложил гремучую смесь, вот я и отписалась.
Любое решение предполагает планировщик, даже самое примитивное, так как планировщики есть в любой операционке.
 
Вместо plain CURL используйте лучше guzzle. Я понимаю, что умение использовать CURL полезно, но зачем мучаться с ним, когда есть такой замечательный интерфейс/слой как guzzle
 
Самое просто на python с использованием selenium
 
Парсить, через PHP неудобно, лучше использовать асинхронный подход Для просмотра ссылки Войди или Зарегистрируйся
Потратьте время на изучение nodejs он лучше годится для этих целей, модуль для парсинга используйте "Для просмотра ссылки Войди или Зарегистрируйся".

Вместо plain CURL используйте лучше guzzle. Я понимаю, что умение использовать CURL полезно, но зачем мучаться с ним, когда есть такой замечательный интерфейс/слой как guzzle
Вы смотрели под капот guzzle ? Он работает, через curl) просто guzzle удобный интерфейс с тонкими настройками. Если парсить то лучше на нем, в нем есть многопоточность, и асинхронность. Но я все же рекомендовал бы использовать nodejs.
 
Последнее редактирование модератором:
Назад
Сверху