как распарсить сайт? нужен контент для доров

Статус
В этой теме нельзя размещать новые ответы.

tuo34

Постоялец
Регистрация
24 Апр 2008
Сообщения
59
Реакции
16
Хочется распарсить некоторые тематические сайты, выдрать весь текст, побольше, чтобы каждый раз тем же баттоном поисковики не парсить. Есть такие парсеры?
или как лучше поступить?
 
А на каком языке текст нужен? Если на английском, то есть Articles Grabber, вводишь кейворд и он по нему парсит текст. Если нужен русский текст, то кидаешь в переводчик то, что на парсил Articles Grabber, вот тебе и уник готовый.
 
Есть очень хороший и дорогой софт, называется


Может парсить сайты прямо в базы/xls файлы.
Но нужно разбираться и читать help.

Второй вариант - самому. Книга "Spidering Hacks" и perl тебе в помощь! :)
 
Как по мне, то лучше один раз написать парсер и потом только подстраивать его под нужные сайты. Ну или заказать парсер у программера. Только в ТЗ указать, чтоб можно было получить доступ к регулярным выражениям особо не копаясь в коде. Тогда для настройки парсера на новый сайт нужно будет только освоить регулярки. На своем опыте убедился, что выучить их не так уж сложно - зато будет универсальный в каком-то смысле инструмент, бери и парсь любой сайт.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху