Парсинг и чистка текста

/Montana

Постоялец
Регистрация
27 Май 2008
Сообщения
119
Реакции
6
Посоветуйте решения для парсинга и чиски контента для доров. Желательно десктопное. Все что нашел в гугле парсит крайне мало и оочень грязно.
Нужно примерно 10-20 мб текста найденного по указанному кею, ну или на край с конкретно сайта. Чистка же нужна от урлов, слов типа child porn, дат и прочих строк подобно %%%%%%%%%%%12"""gvxm.
 
Попробуй чистить этим:
 

Вложения

  • TextCleaner.rar
    8,3 KB · Просмотры: 50
бери лучше content downloader и забудь навсегда с проблемой парсинга текста.

Сам много заморачивался с разными парсерами, в том числе и от вип бабло. Количество головняка уничтожает все возможные плюсы.
 
Вот неплохой парсер бесплатный. Единственная проблема-нет мануала одним файлом, надо смотреть по ссылке описание, читать комменты, пробовать.
 
content downloader. реально, лучше него не встречал, софт сказочен в своей работе, прост в настройке, только за пункт "находить статью автоматически" в верстке стоит ставить памятник разработчикам. В умелых руках за 10 минут делает 10 мб текстовки для доров.
 
Тоже за content downloader, но он не парсит по кею, как хотел ТС.
 
+1 за content downloader. По кею долго парсить придется, самый верный метод - это парсить крупные сайты по нужной тематике.
 
Для парсинга по кею в яндексе -Anadyr2, прост и бесплатен

Для забугорного - парсер Магдан

Чистка текста еще порекомендую - AfterScan Webmaster
незабудьте Shtirlitz- решает вопросы с кодировкой
 
Парсинг по кею это имеется ввиду вбил кей, например "недвижимость" и получил статьи на эту тему, а анадырь, магадан это парсеры кеев.

По теме - я за гигабайты книг :)
 
Назад
Сверху