Content Downloader

А я вот если честно не совсем понимаю, что вы собрались делать парсером без интернета?
 
А я вот если честно не совсем понимаю, что вы собрались делать парсером без интернета?

Я например использовал: заливал копию сайта на денвер и парсил названия товаров и урлы, для перелинковки. Так быстрее и сразу в нужный формат.

P.S. Совсем забыл, что прямо сегодня буду делать: нужно спарсить сайт в кодировке которую программа не понимает. Выкачиваю сайт, все страницы textpipe перевожу в utf-8. Ложу его локально и вот его уже буду разбирать по частям.
 
А я вот если честно не совсем понимаю, что вы собрались делать парсером без интернета?
та до фига всего. программа способна по определенному критерию обработать ранее скачанные ею новости. свести их в единый дайджест, обрезав в нужном месте, и многое, многое другое. я бы с удовольствием делал бы это на своем рабочем месте, но на нем нет интернета. другая задача - парсить "закрытый" сетевой ресурс, работающий через специальный канал - когда он включается, интернета нет. это ограничение обходится конечно - надо запустить программу ДО запуска клиента - но неудобство чувствуется.
у меня кстати так уже было - я благополучно закачивал программой пакет новостей, потом через некоторое время садился делать дайджест, и.. ни фига. плохая погода, пропал интернет, и все. программа запускается, но не активна. верите - очень раздражает.
кажется, я привел достаточно примеров.
 
Можно ли (и как) СД спарсить контент со множества страниц, границы повторяющихся границ которого имеют переменное значение? В пределах одной страницы границы одинаковы.
Например, на одной странице имеем код:

Код:
<div class="cls1 csl2 csl3">Нужный контент<div>
..Не нужное..
<div class="cls1 csl2 csl3">Нужный контент<div>
..Не нужное..
<div class="cls1 csl2 csl3">Нужный контент<div>

на другой:

Код:
<div class="csl2 cls1 csl3">Нужный контент<div>
..Не нужное..
<div class="csl2 cls1 csl3">Нужный контент<div>
..Не нужное..
<div class="csl2 cls1 csl3">Нужный контент<div>
на третей:
Код:
<div class="csl3 csl2">Нужный контент<div>
..Не нужное..
<div class="csl3 csl2">Нужный контент<div>
..Не нужное..
<div class="csl3 csl2">Нужный контент<div>

Поддерживал бы СД регулярки - задача простейшая была бы, но как без них решить?
 
Кто использует v22.33 nulled, скажите он только у меня вылетает через минут 10 использования?
 
програма при запуске лезет
81.222.198.187
Content+Downloader+v22.33
 
Да прога ломится в нет, просмотрел запросы:
Сразу идёт запрос на новую версию, патом программа отправляет запрос на проверку лицензии, и получает ответ: длина 6 символов: "EF BB BF 42 41 44(16ричная система)".В браузере: (ироглиф)BAD.

Может кто скажет какой ответ возвращает программа в случаи успеха... тогда можно подделать ответ...
 
Назад
Сверху