Парсер текста с сайта.

MultiReader нормально парсит. Настраиваемый шаблон вырезки текста, есть фильтр по урлам.
В бесплатной версии только 1 поток закачки и только 1 проект возможен. Но проект можно после использования удалять и создавать новый или менять настройки использованного на новый источник :)
 
Присоединяюсь к первому посту

Добавлено через 2 минуты
А web-grabber бесплатый или к нему лекарство нужно?
 
  • Заблокирован
  • #23
Присоединяюсь к первому посту
Добавлено через 2 минуты
А web-grabber бесплатый или к нему лекарство нужно?
Уже выложили, постов набрать надо вот и будет вам вместо лекарства;)
 
Нужен парсер адалт-рассказов, желательно на РНР, может кто посоветует.
 
PHP:
<?
// Функция для извлечения значения из строки
function extract_value($source, $start, $end)
{
$pos=@strpos($source, $start)+strlen(stripslashes($start));
$pos2=@strpos($source, $end, $pos);
$len=$pos2-$pos;
$output=substr($source, $pos, $len);
return $output;
}

for($num=1000; $num<10000; $num++)
{
flush();

$ras=file_get_contents("http://www.stulchik.net/ras.shtml?ras".$num."_1");

$samskaz=extract_value($ras, "<p align=\"justify\">", "<hr");
$fs=fopen ("./texts/".$num.".txt", "w");
fwrite($fs, str_replace("&nbsp;", "", $samskaz));
fclose($fs);
sleep(5);
}

?>

Думаю, принцип понятен.
 
vovaNux, а с preg_match_all не побыстрей будет обрабатывать?
PHP:
preg_match_all( '|<p align=\"justify\">"(.*?)<hr|is', $text, $matches, PREG_PATTERN_ORDER );
 
Вполне вероятно, что быстрее :) Я этот скрипт писал пару лет назад - конечно с регуляркой выглядит грамотнее
 
Грабит любой сайт

Offline Explorer Enterprise.
Грабит любой сайт
 
Присоединяюсь нужен парсер эро-рассказов хотя бы с того же стульчика неважно пхп или win
 
Я только платную программу такую знаю. 27$ стоит. Но она умеет грабить практически с любого сайта. Да и еще при этом картинки заливает в отдельную папку, да и еще импорт в wordpress и в zebrum lite есть. Да и еще куча всего, разработчик всё время что-то новенькое дописывает.
 
Назад
Сверху