Uglik
Старатель
- Регистрация
- 8 Окт 2008
- Сообщения
- 350
- Реакции
- 14
- Автор темы
- #1
Нашел парсер для текста с
Вот собственно и сам скрипт
Источник
Парсит довольна шустро и быстро. Если кто нить доработает что бы парсил тематический текст и с разных источников, попрошу вылаживать в этой ветке. Просто в ручную текстовку собирать как то не очень.
Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать. А некоторые и книги сканят.
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
Вот собственно и сам скрипт
PHP:
<?
// Обновление 14.06.2009
// Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
header("Content-Type: text/html; charset=windows-1251");
$count = $_GET['count'];
$i=1;
$link = 'http://vesna.yandex.ru/estetica.xml'; // Откуда будем брать текст
echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";
while ($i<=$count){
$content = file_get_contents($link);
preg_match_all('#<div.*?>(.*?)</div>#is', $content, $text);
$text = preg_replace('#<h1.*?</h1>#', '', $text[1][4]);
$text = preg_replace('#<h2>.*?</h2>#', '', $text);
$text = preg_replace('#<p>#', '', $text);
$text = preg_replace('#</p>#', '', $text);
$text = preg_replace('#\n#', '', $text);
$f = fopen("text.txt","a+");
fwrite($f, $text);
fwrite($f, "\r \n");
fclose($f);
$i++;
}
echo 'Готово';
?>
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
Парсит довольна шустро и быстро. Если кто нить доработает что бы парсил тематический текст и с разных источников, попрошу вылаживать в этой ветке. Просто в ручную текстовку собирать как то не очень.
Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать. А некоторые и книги сканят.