Парсер для текста.

Uglik · 22 Авг 2009

Нашел парсер для текста с

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Вот собственно и сам скрипт

PHP:

<?
// Обновление 14.06.2009
// Использование скрипта - запускаем его http://путь_к_файлу?count=количество_обращений_к_серваку
header("Content-Type: text/html; charset=windows-1251");

$count = $_GET['count'];
$i=1;
$link = 'http://vesna.yandex.ru/estetica.xml'; // Откуда будем брать текст

echo "Задано ".$count." обращений к серверу Яндекса. Поехали...";

while ($i<=$count){
$content = file_get_contents($link);
preg_match_all('#<div.*?>(.*?)</div>#is', $content, $text);
$text = preg_replace('#<h1.*?</h1>#', '', $text[1][4]);
$text = preg_replace('#<h2>.*?</h2>#', '', $text);
$text = preg_replace('#<p>#', '', $text);
$text = preg_replace('#</p>#', '', $text);
$text = preg_replace('#\n#', '', $text);
$f = fopen("text.txt","a+");
fwrite($f, $text);
fwrite($f, "\r \n");
fclose($f);
$i++;
}

echo 'Готово';
?>

Источник

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Парсит довольна шустро и быстро. Если кто нить доработает что бы парсил тематический текст и с разных источников, попрошу вылаживать в этой ветке. Просто в ручную текстовку собирать как то не очень.

Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать. А некоторые и книги сканят.

Drakowa007 · 25 Авг 2009

Uglik написал(а):
Что скажите по поваду такого варианта или все таки лучше заказать рерайт или самому писать.

Парсером оно удобней, но рерайтом эфективней

Uglik · 25 Авг 2009

Drakowa007 написал(а):
Парсером оно удобней, но рерайтом эфективней

На сколько эфективно? Если покупать рерайт, окупится ли все это? И сколько вообще стоит рерайт качественный рерайт, например текста на 2-3 мб

arch14 · 25 Авг 2009

$0.5-1 за 1к знаков без пробелов - это самые низкие цены. Нормальный рерайтер берет $1,5-2 за 1к знаков, хотя при большом заказе должно быть дешевле

Uglik · 25 Авг 2009

arch14 написал(а):
$0.5-1 за 1к знаков без пробелов - это самые низкие цены. Нормальный рерайтер берет $1,5-2 за 1к знаков, хотя при большом заказе должно быть дешевле

А где исходник рерайта брать...или копирайтер сам будет всю инфу находить ему только тематику дать и все. И тогда получается этот текст можно не синонимизировать и не чего сним не делать, и даже в доргене марково отключить и в чистом виде подавать? Но есть лы смысол во всем этом если доры и с таким той текстовкой что я напарсил норм лезут в индекс. Только живут не очень долго. На срок жизни повлияет рерат текста?

TAX[I] · 25 Авг 2009

На срок жизни повлияет рерат текста?

При хорошей структуре дора и при рерайте текста у мну доры живут по 7 месяцев (дальше просто не смотрел), но траф ~100 уников с них

Hilo · 25 Авг 2009

TAX[I] написал(а):
При хорошей структуре дора и при рерайте текста у мну доры живут по 7 месяцев (дальше просто не смотрел), но траф ~100 уников с них

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

SergeiSP · 25 Авг 2009

Для яндекса нужен уникальный качественный текст, но никаких гарантий, что дор будет долго жить. Вообще, мое такое мнение, для доров текст можно любой уникализированный брать. Для гугла хватает любого спарсенного текста прогнанного через огромную базу синонимайзера. На выходе слабо читаемый, но синтаксически верный текст и уникальность очень высокая. Такой расклад лучше цепей Маркова получается. В гугле дор жить может сколько угодно, мои доры в гугле уже больше года висят и ничего, траф, конечно с них сейчас совсем никакой, оно и понятно, выдачу уже профукали, но в индекси висят, можно на биржу ссылки с них продавать, тем паче, что там каждый дор с пр.Покупать текст для доров - не очень вразумительное вложение, дор он на то и дор, не сателит же.

starche · 25 Авг 2009

А если текст для дайтинг кеев парсить? или все же лучше РБ?

TAX[I] · 26 Авг 2009

В чём заключается в твоём понимании структура дора.
Какая она?

Представте, что клепаете ГС, а не доры... Тоесть больше внимания уделите шаблону, синонимизируйте текст, ставте теги h1, h2, h3... и тд, чем меньше процент кеев в тексте - тем дольше дор продержиться... Ну а дальше сами придумывайте, тут много чего можно сделать

Парсер для текста.

Uglik

Старатель

Drakowa007

Создатель

Uglik

Старатель

arch14

Постоялец

Uglik

Старатель

TAX[I]

Знаток

Hilo

Хранитель порядка

SergeiSP

Постоялец

starche

Профессор

TAX[I]

Знаток