Кто чем киворды парсит

Статус
В этой теме нельзя размещать новые ответы.
Собираю кеи прогой IBP-and-ARELIS ,если поискатьесть ломанная,парсит около 10 сервисов типа вордтрекера,можно напарсить 1-2к кеев,вообщем удобно.
 
Собираю кеи прогой IBP-and-ARELIS ,если поискатьесть ломанная,парсит около 10 сервисов типа вордтрекера,можно напарсить 1-2к кеев,вообщем удобно.
Можешь выложить тут ее?
Если есть еще парсеры с вордтрекера, выложите плиз.
 
програмка интересная. демку можно на сайте взять а вот лекарством бы поделился кто ;)
 

вот

Добавлено через 22 минуты
люди поделитесь парсером мета поисковиков :thenks:
кто не знает суть в следующем надо написать скриптик который по этим адресам несколько запросов в секунду будет делать и чистить от мусора.
кто напишет надеюсь поделится :ah:
 
PHP:
<?php
set_time_limit(60); // ставим лимит на 60 секунд
ignore_user_abort(); // скрипт продолжит выполняться после закрытия окна

require ("cfg.php");

for($a=0; $a<10; $a++) 
{
	

	$host='http://www.dogpile.com/info.dogpl/searchspy/inc/data.xml';
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $host);
    curl_setopt($ch, CURLOPT_POST, 0);
    curl_setopt($ch, CURLOPT_COOKIE, 0);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_REFERER, $host);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)");
    curl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_0);
    $r = curl_exec($ch);
    curl_close($ch);
 
//echo("$r");
$expr = explode("<query>", $r);

	for($i=1; $i<sizeof($expr); $i++) 
	{
	$strpos = strpos($expr[$i],"</query>");
	$result[] = substr($expr[$i],0,$strpos);
	//echo("$result[$i]<br>");
	}

sleep(1);
}


function CLEAN_KEYW_ARRAY($keyword) //Проверка  массива кейвордов на глюки и грязь
{     
	$keyword = strtolower($keyword);	
	$keyword = str_replace("+", " ", $keyword);
	$keyword = str_replace("&", " ", $keyword);
	//quot;
	
	if(stristr($keyword,":")) { $keyword = ""; }
	if(stristr($keyword,"www")) { $keyword = ""; }
	if(stristr($keyword,".")) { $keyword = ""; }
	if(stristr($keyword,"=")) { $keyword = ""; }
	if(stristr($keyword,";")) { $keyword = ""; }
	if(strlen($keyword) > 50 ) { $keyword = ""; }	
	$keyword = preg_replace("/[^0-9a-zA-Z-_ ]/", "", "$keyword");



return $keyword;	
}




@$dblink=mysql_connect($dbhost,$dbuser,$dbpass);
@mysql_select_db($dbname, $dblink);
 for($a=0; $a<sizeof($result); $a++) 	
 {	
	$keyword = trim($result[$a]);
	$keyword = CLEAN_KEYW_ARRAY($keyword);
	if($keyword != "") 
	{
	$rest = substr("$keyword", -5);  
	if(ctype_digit($rest))
		{
		
		for ($i = strlen($keyword); $i > 0; $i--)
			{
			$keyword = trim($keyword);

				if(strcspn($keyword{$i},$valid_chars)!=strlen($str))
				{
				$keyword = substr($keyword, 0, $i+1);
				break;
				}
			}
		}
	$z = mysql_query("insert IGNORE into $Keyw_base (keyword) values('$keyword')");
	echo ("$keyword<br>");
	flush();
	}
}
mysql_close($dblink);





?>

В cfg.php прописываем подключение к базе. Указиваем названия $Keyw_base. Вешаем мне спасибки и учим PHP ;)

З.Ы Предвариетльно нужно еще базу создать. Желательно с keyword unique . Кто этого неумеет делать, тому незачем кейворды парсить ....
 
Если точность слов не критична, можно использовать базу поисковых запросов AOL, которая была сделана в 2006 году.
Я скачал (можно найти в поисковиках по запросу), там в архиве около 500 мб, разархивированном виде - больше 2 гигов статистики запросов реальных пользователей. Короче, дешевая альтернатива базам Пастухова.
Нашел я эту базу и скачал. Там 10 файлов в архиве gz Каждый такой архив 43 метра с копейками. Если разархивировать то получим текстовый файл на 212 метров. Блокнот, ес-но, такой файл не откроет. Я его как-то открыл и посмотрел что там. Мне не понравилось. Во-первых там не одни ключевые а есть еще и посторонние записи по юзерам. Во-вторых по-моему нет частоты запросов. ИМХО не стоит тратить траф.
 
хз че вы паритесь, я тупо дми паршу
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху