Как достать ключевики из текста?

Статус
В этой теме нельзя размещать новые ответы.

roddik

Колбаска
Регистрация
26 Янв 2007
Сообщения
346
Реакции
292
ПРивет! Есть такая хрень Для просмотра ссылки Войди или Зарегистрируйся
В нее можно ввести текст и получить присутствующие в нем ключевики. Есть ли какой-то алгоритм, чтобы выдавал схожие результаты?
 
Не совсем ясно в чем именно проблема, я вижу ряд потенциальных проблем:
1) на странице капча, причем помоему автоматической распознавалки для нее нет.
2) Запрос делается с помощью AJAX, соответственно, нужно эмулировать запрос аналогично
3) Возможно серверная часть к AJAX смотрит на реферер или какие то специфические поля. Чтобы уточнить нужно для FireFox поставить плагин Live http Headers и запрашивать серверную часть полностью, досконально скопировав запрос.

p.s. Тема интересная, предлагаю тебе выложить скрипт с которым возникли проблемы, мы коллективно доработаем его и будем иметь очередную SEO тулзу.
 
Я думаю такая парсилка рано или поздно будет все равно написана в связи с трагической гибелью овертюры
 
Помоему человек просто спрашивал есть ли что-то подобное с подобным алгоритмом. А не как выковырять результат с гугла =)
 
+1, если бы была парсилка, то овертюре пришел бы конец.
а проблемма как раз таки в капче.
если вы напишете распознователь к ней - у вас есть все предпосылки к тому чтобы стать если не миллионером - то достаточно богатым человеком.
 
+1, если бы была парсилка, то овертюре пришел бы конец.
а проблемма как раз таки в капче.
если вы напишете распознователь к ней - у вас есть все предпосылки к тому чтобы стать если не миллионером - то достаточно богатым человеком.

Каптчи разные бывают и к некоторым типам уже есть распознаватель (тот же Хрумер, например)
 
Каптчи разные бывают и к некоторым типам уже есть распознаватель (тот же Хрумер, например)
Там как раз такая капча как и в гугле, ботмастер сейчас работает над её распознаванием но пока вродебы безрезультатно
 
Они там грамотно все сделали. Капча, хрен пакет перехватишь (из-за https), и т.п. Кто-нить там долго ковырялся? Через сколько запросов капча выводится?
 
Как я понял ТС ищет алгоритм... Берешь текст фильтруешь html и стоп слова, затем получившейся текст разбиваешь на слова. Я правда незнаю как правильно реализовать сортировку используя словоформы - это уже другой вопрос. Готовые классы для работы с ключевиками видел на в разделе SEO.
 
Для 1-го словных ключей:
PHP:
$string = strtolower($content);
			$string = strip_tags($string);
			$string	= str_replace('.', 	'', 	$string);
			$string	= str_replace('>', 	'', 	$string);
			$string	= str_replace('!', 	'', 	$string);
			$string	= str_replace('?', 	'', 	$string);
			$string	= str_replace(',', 	'', 	$string);
			$string	= str_replace(':', 	'', 	$string);
			$string	= str_replace(';', 	'', 	$string);
			$string	= str_replace('-', 	'', 	$string);
			$string	= str_replace('"', 	'', 	$string);
			$string	= str_replace('(', 	'', 	$string);
			$string	= str_replace(')', 	'', 	$string);
			$string	= str_replace('@', 	'', 	$string);
			$string	= str_replace('\'',	'', 	$string);
			$string	= str_replace('\\',	'', 	$string);
			$string	= str_replace('\/',	'', 	$string);
			$string	= str_replace('%',	'', 	$string);
			$string	= str_replace('`',	'', 	$string);
			$string	= str_replace('~',	'', 	$string);
			$string	= str_replace('+',	'', 	$string);
			$string	= str_replace('=',	'', 	$string);
			$string	= str_replace('_',	'', 	$string);
			$string	= str_replace('1',	'', 	$string);
			$string	= str_replace('2',	'', 	$string);
			$string	= str_replace('3',	'', 	$string);
			$string	= str_replace('4',	'', 	$string);
			$string	= str_replace('5',	'', 	$string);
			$string	= str_replace('6',	'', 	$string);
			$string	= str_replace('7',	'', 	$string);
			$string	= str_replace('8',	'', 	$string);
			$string	= str_replace('9',	'', 	$string);
			$string	= str_replace('0',	'', 	$string);
			$string	= str_replace('\n',	'', 	$string);
			$string	= str_replace('\t',	'', 	$string);
			$string	= str_replace('\b',	'', 	$string);
			$string	= str_replace('\0',	'', 	$string);
			$string	= str_replace('\x0B',	'', $string);
			$string	= str_replace('  ', ' ', 	$string);
			$keywords	= explode(' ', &$string);
			foreach ($keywords as $key=>$word)
			{	if (strlen($word) > 2) // простейший фильтр стоп слов
				{	$words[]=$word;
				}
			}
Попросите Dogmat - он дорабатывал данный алгоритм (вернее - переписывал на регулярку :D ) генерации meta-keywords, ибо это кривой вариант. Но, для того чтобы понять, как ключи вытаскиваются - понятно. :)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху