Анализатор текста. Тестируем.

Статус
В этой теме нельзя размещать новые ответы.

Mendel

Гуру форума
Регистрация
27 Янв 2008
Сообщения
215
Реакции
65
Написал сервис анализа текста.
Выделение ключевых слов, определение тематики (спасибо garem за базу)
немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.
Дизайна пока нет :)
Для просмотра ссылки Войди или Зарегистрируйся
адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :)

Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.

Что вообще за цифры?
В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..

Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
Пример первый:
Любимый мой! Я хочу сказать тебе что я люблю тебя!
Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это?
Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.
Пример второй:
Дьяченко Максим Игоревич.
Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотре***ет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.
В первом примере 100% воды, во втором 0% воды :)
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...
 
Интересно. Ввел просто словосочетание (из двух слов), т.е. поисковый запрос ВЧ.
В "Список сайтов на которых есть этот текст" выдал почти выдачу яши, несколько сайтов заменил местами (что интересно один в этой выдаче один из моих сайтов на 5-м месте), а в анализе выдал на первом. Понятно, что задача сервиса совсем в другом, но интересно как он оценивал ))
 
Интересно. Ввел просто словосочетание (из двух слов), т.е. поисковый запрос ВЧ.
В "Список сайтов на которых есть этот текст" выдал почти выдачу яши, несколько сайтов заменил местами (что интересно один в этой выдаче один из моих сайтов на 5-м месте), а в анализе выдал на первом. Понятно, что задача сервиса совсем в другом, но интересно как он оценивал ))

два слова это садизм :)
он отбрасывает слова которые считает неважными (1-2 символа + словарь) и из того что осталось по определенному алгоритму вычисляет последовательности слов... потом эти последовательности по некоторой логике ранжируются, и из них формируется запрос к яндексу.. естественно эти последовательности берутся в кавычках... исходя из твоих слов я думаю ты получил выдачу по своему запросу в кавычках... попробуй интереса ради сравнить с кавычками...
 
Очень интересно... Дубли нашел. А с категориями 2 из 3 мимо. ((
Еще момент - технические и специализированные тексты анализировать пока нельзя, правильно?
 
Очень интересно... Дубли нашел. А с категориями 2 из 3 мимо. ((

категории действительно слабоваты.. потому я их и вывожу по три.. чтобы хоть одна попала :)
на самом деле надо будет почистить базу, но это по трудоемкости примерно 20 человекодней... много.

Еще момент - технические и специализированные тексты анализировать пока нельзя, правильно?
можно... если осторожно :)
но быть готовым к тому что результаты могут быть сильно неадекватными... у морфологии режим предсказания включен, так что теоретически проблем быть не должно, но качество анализа конечно пострадает...
 
Анализатор не работает:
Код:
Fatal error: Call to undefined function mybot2() in /home/zzzlabco/domains/8kb.ru/public_html/max/analiz.php on line 196
 
Анализатор не работает:
Код:
Fatal error: Call to undefined function mybot2() in /home/zzzlabco/domains/8kb.ru/public_html/max/analiz.php on line 196

:) успели в те 10 секунд....
я немного менял структуру кода, и когда вы зашли та библиотека в которой лежала эта функция еще не залилась... уже работает.
 
не знаю вроде работает... ввел словосочетании из трех слов вывел 3 категории все подходят очень хорошо.
 
Очень интересная штука. А как ее можно использовать, всмысле, для каких целей?
Потестил, вроде результаты адекватные...
 
Опробовал,достаточно быстро работает,категории тоже правильно определил,хотя текст интересный,не забудь написать новый адрес,как закончишь тестирование
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху