Mendel
Гуру форума
- Регистрация
- 27 Янв 2008
- Сообщения
- 215
- Реакции
- 65
- Автор темы
- #1
Написал сервис анализа текста.
Выделение ключевых слов, определение тематики (спасибо garem за базу)
немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.
Дизайна пока нет
Для просмотра ссылки Войдиили Зарегистрируйся
адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес
Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.
Что вообще за цифры?
В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..
Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
Пример первый:
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...
Выделение ключевых слов, определение тематики (спасибо garem за базу)
немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.
Дизайна пока нет
Для просмотра ссылки Войди
адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес
Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.
Что вообще за цифры?
В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..
Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
Пример первый:
Пример второй:Любимый мой! Я хочу сказать тебе что я люблю тебя!
Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это?
Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.
В первом примере 100% воды, во втором 0% водыДьяченко Максим Игоревич.
Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотре***ет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...