virtualbrest
Полезный
- Регистрация
- 6 Май 2007
- Сообщения
- 210
- Реакции
- 18
- Автор темы
- #1
Подскажите плиз простое решение следующей задачи:
Есть текстовая фраза, из нее надо вытащить ключевые слова, но не слишком много, и не слишком короткие. В идеале, что бы чем длиннее фраза, тем более длинные слова вытаскивало.
К примеру:
Вытащить должно:
Как бы ничего сложного, но надо учесть что встречаются всякие разные символы, которые не нужны - тире, точки и т.д., тоесть надо оставить английские и русские буквы, остальное убрать. Цифры тоже можно убрать. Ну и не забыть про длинну слов, она полюбому не может быть менше 3 симоволов. Если возможно, то что бы если в фразе более 5 слов, то удаляло все, что меньше 4 символов.
И самое пожалуй главное! Не должно быть повторяющихся слов
Есть текстовая фраза, из нее надо вытащить ключевые слова, но не слишком много, и не слишком короткие. В идеале, что бы чем длиннее фраза, тем более длинные слова вытаскивало.
К примеру:
C 11 по 20 марта Госавтоинспекция и УП Белтехосмотр проводит общереспубликанскую декаду Гостехосмотр. Госавтоинспекция
Вытащить должно:
марта Госавтоинспекция Белтехосмотр проводит общереспубликанскую декаду Гостехосмотр
Как бы ничего сложного, но надо учесть что встречаются всякие разные символы, которые не нужны - тире, точки и т.д., тоесть надо оставить английские и русские буквы, остальное убрать. Цифры тоже можно убрать. Ну и не забыть про длинну слов, она полюбому не может быть менше 3 симоволов. Если возможно, то что бы если в фразе более 5 слов, то удаляло все, что меньше 4 символов.
И самое пожалуй главное! Не должно быть повторяющихся слов