- Автор темы
- #1
Что-то часто стал слышать что марковку палят поисковики...
Обсудим почему так и пути улучшения?
Мне видится 2 момента по которым марковку можно спалить:
1) Частое повторение каких-то словосочетаний.
2) Неестественное расположение 3-х слов подряд (марковка, которая применяется допустим в том-же доргене санчеза гарантирует естественность расположени 2-х слов подряд, но в цепочке 1-2-3 пара 1и2 - слово выглядят естественно вторая пара (2и3-е слово)тоже, но вот тройка 1-2-3 нигде в человеческих текстах не встречается).
Ну и методы борьбы с этим:
1) Увеличения словаря при генерации (читать как увеличение обьема исходного текста)
2) Увеличение порядка цепочки - чтоб выбиралось не 2 слова подряд, а 3, 5 и т.д. Но тут главное тоже не переборьщить ибо если таки ПС пользуются алгоритмом шинглов, то мы можем потерять уникальность :-(
В идеале ИМХО совместить оба метода борьбы, но у меня так не получилось - слишком прожорливый скрипт вышел :-(
Интересно мнение гуру как по методам борьбы с узнаваемостью марковки так и по причинам такой узнаваемости.
Обсудим почему так и пути улучшения?
Мне видится 2 момента по которым марковку можно спалить:
1) Частое повторение каких-то словосочетаний.
2) Неестественное расположение 3-х слов подряд (марковка, которая применяется допустим в том-же доргене санчеза гарантирует естественность расположени 2-х слов подряд, но в цепочке 1-2-3 пара 1и2 - слово выглядят естественно вторая пара (2и3-е слово)тоже, но вот тройка 1-2-3 нигде в человеческих текстах не встречается).
Ну и методы борьбы с этим:
1) Увеличения словаря при генерации (читать как увеличение обьема исходного текста)
2) Увеличение порядка цепочки - чтоб выбиралось не 2 слова подряд, а 3, 5 и т.д. Но тут главное тоже не переборьщить ибо если таки ПС пользуются алгоритмом шинглов, то мы можем потерять уникальность :-(
В идеале ИМХО совместить оба метода борьбы, но у меня так не получилось - слишком прожорливый скрипт вышел :-(
Интересно мнение гуру как по методам борьбы с узнаваемостью марковки так и по причинам такой узнаваемости.