Поднять тИЦ

Thoth666 · 20 Сен 2007

akhkharu написал(а):
Насколько достоверны данные о том, что уникальность Яндекс проверяет контрольной суммой?

на все 100%.
на сайте серченджинес.ру один из яндексовских сотрудников про шинглы дезу толкал.

а вот телега
взято отсюда:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Теория по определению «нечетких дубликатов»

a. Что такое «нечеткий дубль» Для начала нужно определиться с терминологией. Единого мнения по этому поводу в seo еще нет, и поэтому данная терминология отталкивается просто от здравого смысла.

Дубль (дубликат) web-документа – точная копия web-документа. «Нечеткий дубликат» web-документа – web-документ, частично измененный в содержательной части и/или в части форматирования (использование других тегов html для оформления страницы).

Мы будем трактовать «дубликат web-документа» только с точки зрения поисковой системы, а не пользователя. Поэтому мы не будем рассматривать такое явление как «копирайтинг», т.е. переписывание текста специально для поисковых систем с использованием других слов, но с сохранением общего смысла. Такой текст для поисковика будет всегда оригинальным, т.к. смысл текста компьютеры пока различать не могут.

Существует несколько основных методов определения дубликатов.
b. Метод «описательных слов» Данный метод работает по следующему принципу.

Сначала формируется небольшая (ок. 2000-3000 слов) выборка. Выборка должна удовлетворять следующим условиям:

- с ее помощью можно достаточно полно описать практически любой документ в сети
- описание документа не должно быть при этом избыточным

Таким образом, для формирования выборки нужно отбросить слова, которые наиболее и наименее употребительны, т.е. не учитывать стоп-слова и различные узко тематические термины. Также в выборку не попадают прилагательные, так как они не несут в русском языке смысловой нагрузки.

Далее каждый документ сопоставляется с выборкой и рассчитывается вектор, размерность которого равна количеству слов в выборке. Компоненты вектора могут принимать два значения – 0 или 1. 0 – если слова из выборки нет в документе, 1 – если слово встречается в документе. Далее документы проверяются на дублирование путем сопоставления их векторов.

По такому алгоритму Яндекс определяет нечеткие дубликаты.
c. Метод шинглов Метод шинглов заключается в следующем. Для всех подцепочек анализируемого текста рассчитывается «контрольная сумма». Контрольная сумма (или "сигнатура") - это уникальное число, поставленное в соответствие некоторому тексту и/или функция его вычисления. Функция вычисления контрольных сумм может преследовать несколько целей: например "невзламываемость" (минимизируется вероятность того, что по значению контрольной суммы можно подобрать исходный текст) или "неповторяемость" (минимизируется вероятность того, что два разных текста могут иметь одну контрольную сумму) - Электронный журнал "Спамтест" No. 27.

Обычно используются следующие алгоритмы вычисления контрольных сумм: fnv, md5, crc. После вычисления контрольных сумм строится случайная выборка из полученного набора. По этой выборке документ можно сличать с другими документами, для которых также предварительно рассчитана выборка.

Данный метод расчета является достаточно ресурсоемким и его можно обойти, незначительно изменив текст, так как, прежде всего, шинглы зависят от расстояния между словами.

Сейчас метод шинглов эволюционировал до алгоритма «супершинглов», при котором стоится ограниченный набор контрольных сумм. Эксперименты на РОМИП привели к следующим результатам – 84 шингла, 6 супершинглов над 14 шинглами каждый. Тексты считаются совпавшими при совпадении хотя бы двух супершинглов из 6.

Osaka · 21 Сен 2007

Thoth666, Сегалович нам врал? Ужос )
В целом спасибо за интересную инфу. Хотя s*news считается хоть и неплохим, но довольно ламерским ресурсом )

Т.е., исходя из метода «описательных слов», при размножении к примеру статей или описаний сайта стоит указывать синонимы сущствительных и глаголов, забыв про прилагательные?

Thoth666 · 21 Сен 2007

Osaka написал(а):
Thoth666, Сегалович нам врал? Ужос )
В целом спасибо за интересную инфу. Хотя s*news считается хоть и неплохим, но довольно ламерским ресурсом )

Т.е., исходя из метода «описательных слов», при размножении к примеру статей или описаний сайта стоит указывать синонимы сущствительных и глаголов, забыв про прилагательные?

Всегда пожалуйста )
Подобное описание я видел на s*engines, но вот беда: сейчас не нашел.
Сегалович...

Выходит что да- сразу 2х зайцев убиваем: и шинглы другие и описание меняется.

mtl · 27 Сен 2007

тИЦ нужен только для продажи ссылок. В остальном он ни на что не влияет.

Thoth666 · 27 Сен 2007

mtl написал(а):
тИЦ нужен только для продажи ссылок. В остальном он ни на что не влияет.

на вывод каталога Яндекса влияет.

maestro666 · 1 Окт 2007

Дам наколку, но палить тему до конца не буду. Для поднятия ТИЦ можно использовать уязвимость XSS на некоторых сайтах....

lexg · 1 Окт 2007

тема уже спалена давно акстись...

Montoya · 1 Окт 2007

мало того что тема спалена лавно, так она уже почти и не работает

Thoth666 · 1 Окт 2007

maestro666 написал(а):
Дам наколку, но палить тему до конца не буду. Для поднятия ТИЦ можно использовать уязвимость XSS на некоторых сайтах....

"ой чего я знаю но никому на скажу". есть предположение что это все-таки форум где люди обмениваются информацией, а не меряются кто чего больше знает

ага, и потом твой сайт благополучно будет стерт с лица земли твоим провайдером. и мало того, еще и в управление "К" кто-нить стуканет. Читай внимательно УК.

disker · 1 Окт 2007

mtl написал(а):
тИЦ нужен только для продажи ссылок. В остальном он ни на что не влияет.

хм... интересное мнение, а я вот думал что тИЦ влияет на вес ключевых слов на странице... хотя наверное оно так и есть :ah:

на самом деле ...

Поднять тИЦ

Thoth666

Прохожие

Osaka

Прохожие

Thoth666

Прохожие

mtl

Создатель

Thoth666

Прохожие

maestro666

Создатель

lexg

Постоялец

Montoya

Создатель

Thoth666

Прохожие

disker

Гуру форума