После дополнительного анализа логов забаненного аккаунта продолжаю тему.
Исходя из анализа логов смею утверждать, что google использует сервис
Для просмотра ссылки Войди или Зарегистрируйся IP 208.80.194.36, а точнее их так называемый Websense Web Security Gateway. Данный вывод сделан при анализе логов до бана доров и после. Бан доров происходил именно после захода данного бота, далее, после бана , при прикреплении другого домена и проспама первоначально приходил именно этот бот.
Зайдя на сайт данной конторы я нашел очень много интересного для себя, в частности то, что их сервис использует свой супер оригинальный алгоритм фильтрации и распознавания текста, данных, а также всего прочего, особенно вирусов, эксплойтов и т.д. Вот интересные выдержки с их сайта:
(Through a multi-vector traffic scanning engine, the Websense Web Security Gateway analyzes Web traffic in real-time, instantly categorizing new sites and dynamic content, discovering security risks, and blocking dangerous malware) Перевод:
Через мультивекторный сканирующий движок, Websense Web Gateway анализирует веб-трафик в режиме реального времени, мгновенно классифицируя новые сайты и динамическое содержание, выявляя риски для безопасности, а также блокирует опасное содержимое.
Вот еще оттуда-
(Leverages content classification and data identification with binary,
lexical and statistical analysis along with heuristics, image recognition,
machine learning, pattern detection, natural language processing and data fingerprinting
) Превод: Производит классификацию контента и идентификацию данных как бинарным, лексическим так и статистическим и эвристичеким анализом, распознавание изображений, машино обучаемое распознавание паттернов и отпечатков данных.
(Uses more than 50 million real-time data collecting systems parsing
through one billion pieces of content daily) Перевод: Использует более чем 50 млн. систем парсинга данных в реальном масштабе времени,
через один биллион единиц контента ежедневно.
(Assigns more than 2 million domains, networks, IPs and hosts with
reputations every hour) Каждый час определение 2 миллионов доменов, сетей, IP шников и хостов с репутацией.
Вот один из их сервисов
PreciseIDTM Technology
(PreciseID technology provides accurate identification and classification of content in more than 370 different file types and formats- from source code binaries to CAD drawings to Verilog code, and beyond- even if that content is cut and pasted from one format to another.)
Перевод:
PreciseID технология обеспечивает точное определение и классификацию контента в более чем 370 различных типов файлов и форматов: от исходного кода бинарников до CAD чертежей и Verilog-кодов, и в последующем ,
даже если этот контент вырезать и вставлять из одного формата в другой.
А вот и анализ контента доров и связь с google-
( PreciseID technology uses multiple detection methods to help organizations discover organizational compliance risk and automatically enforce content use policies, including:
-Fingerprinting technology
-Natural Language Processing NEW
-Rules
-Lexicons
-Dictionaries
-Exact and partial matching
-Statistical analysis )
Перевод:
PreciseID технология использует несколько методов обнаружения, чтобы помочь организациям обнаруживать организационные риски и автоматически применять политики использования содержимого, в том числе:
-технологии Отпечатков (математическая репрезентация группы характеров, слов, предложений и полей данных в документе)
-Обработка натурального языка
-Правила
-Лексикон
-Словари
-Точные и частичное соответствие
-Статистический анализ
Дальше я не буду расписывать, думаю, что и так все понятно.
Правда там еще упоминается о ,так называемых, ихних "виртуальных пользователях ", которые просматривают страницы для выявления всяких гадостей ( Это по вопросам различного рода редиректов
)
Исходя из вышеперечисленного можно сделать вывод, что google активно стал использовать сторонние наработки в области анализа содержания.