E-body
Мой дом здесь!
- Регистрация
- 6 Сен 2007
- Сообщения
- 992
- Реакции
- 342
- Автор темы
- #1
Здраствуйте.
Проблема такая, вобщем имеется портал дле+ипб(форум) которые посещают поисковые боты, часто замечал что при посещении сразу несколькими ботами сайт медленнее работает и бывало такое что хостер отключает на время изза превышенной нагрузки.
Переехать на другой хост не предлогать, это не выход.
Подскажите как можно усмирить ботов, так чтоб умеренно индексировали странички без перенагрузок и каких ботов стоит не допускать к порталу?!
Как один из знакомых вариантов (не помогает), ограничение через robots.txt :
п.с. портал расчитан на русскоязычную публику
Нашел обсуждение вопроса на этом форуме Для просмотра ссылки Войдиили Зарегистрируйся
Пару интересных цитат
Проблема такая, вобщем имеется портал дле+ипб(форум) которые посещают поисковые боты, часто замечал что при посещении сразу несколькими ботами сайт медленнее работает и бывало такое что хостер отключает на время изза превышенной нагрузки.
Переехать на другой хост не предлогать, это не выход.
Подскажите как можно усмирить ботов, так чтоб умеренно индексировали странички без перенагрузок и каких ботов стоит не допускать к порталу?!
Как один из знакомых вариантов (не помогает), ограничение через robots.txt :
PHP:
User-agent: *
Crawl-delay: 10
Нашел обсуждение вопроса на этом форуме Для просмотра ссылки Войди
Пару интересных цитат
User-agent: *
Request-rate: 1/10 # загружать не более одной страницы за десять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
И сколько страниц в секунду можно заиндексить
Поставь время когда меньше всего народа на сайте
эти параметры не на всех ботов действуют, вот например гугл бот сообщает об этих правилах:
Crawl-delay: 7 Правило, которое не учитывается Googlebot
Request-rate: 1/7 Синтаксис не распознается
Visit-time: 0000-0500 Синтаксис не распознается
сообственно все было сделано по шаблону и синтаксис правильный, у него просто нет поддержки таких команд
Я ненужным ботам вообще закрыл доступ. В htaccess добавил:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl
RewriteRule ^(.*)$ - [F,L]
Такая же проблема.
Это cuill подонский поисковик
погуглите cuil убивает сайтыСкрытый текст, требуется (1 сообщение(ий), у вас 463
Для просмотра ссылки Войдиили Зарегистрируйся
В четверг было нашествие ботов.
Cuill открывает до 500 портов и стоит в time_wait
и еще есть один безыменный зверь.
Код:
TCP web:http 94.127.144.35:12698 CLOSE_WAIT
TCP web:http 94.127.144.35:12902 TIME_WAIT
TCP web:http 94.127.144.35:13041 CLOSE_WAIT
То что это бот - узнал позвонив владельцам ip
netstat показывает для обоих поисковиков целые простыни подключений.
А второй бот это новые васьки, сказали что это их поисковый бот.
Какой то ТелеХаус новый поисковик новый делает.Скрытый текст, требуется (1 сообщение(ий), у вас 463
Для просмотра ссылки Войдиили Зарегистрируйся
Извинились, сказали что извиняются за бота, типа разошелся.
Оба бота Cuil и этот русский открывают слишком много портов, видимо пытаются открыть все ссылки на сайте разом, а если еще и на нескольких сайтах одновременно то серверу пипец.
Чуть чуть помогает снизить time_wait в TCP в реестре до 30
и потимизация скриптов.
В интернете пишут, что cuill пытается рандомить урлы и особая жопа кто юзает mode_rewrite.
роботс txt Crawl-delay оба бота игнорируют.
проще забанить ip
Я думаю, что эти новоявленные разработчики, что ренегады ушедшие из гугла (cuil), что наши Телехаусовцы хреново знают TCP. И оба нахрапом хотят просканить весь интернет.
Забанил ip полегчало.
Добавлено через 11 минут
Проблема реальная. Я даже пришёл к выврду что сайты которые начинают быть популярными специально заказывают таким "специалистам". каждые 2-5 сек идёт робот. соотв. любой сервак рано или поздно нагнётся. Сам с такой сталкивался. Даже некоторые левые боты не соблюдают правила delay in robots.txt
Я например блокирую такие боты в .htaccess
таким образом
SetEnvIf User-Agent "htdig" ban
SetEnvIf User-Agent ^htdig$ ban
SetEnvIf User-Agent .*DotBot.* ban
.....
SetEnvIf User-Agent .*MJ12bot.* ban
SetEnvIf User-Agent .*KaloogaBot.* ban
<Files ~ "^.*$">
order allow,deny
#deny from all
allow from all
deny from env=ban
</Files>
Всё доступ через апач им будет закрыт и соотв. нагружать сервак не смогут.
Проблема в другом если дальше идти - этих новых "левых" ботов постоянно увеличивается и нужно постоянно отслеживать.