Перейти к содержанию
Форум поддержки пользователей VamShop

О запретах для роботов


Рекомендуемые сообщения

Нашел в сети инструкцию:

 

способ, чтобы отрубить ненужных ботов, и ограничить деятельность нужных.
 
Итак, п.1. Снижаем нагрузку на сервер с помощью блокировки ненужных деятельности ботов.
 
Для этого вставляем в файл .htaccess следующую запись:
 
<Files 403.shtml>
 
order allow,deny
 
allow from all
 
</Files>
 
# Далее список юзерагентов которым мы запрещаем доступ
 
SetEnvIfNoCase User-Agent MJ12bot bad_bot
 
SetEnvIfNoCase User-Agent JS-Kit bad_bot
 
SetEnvIfNoCase User-Agent PostRank bad_bot
 
SetEnvIfNoCase User-Agent Python-urllib bad_bot
 
SetEnvIfNoCase User-Agent UnwindFetchor bad_bot
 
SetEnvIfNoCase User-Agent facebookexternalhit bad_bot
 
SetEnvIfNoCase User-Agent TweetmemeBot bad_bot
 
SetEnvIfNoCase User-Agent бабочка bad_bot
 
SetEnvIfNoCase User-Agent MFE_expand bad_bot
 
SetEnvIfNoCase User-Agent Java bad_bot
 
SetEnvIfNoCase User-Agent Summify bad_bot
 
SetEnvIfNoCase User-Agent MetaURI bad_bot
 
SetEnvIfNoCase User-Agent FlipboardProxy bad_bot
 
SetEnvIfNoCase User-Agent ScribdReader bad_bot
 
SetEnvIfNoCase User-Agent RockMelt bad_bot
 
SetEnvIfNoCase User-Agent InAGist bad_bot
 
SetEnvIfNoCase User-Agent NING bad_bot
 
SetEnvIfNoCase User-Agent TweetedTimes bad_bot
 
SetEnvIfNoCase User-Agent PaperLiBot bad_bot
 
SetEnvIfNoCase User-Agent библиотека bad_bot
 
SetEnvIfNoCase User-Agent Ezooms bad_bot
 
SetEnvIfNoCase User-Agent strawberryj bad_bot
 
SetEnvIfNoCase User-Agent Scooper bad_bot
 
SetEnvIfNoCase User-Agent Ahrefs bad_bot
 
SetEnvIfNoCase User-Agent Spider bad_bot
 
SetEnvIfNoCase User-Agent нет bad_bot
 
SetEnvIfNoCase User-Agent EventMachine bad_bot
 
SetEnvIfNoCase User-Agent aiHitBot bad_bot
 
SetEnvIfNoCase User-Agent SolomonoBot bad_bot
 
SetEnvIfNoCase User-Agent SearchBot bad_bot
 
SetEnvIfNoCase User-Agent Wget bad_bot
 
SetEnvIfNoCase User-Agent гусеничный bad_bot
 
Order Allow,Deny
 
Allow from all
 
Deny from env=bad_bot
Т.е. сначала мы даем список ботов, которым хотим запретить заходить на сайт, помечая им параметр bad_bot, а далее запрещаем отдавать им содержимое страницы, если они появятся.
 
Список можно пополнять. В моем случае особые проблемы вызывал MJ12bot, который по 1-3К запросов делал в сутки.
 
п.2. Уменьшение нагрузки за счет установки тайминга
 
Устранение ненужных ботов - это лишь часть проблемы. К вам в любом случае будут наведываться и те боты, которых вы с нетерпением ждете, например боты Яндекса, Гугла и Майла, т.к. в рунете именно они дают львиную долю трафика.
 
Загружая по многу страниц, эти боты вполне себе тоже могут положить сайт и весь сервер вместе с ними.
 
Чтобы они не клали сервер, им можно задать интервал минимального времени задержки, которое должно проходить до следующего запроса.
 
Это можно сделать в файле robots.txt. Добавьте туда следующие записи:
 
User-agent: Yandex
 
Crawl-delay:5
Эта запись означает, что ботам Яндекса запрещено делать обращения к сайту чаще, чем 1 раз в 5 секунд.
 
Точно такую же запись следует сделать для других ботов поисковых систем.
 
Делаем, и радуемся снижению нагрузки и росту средней скорости работы сайта"
-----------------------
п1. Добавил приведенную конструкцию в .htaccess у себя в самый конец файла - ошибка - не записал какая
 
п2. Добавил в самом начапе robots.txt:
 
User-agent: Yandex
Crawl-delay:5
User-agent: Googlebot
Crawl-delay:5
 
и тоже ошибка- опять не записал (
 
В чем может быть дело?
 
Ссылка на сообщение
Поделиться на другие сайты

А смысл всё это добавлять?

Как Вы определили, что у Вас боты создают непосильную нагрузку?

 

По-моему, советы не особо интересные и нужные.

 

Лучше заниматься контентом внутри магазина, т.е. хорошими описаниями, картинками, вообще улучшать сайт для посетителей.

 

Вот это действтиельно полезно.

Ссылка на сообщение
Поделиться на другие сайты
×
×
  • Создать...