02
09
Файл robots.txt. Что, зачем и почему

Не смотря на то, что описаний такого весьма полезного инструмента как файл robots.txt мильён и одна штука, я все же не удержался от соблазна решил так же сказать о нем пару-тройку слов. Бо если уж блог называется Вебсовет, то нужно быть последовательным и рассказывать о всех полезняшках, которые могут пригодиться вебмастеру. И указанный файл — не исключение, а скорее даже наоборот — насущная необходимость, если вы пожелаете заняться оптимизацией своего сайта под ПС.
Начнем с того, что вообще представляет из себя данный файл. Да ничего особенного. Обычный текстовик, который легко можно создать в Блокноте. Имя его, как уже было сказано, robots.txt. Пишется ВСЕГДА мелкими строчными буквами на латинице. Никаких Robots.txt, ROBOTS.txt, роботс.txt и прочих придумок. Иначе все роботы проигнорируют такой файл и побегут шарить на вашем сайте где ни попадя.
С оформлением понятно. Теперь о смысле, вернее о функциях этого файла. Логика подсказывает, что предназначен файл исключительно для роботов. Но каких? У каждой поисковой системы (ПС) есть свой робот (бот) — существо весьма любопытное и пронырливое. Незаметно человечьему глазу, оно проникает на страницы сайтов, внимательно или не слишком читает все, что там есть и после тащит домой, т.е. в базу данных ПС. В результате поисковики знают, что у вас есть такие-то страницы на сайте вот с таким содержимым. Иначе этот процесс называется индексацией. Если ботов никак не ограничивать, то по-умолчанию они могут просматривать все содержимое вашего сайта.
Что же в этом плохого? Когда сайт — это всего лишь с десяток статичных HTML-страниц, то ничего. Пусть боты читают. Это как раз и хорошо. Но если ваш сайт, например, на какой-либо CMS, то вы имеете массу служебных папок и файлов, которые, по сути своей, вовсе не являются полезным содержимым вашего сайта. А в некоторые папки и файлы ботам совсем даже ни к чему заглядывать. Вот как раз чтобы как-то их ограничивать и был придуман такой полезный инструмент как robots.txt. Его первейшая функция — не пущщать! Используется для этого грозное слово Disallow. Но обо всем по-порядку.







