Делаем сайт доступным для поисковых систем

Делаем сайт доступным для поисковых систем. В статье я рассажу про факторы, влияющие на индексацию сайтов и вообще как правильно её настроить.

Индексация сайта, т.е. его попадание в базу поисковой системы, зависит от многих факторов. Важнейшими внутренними факторами, оказывающими прямое влияние на индексацию и ранжирование страниц, являются следующие:

Адрес страниц;
Код страниц;
Использование скриптов;
Сессии и дубликаты.

Знакомство поисковика с сайтом начинается именно с анализа существующих на нем адресов страниц, которые принято делить на динамические и статические.

Статические страницы

Статические страницы одинаково воспринимаются как поисковиками, так и людьми. Каждый из них видит идентичное содержимое страницы, представляющей собой обычный файл в формате .html. Адрес подобной страницы, как правило, имеет следующий вид:

и, следует отметить, успешно индексируются поисковыми системами.

Динамические страницы

С динамическими страницами все иначе. Огромные порталы с достаточным трафиком просто невозможно держать на статических страницах. На помощь приходят серверные скрипты, формирующие страницы как для пользователя, так и для поисковых роботов. Бесспорно, соответствующие страницы имеются, но в виде готовых файлов отсутствуют, скрипт при запросе просто их формирует. Если в статических страницах основным расширением было .html, в динамических оно иное — .php, .jsp, .cgi. Также динамическую страницу можно узнать по наличию в адресной строке значков “=”, “?”, “&”.

Поисковики с большим удовольствием индексируют статические страницы, вот почему лучше всего, чтобы страницы сайта были именно такими. Благо, есть файл .htaccess, изменив настройки в котором можно очень быстро превратить динамические страницы в псевдостатические.

Также для поисковиков важно то, что будет в адресной строке. Так, если доменом будет большой ключевик, лучше написать его либо слитно, либо использовать для разделения знак тире, а не нижнего подчеркивания, т.к. в последнем случае, поисковик увидит большую незнакомую ему абракадабру, в то время как в первом случае каждое слово домена будет учтено.

Код страниц – один из важнейших факторов, влияющих на индексацию сайта. Для поискового робота очень важно содержимое html кода, в котором самая важная информация выделяется с помощью тегов (<title>, <strong>, <h1>-<h6>).

Для того, чтобы поисковый робот проиндексировал именно то, что нужно, следует, во-первых, не перегружать код лишними тегами и элементами. Во-вторых, использовать в коде новые теги, а не устаревшие (<font>, например), в результате использования которых важность информации поисковиком оценивается неверно. В-третьих, подавать информацию для людей текстом, а не графикой, т.к. поисковик не в состоянии прочесть картинку. В-четвертых, свести до минимума использование клиентских скриптов, улучшающих навигацию по меню, но, препятствующих полноценной работе поисковых систем. Если без VBScript или JavaScript владелец сайта жизни не представляет, нужно хотя бы сделать так, чтобы ссылки на внутренние страницы сайта были текстовыми. В-пятых, чем меньше таблиц на странице – тем лучше, особенно, поисковым системам. В-шестых, в коде веб-страниц лучше не прописывать стили оформления, не распознаваемые поисковиками, а помещать их в отдельный файл CSS.

Делаем сайт доступным для поисковых систем

Индексация сайта также напрямую зависит от работы серверных скриптов и настройки самого веб-сервера. Очень важно, чтобы протоколы, имеющие названия HTTP, были настроены верно, поскольку при отсутствии корректных настроек поисковый робот получает от сервера либо левую страницу, либо сообщение об ошибке, следовательно, нужная страница не попадает в индекс.

Не будет лишним активировать обработку дат создания и изменения страниц, что, во-первых, снизит нагрузку на сервер, во-вторых, приведет к тому, что одни и те же страницы перестанут постоянно индексироваться роботом, а, значит, он начнет обращать внимание на новые страницы.

Большой проблемой сайта являются сессии – идентификационные номера, выдаваемые пользователю, для отслеживания его действий на сайте. Сессии – большая проблема, если речь заходит о поисковых роботах, поскольку после того, как он несколько раз зайдет на сайт, в его арсенале огромная база идентификаторов сессий одной и той же страницы. Другими словами, время и ресурсы расходуются на выборку одного и того же содержимого, в то время как до нужных страниц очередь может так и не дойти.

Еще одной существенной проблемой при индексации являются возможные копии/дубликаты страниц, которые, могут, например, возникнуть, после смены адресации страниц. Поэтому необходимо контролировать, чтобы по разным адресам не находилась одна и та же информация, в противном случае, поисковики будут потреблять одну и туже информацию, выбирать из предложенного количества самую релевантную страницу, игнорируя при этом другие страницы. И самое главное – не превысить лимит, выставляемый Yandex, на количество идентичных страниц, иначе специальным механизмом этот поисковик удалит все страницы и индексация сайта начнется с нуля.

Поисковый робот – весьма специфическое творение и от того, какая информация будет ему предоставлена, зависит скорость индексации сайта и его попадание в ТОП. Вот почему имеет смысл скрывать ненужную для него информацию. Информация о пользователях сайта, страницы для печати для поисковых роботов никакой ценности не представляет. Поэтому информацию подобного плана можно скрывать.

Так, например, запретить индексацию той или иной страницы можно с помощью метатега или всем известного файла robots.txt.

Мета-теги, располагающиеся в самом начале страницы, не видны пользователям сайта, зато мимо поисковых роботов пройти они не могут. Для управления индексацией конкретной страницы служит мета-тег <meta name=»robots» content=»…»>. Именно от того, что находится в атрибуте content=»…», зависит дальнейшая индексация страницы. Так, по умолчанию данный мета-тег имеет вид <meta name=»Robots» content=»INDEX, FOLLOW»>, согласно которому индексация конкретной страницы разрешена поисковику, как и переход по ссылке/ссылкам. В content можно прописать следующие позиции:

INDEX — индексирование документа разрешено;
FOLLOW — переход по ссылкам разрешен;
NOINDEX — индексирование документа запрещено;
NOFOLLOW — переход по ссылкам документа запрещен;
ALL — аналог FOLLOW, INDEX;
NONE — аналог NOFOLLOW, NOINDEX.

Следует иметь ввиду, что противоречивые инструкции, как и их дублирование в графе content запрещены. Так, например, нельзя прописать <meta name=»Robots» content=»ALL, FOLLOW»>. К значению полей регистр нечувствителен!

Делаем сайт доступным для поисковых систем

Также управлять индексацией сайта можно при помощи файла robots.txt, находящимся в главной директории сайта. Когда поисковые роботы попадают на сайт, первое, что они делают – запрашивают данный файл. Если он отсутствует, значит индексации подлежат все страницы сайта (в данном файле нельзя прописать разрешения на индексирование). Если же он есть, значит, в нем прописаны запреты. Так, например:

User-agent: googlebot
Disallow: /media/

означает, что роботу Google запрещена индексация папки «мультимедиа». Учитывая, что запрет касается исключительно бота google, все остальные роботы будут лазить как по сайту, так и по этой папке.

Чтобы запретить роботам всех поисковых систем индексацию всего сайта нужно прописать:

User-agent: *
Disallow: /

В каждом файле прописывание Disallow обязательно!

Внутреннюю оптимизацию сайта многие недооценивают и вместе с тем настройка сайта — как раз то, что в силах сделать сам вебмастер для успешной его индексации. Помните, никаких frame и flash, поменьше таблиц и текстовых картинок! Только уникальный контент и безошибочная верстка с закрытыми страницами для поисковиков выведут ваш сайт на ключевые позиции!