Поисковый робот

Поисковый робот еще называют спайдером или пауком. Это являющаяся частью поисковой машины специальная программа, которая осуществляет обход страниц в Интернете для занесения в базу данных поисковой системы информации об этих страницах (ключевых словах).

Поисковый робот, по сути, похож на браузер. Он занимается сканированием содержимого страницы, после чего отправляет содержимое на сервер поисковой машины, затем начинает сканировать следующую страницу. Обычно размер текста, который сканируется поисковым роботом, и глубина проникновения внутрь ресурса, имеет ограничения. Так что может оказаться, что поисковая машина проиндексирует слишком большой сайт не полностью. Помимо обычного поискового робота, есть специализированные роботы, которые для того, чтобы определить, подключен ли проиндексированный сайт к Интернету, простукивают его (роботы-дятлы).

В зависимости от алгоритма поисковой машины определяются критерии нахождения ключевых слов, частота визитов на сайт, порядок, в котором осуществляется обход страниц, осуществляется защита от зацикливания.

Обычно с одной на другую страницу можно переходить по ссылкам, содержащимся на первой, а также на других страницах.

Кстати, обычно в очередь на индексирование пользователь может добавить сайт и самостоятельно. Это не только ускорит процесс индексирования, но и иногда является единственным вариантом для того, чтобы поисковая система узнала о существовании ресурса (например, случае, если на данный сайт не ведут никакие внешние ссылки).

Существует возможность ограничения индексации ресурса. Для этого используется файл robots.txt. Хотя некоторые поисковики данный файл просто игнорируют. Чтобы обеспечить полную защиту от индексации, нужно использовать специальные механизмы. Чаще всего в таких случаях на страницу устанавливают пароль. Защитой может послужить и заполнение регистрационной формы для получения доступа к странице.


Термины по этой теме: мета теги, релевантность, дорвей


Rambler's Top100