Современная поисковая система – это целый комплекс, состоящий из сложнейших программ и алгоритмов, работающих с умопомрачительной скоростью. Только представьте, новый поисковый алгоритм Caffeine от Google способен обрабатывать информацию, эквивалентную 3 км листов формата А4, всего за 1 секунду!
Во всех поисковых системах программные компоненты можно разделить на пять основных групп:
- «пауки»
- «путешествующие пауки»
- индексаторы
- базы данных
- системы выдачи результатов
Программы-пауки – спайдеры (spiders) – по алгоритму своей работы напоминают браузеры, но не имеют каких-либо визуальных компонентов. Спайдер загружает html-код страницы, используя протоколы http.
Запрос робота на сервер включает команду «get/path/document» и некоторые другие команды http-запроса. На этот запрос спайдер получает от сервера ответ в виде текстового потока, содержащего служебную информацию о документе и непосредственно сам документ. Спайдер входит в состав модуля индексирования поисковых систем.
«Путешествующий паук» — crawler – представляет собой еще один компонент модуля индексации. Crawler автоматически переходит по всем гиперссылкам, которые были найдены роботом-пауком на странице и таким образом осуществляет поиск еще неизвестных поисковой системе документов.
Робот-индексатор (indexer) работает непосредственно с содержимым страниц, загруженных роботами-пауками. Индексатор проводит морфологический, лексический анализ страниц, разбивая их на отдельные части.
Базы данных (database) представляют собой специальные программные средства, предназначенные для хранения собранных и пронализованных компонентами модуля индексирования документов.
Search engine results engine — система выдачи результатов – один из важнейших компонентов поисковой системы. Именно с системой выдачи результатов имеет дело конечный пользователь, который вводит запрос в строку поиска. Система выдачи результатов на основании более двух сотен различных критериев выполняет отбор результатов, наиболее удовлетворяющих цели поиска.
Алгоритм такого отбора называют обычно алгоритмом или механизмом ранжирования. Во избежание махинаций со стороны веб-мастеров с целью повлиять на результаты выдачи, точный алгоритм ранжирования поисковые системы держат в строжайшем секрете.
Тем не менее существует целый ряд известных критериев, которые учитываются при работе поисковых систем, оптимизируя которые, веб-мастер может «легально» влиять на результаты поиска. Так, например, поисковая система при анализе страницы учитывает:
- присутствует ли ключевое слово в заголовке страницы (Title)
- присутствует ли ключевое слово в URL страницы
- присутствует ли ключевое слово в заголовках H1-H6, тегах STRONG, B, EM, I
- какова плотность ключевых слов на странице (Density)
- присутствует ли ключевое слов в мета-тегах: keywords, description
- присутствуют ли на странице внутренние и внешние ссылки
Взаимодействие пользователя с поисковой системой осуществляется через поисковый сервер. Полученный от пользователя поисковый запрос сервер обрабатывает и передает в качестве входных параметром модулю ранжирования. В свою очередь модуль проводит обработку документов, информация о которых хранится в базе данных поисковой системы, и составляет рейтинг страниц, соответствующих запросу пользователя.
Далее система генерирует сниппет – текстовую информацию, которая показывается пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.
Таким образом, даже краткое описание основных принципов работы поисковых систем показывает, насколько тесно взаимосвязаны друг с другом все программные компоненты системы и сколь четко и отлажено должен работать поисковый механизм для того, чтобы максимально быстро и достоверно предоставить пользователю информацию по его поисковому запросу.
Пользуясь постулатами которые поисковая система учитывает при анализе страниц
— результат внутренней оптимизации не заставил себя долго ждать.
Да если их не придерживаться то google и yandex не будут выдавать нужных страниц по запросу
Главное – равномерно это все распределять по странице, чтобы не заспамили.
Нужно соблюдать определенный процент пользования этих пунктов на странице
Я держусь золотой середины. И уже 7 месяцев нет проблем.