Всем привет, многие оптимизаторы, вебмастера и те, кто работают в интернете знают, как работают поисковые машины, такие как Яндекс, Гугл. Эти две поисковые системы завоевали весь Рунет. Возможно, это статья будет для кого-то уже не секретом, но все равно я решил написать на эту тему статью. Общавшись на одном сео форуме, ребята задумались сделать свой браузер и возможно свою маленькую поисковую систему. В принципе схема работы ПС почти у всех одна, только алгоритмы ранжирование разные, поэтому буду писать больше про Яндекс чем, про Гугл.

гугл и яндекс поисковые машины

Сейчас мы с вами разберем по полочкам схему работы Яндекса.

Поисковая система состоит из пяти программных компонентов:

  1. Система выдачи результатов.
  2. Паук (спайдер) – программа, которая скачивает веб-страницы.
  3. Краулер – программа, которая автоматически проходит по всем ссылкам, найденным на странице.
  4. Индексатор – разбивает страницу на части и анализирует каждую часть отдельно. Заголовок статьи, текст ссылки(анкор), элементы каскадной таблицы (strong, bold).
  5. База данных – хранилище всех данных, которые поисковая система скачивает и анализирует. Обычно бд требует много ресурсов.

поисковая машина

Наверно считать, что поисковые машины сразу ищут сайт, как только вы вели ключевое слово в поиске. Это – чистой воды МИФ. ПС может искать только в пределах собственной базы данных (индекса). И конечно, количество и новизна данных определяется тем, как часто эта база обновляется, такое обновление бд той или иной поисковой машины называется апдейтом (update – модернизация, корректировка, обновление информации).

Крупные поисковые машины индексируют информацию подобно каталогу в библиотеке. Они должны уметь быстро находить документы по заданным ключевым словам или фразам. Поисковые алгоритмы (математические методы программирования, сортирующие найденные результаты) каждого из поисковых сервисов являются уникальными. Можете это проверить сами, введите один и тот же запрос в Гугле и Яндексе, результат выдачи поиска будет совсем различный. Учитывая этот факт, можно отметить, что необходимо иметь индивидуальный подход оптимизации к этим службам.

Постоянно “ползать” по сети и индексировать веб-страницы с множеством документов, как это делают поисковики – задача не из дешевых. Поддержка базы данных поисковой машины требует много инвестиций для обеспечения работы, необходимых технических ресурсов и продолжения научных исследований.

Обнаружение релевантных страниц в сети для индексации – приоритет поисковых машин. Но как машина может определить, важна та или иная информация? Некоторые ПС, например, Яндекс используют ручную проверку на релевантность, так называемые асессоры. Асессоры работают по заданной методике, существуют определенные критерии, которые должны измерять качество страницы. Асессор водит поисковый запрос и ставит оценку рейтинга. Рейтингом может считаться тиц, траст.

Спайдеры ПС находят миллионы страниц в день, которые заносятся в бд и индексируются.  Критически важно, чтобы ваш сайт работал, когда его посещает робот поисковой машины. Если в этот момент сайт не работает, то вы можете вылететь из индекса до следующего обновления.

Независимо от тематики запроса, пс выводит несколько тысяч или миллионов вариантов, из которых тока на первых двух страницах являются релевантной, после 20 позиций релевантность значительно снижается. Поисковые машины находят веб-страницы тремя способами:

  1. При помощи использования стартового урл.
  2. Из списка урл, полученных при прошлом исследование сети.
  3. Урл добавленных искусственно веб-мастерами непосредственно в поисковую машину (при помощи Добавить URL).

Сегодняшние краулеры, которые появились в течение последних нескольких лет в результате роста интернета, полностью изменились со времен ранних роботов. Хотя ползание по сети – очень быстрый процесс, фактически делает тоже самое, что и рядовой серфер-пользователь.

Например, Гугл начинал с четырех краулеров, каждый раз открывал более чем 100 страниц в секунду, Яндекс еще медленней индексирует страницы.

Поисковые машины предпочитают идти по более коротким URL считая что на коротких URL содержится более полезная информация. Поэтому является ограничение слешей сайта, десять слешей – это максимальная глубина просмотра краулером вашей страницу, средней глубиной считается, как правило, три слэша.

Вот примерно мы и разобрались в схеме работы поисковых машин, следите за моим блогом, чтобы не пропустить новую статью.

Советую почитать:

  1. Крах поисковых систем Яндекса и Гугла Всем привет, общавшись на одном форуме, я увидел конкурс на...

Отправить комментарий


5 − = 1