27.10.2021 20:30

Как работают поисковые системы: принципы, алгоритмы, история развития

News image

Здравствуйте, друзья!

Поисковые системы помогают пользователям найти информацию в интернете. Всего то нужно зайти на сайт поисковика, ввести запрос и вуаля — система выдаст сотни ссылок на сайты, где находятся ответы на ваши вопросы. На первый взгляд, все просто, на деле — это работа миллионов устройств и тысяч людей.

В статье расскажем простыми словами, что такое поисковые системы, как они работают, есть ли конкуренты у гигантов Гугл и Яндекс, какие перспективы у рынка поисковых систем.


Что такое поисковая система

Поисковая система — это веб-ресурс (сайт и/или приложение), который представляет из себя каталог из других сайтов.

Как работают поисковые системы: принципы, алгоритмы, история развитияС помощью поисковых систем можно найти страницы, документы, картинки, аудио или видео, которые содержат ключевые слова, указанные в запросе (либо слова, связанные с этими ключевиками). Для этой задачи алгоритмы анализируют миллиарды страниц в секунду и выдают готовый список с результатами. Он не случайный — позиция каждого сайта определяется алгоритмами поисковика.

Заветная мечта каждого владельца сайта — как можно чаще попадать в ТОП, а еще лучше — на первую позицию списка.


Краткая история поисковых систем

Сейчас крупные поисковики (в частности, Google и Яндекс) представляют собой целый комплекс сервисов и инструментов и создают собственные экосистемы — это непосредственно поиск, инструменты для создания рекламы, дополнительные сервисы для бизнеса (Google Мой Бизнес, Яндекс.Бизнес), инструменты для обычных пользователей (Яндекс.Район, Яндекс.Такси, Яндекс Дзен, Гугл и Яндекс Переводчики), собственные платежные системы (Google Pay, Yandex Pay), Гугл и Яндекс новости, карты для навигации, голосовой поиск и голосовые помощники (например, Алиса от Яндекса) и много чего еще.

Посмотрим, с чего все начиналось.

Как работают поисковые системы: принципы, алгоритмы, история развитияКак вообще появились поисковики? Хронология:

— до первых поисковиков ссылки на сайты передавались из рук в руки, пользователи хранили их в текстовых файлах;

— позже появились каталоги, куда вручную вводили адреса сайтов, сгруппированные по категориям. Но поиска внутри этих каталогов все еще не было;

— в 1989 (по некоторым источникам в 1990) году появляется «прародитель» всех поисковиков — система «Арчи» (Archie — как архив в переводе с английского, но без буквы v). Арчи представляла собой скачиваемый архив со списками существующих файлов и каталогов с возможностью поиска по ним, но программа все еще не индексировала содержимое этих файлов;

—  после Арчи появляется еще пара аналогов — Veronica и Jughead с похожим принципом работы;

— до 1993 года создавалось еще несколько каталогов, которые заполнялись вручную. Опять-таки, полноценной индексации не было;

— в 1993 году появляется первый поисковый робот World Wide Web Wanderer, который собирал URL-ы сайтов и заносил их в единую базу, которую назвали Wandex;

— в том же 1993 на основе World Wide Web Wanderer создается Aliweb — первый поисковик, но он еще не использовал автоматических роботов. Чтобы сайты индексировались и попадали в поиск, их владельцы должны были вручную вводить адреса в Aliweb. Также на их сайтах должен был присутствовать специальный индексный файл, который распознавался поисковиком Aliweb;

Как работают поисковые системы: принципы, алгоритмы, история развития— в период с 1993 по 1996 году было создано еще несколько простых поисковиков: Yahoo, JumpStation, WebCrawler, Lycos, Altavista, Excite, AskJeeves, Inktomi, Magellan.

У них были разные принципы работы, например, JumpStation использовал поискового робота и содержал форму для ввода запросов, но поиск ограничивался только заголовками страниц.

А вот WebCrawler позволял искать информацию не только по заголовкам, но и по словам из веб-страниц, и этот принцип лег в основу современных поисковых систем. Из всех перечисленных систем до наших дней дошла только Yahoo;

— в 1993 году появляется программа Yandex (создана компанией CompTek, основатель —  Аркадий Волож). На тот момент она не была полноценным веб поисковиком, а выполняла задачу поиска информации и файлов на жестком диске компьютера. Кстати, слово Яндекс в разборе означает «ещё один индексатор» (Yet ANother inDEXer). Для работы программы компания CompTek создала специальный русский словарь для поиска по ключевикам. В 1995 году программу решили доработать для поиска по интернету (преимущественно по русскоязычному сегменту). Сначала Яндекс работал с ограниченным количеством сайтов, а позже стал осуществлять поиск по всему рунету. Официально Yandex.Ru анонсировали в 1997 году;

— в 1996 году появляется еще одна поисковая система — BackRub, более продвинутая, чем все предыдущие. Кроме поиска по ключевым словам система учитывала ссылки, ведущие на сайт и учитывала это при ранжировании. BackRub разработали студенты последнего курса Стэнфордского университета Сергей Брин и Лари Пейдж;

— в 1997 году Сергей и Лари переименовывают BackRub в Google, который впоследствии стал поисковой системой #1 во всем мире. Название было взято из математического слова «гугол» (googol), обозначающего число с сотнями нулей. В него был заложен смысл, что Google — это система с бесконечным объемом информации;

— Гугл поиск располагался по адресу Goto.com (сейчас он принадлежит другой компании). В 1998 году появилась идея продавать показы на первых строчках в выдаче по ключевым словам. Деньги списывались за клики по ссылкам. В наше время Google отрицает продажу мест в выдаче поиска, вместо этого рекламодатели платят за клики и показы по рекламе в сервисе контекстной рекламы Google AdWords;

Как работают поисковые системы: принципы, алгоритмы, история развития— в 1998 году появляется конкурент Google — MSN.com (Microsoft Network Search, поисковик Майкрософт). В 2006 году на ее основе появился Windows Live Search (позже просто Live Search), а в 2009 году был создан окончательный вариант поисковика Microsoft под названием Bing. Несмотря на все усилия, Бинг так и не смог составить серьезную конкуренцию Google. Появились даже шуточные аббревиатуры названия Bing: «But It’s Not Google» и «Bing Is Not Google»;

— в 2000 Google запускает AdWords — сервис для рекламодателей. На тот момент позволял размещать платную рекламу справа от поисковой выдаче;

— в том же 2000 Yahoo начинает использовать выдачу Google в YahooSearch до 2004 года, пока не создает свой полноценный поисковик;

— в 2003 Google запускает AdSense — сервис, который позволяет вебмастерам зарабатывать на размещении рекламы на своих сайтах;

— в 2006 появляется Google Sitemaps — карта сайта, которая помогает Гуглу быстрее индексировать содержимое сайта. В том же 2006 Google покупает видеохостинг YouTube;

— в 2009 появляется Bing от Microsoft, который, как мы уже сказали, так и не смог составить серьезную конкуренцию Google;

— в 2009 Google захватывает львиную долю рынка поисковиков (около 70%), имея в индексе 8 млрд сайтов и до сих пор держится в лидерах;

— в 2010 году был представлен первый сырой вариант голосового Гугл поиска, нужно было нажать на специальный значок возле строки поиска на своем мобильном устройстве и произнести запрос. С 2014 года доступна возможность произносить запросы без прикосновения к экрану;

— в последующие годы поисковики развивали свои алгоритмы, а Google постепенно стал монополистом.

Популярность поисковиков зависит от стран, например, в Японии Yahoo! популярнее, чем Google, в Южной Корее в лидерах собственный поисковик Naver, в Китае популярны Baidu, Soso и Sogou. Google там тоже работает, но в очень урезанном варианте из-за знаменитого «китайского файерволла», то есть, цензуры. В России успехом пользуются 2 системы — Google и Яндекс.

У Яндекса есть даже свой браузер, где российский поисковик установлен по умолчанию. Есть и другие российские поисковики — Rambler и поиск Mail.ru, но они уступают Яндексу, да и назвать их самостоятельными поисковиками нельзя, так как они используют алгоритмы от Яндекса и Google.

Так как в СНГ Google и Яндекс — самые популярные поисковики, расскажем о них подробнее.


Как работает поисковая система Гугл

Основные принципы и особенности этой поисковой системы:

Как работают поисковые системы: принципы, алгоритмы, история развития

Гугл-поиск получает информацию из веб-страниц, мультимедийных файлов, отсканированных документов, открытых баз данных, контента, добавленного в Гугл Сервисы (например, Google Мой Бизнес и Google Карты) и других источников.

Как работают поисковые системы: принципы, алгоритмы, история развитияВесь процесс поиска и выдачи можно разделить на 3 основных этапа:

  1. Сканирование страниц и файлов. Сначала Гугл собирает информацию — ищет новые страницы и добавляет их в свою базу. Это делается при помощи специальных роботов — Googlebot. Таких роботов несколько — одни сканируют содержимое веб-страницы, другие индексируют картинки, третьи сканируют страницы и файлы для мобильной выдачи. Роботы умеют определять оригинальные страницы, дубликаты, канонические страницы и их копии.

Гугл может найти ссылку на ваш сайт на других сайтах, вы также можете запросить сканирование сайта вручную и при помощи карты Sitemap. Роботы сами определяют, какие сайты сканировать, какое количество страниц и как часто.

P.S. Если страница доступна по разным URL или есть похожий контент, например, для мобильной и десктоп версии, то поисковик объединяет повторяющиеся URL в группу, где есть главная страница (каноническая), которая индексируется чаще других и ее копии.

  1. Индексирование. Роботы обрабатывают содержимое каждой страницы — текст, медиафайлы, теги (title, description) атрибуты для картинок (title, alt). Можно скрыть страницу от индексирования при помощи тега «nofollow» или «noindex» либо прописав рекомендации в файле Robots.txt.

Чтобы ускорить индексацию сайта в Google, стоит добавить его в Google Search Console и Google Analytics.

P.S. В 2020 году Google Вебмастер переименован в Центр поиска Google.

  1. Выдача результатов в поиске. Алгоритмы (которые постоянно меняются и дорабатываются) выдают пользователю результаты, наиболее подходящие его запросам на основе информации, собранной ранее. На этот процесс влияют сотни факторов, например: поведенческие факторы, скорость загрузки страниц, оптимизация для мобильных устройств, уникальность контента, удобство навигации по сайту, местоположение, надежность сайта, дизайн.

Выдача предоставляется в виде страниц с ссылками на сайты, изображений, новостей, информационных блоков, видео.

Как работают поисковые системы: принципы, алгоритмы, история развития

Для корректной выдачи разрабатываются специальные алгоритмы. Бесполезно пытаться подстраивать свой сайт под каждый конкретный алгоритм, так как работа над ними, тестирование и эксперименты ведутся ежедневно (по словам разработчиков).

В основном алгоритмы отвечают за:

Анализ слов и выражений — определение значения слов, поиск при наличии орфографических ошибок в запросе, учет сленга. Также учитывается тип запроса (что именно ищет человек — обзор, новость или видео), актуальность информации.

Пример: ищем запрос по слову «Моргеншейн». Google автоматически определяет, что скорее всего, запрос написан с ошибкой, и что мы ищем информацию про рэпера Моргенштерна. Показывает исправленный вариант и выдает информацию по этому человеку — в первую очередь, видео, биографию и площадки, где доступна его музыка, а ниже уже статьи (так как Моргенштерн — исполнитель, скорее всего, пользователь ищет его музыку и песни, а также видео).

Как работают поисковые системы: принципы, алгоритмы, история развития

Подбор подходящих страниц — поняв, что именно ищет пользователь, алгоритмы собирают страницы, в которых содержится информация, соответствующая запросу.

Пример: спрашиваем у Google «Как сделать лежак для кота». Гугл определяет, что делать мы его собираемся своими руками и подбирает несколько видео инструкций из YouTube. Так как мы можем передумать, на всякий случай Гугл сразу показывает нам рекламу, где можно купить готовые лежанки.

Как работают поисковые системы: принципы, алгоритмы, история развития

Ниже поиск показывает статьи, например, «7 простых способов сделать лежанку своими руками», «Лежанка для кошки своими руками (70 фото)» и другие.

P.S. Получается, если Google может показать результат в виде ролика + добавить рекламу, то у них будут приоритетные позиции в поиске, но так бывает не всегда. Например, для запроса «Как зарегистрироваться в Инстаграм», Гугл сначала показывает текстовую информацию из справочного центра Фейсбук, а потом уже видео. Иногда результаты запроса вообще могут быть без видео.

Как работают поисковые системы: принципы, алгоритмы, история развития

Кстати, когда пользователь начинает вводить запрос, Гугл «догадывается» о том, какой это может быть запрос и предлагает полный вариант или похожие, и это сильно облегчает поиск, особенно тем людям, кто медленно печатает (например, родителям, бабушкам и дедушкам).

Как работают поисковые системы: принципы, алгоритмы, история развития

Кроме того, Гугл часто показывает похожие запросы среди результатов поиска. Пример по запросу «Как зарегистрироваться в Инстаграм».

Как работают поисковые системы: принципы, алгоритмы, история развития

Ранжирование релевантных страниц — страниц, подходящих запросу, могут быть тысячи и миллионы. Задача алгоритма на этом этапе — отобрать самые подходящие сайты.

P.S. На этом этапе задействован алгоритм расчета авторитетности PageRank (но это лишь один из факторов ранжирования). Он смотрит, какие авторитетные источники ссылаются на этот сайт, что является показателем того, что он полезный и интересный. Понимание того, как работает этот алгоритм породило рынок продажи ссылок, когда в ТОПе оказывались некачественные и даже мошеннические сайты, которые вовремя скупили кучу ссылок, ведь алгоритм считал, что чем больше ссылок, тем важнее и лучше сайт. Со временем, алгоритм был доработан и теперь простой скупкой ссылок сайт в ТОП не вывести, более того, Google научился распознавать такие действия, как спам и исключать из результатов поиска.

Как работают поисковые системы: принципы, алгоритмы, история развитияПоказ наиболее подходящих результатов — отобрав результаты на предыдущем этапе, алгоритмы выводят их в выдаче, распределяя по позициям (на первой странице, как правило, 10 ссылок).

Здесь также задействовано множество факторов, например, насколько корректно сайт отображается в разных браузерах и на мобильных устройствах. На многие из этих факторов могут повлиять вебмастера, поэтому Google старается предупреждать их об изменениях и создавать инструменты в помощь.

Например, в 2018 году был введен такой критерий, как скорость загрузки страниц, а для вебмастеров были созданы сервисы PageSpeed Insights и WebPagetest, где можно было узнать эту скорость и получить рекомендации по оптимизации сайта;

Учет сведений о пользователях — эти алгоритмы собирают данные о пользователях, что влияет на выдачу по запросам. Например, Гугл учитывает местоположение, настройки Гугл Поиска на конкретном устройстве, предыдущие запросы, переходы по ссылкам, история поиска, действия в других сервисах Гугл.

В основном все факторы, влияющие на ранжирование, можно условно разделить на 3 группы: внутренние (содержимое страниц сайта, внутренняя перелинковка, дизайн, юзабилити, полезность контента, скорость загрузки страниц), внешние (внешние ссылки, репосты в соцсети, переходы из внешних источников) и поведенческие (глубина просмотра, показатель отказов, общее время пребывания пользователя на сайте).

P.S. В мае 2020 года Google обновил основной поисковый алгоритм.


Как работает поисковая система Яндекс

Как работают поисковые системы: принципы, алгоритмы, история развития

Основные принципы и особенности:

Главный принцип работы такой же как у Google — сканирование, индексирование, выдача результатов. Но есть свои особенности. Так у Яндекса есть свой Вебмастер, куда нужно добавить сайт для индексации. Для продвижения сайта в СНГ предпочтительнее использовать именно Яндекс, так как он умеет распознавать словоформы с учетом морфологии русского языка. А также позволяет сузить поиск до конкретного региона (полезно для продвижения локального бизнеса).

Кроме русского Яндекс распознает украинский, белорусский, татарский, казахский, английский, немецкий, турецкий и французский языки.

Яндекс уступает Google в том, что на Android и iOS уже предустановлен поиск от Гугл, а российский поисковик надо скачивать отдельно, что делают далеко не все, поэтому больше Яндексом пользуются с компьютера.

Из явных минусов Яндекса — иногда складывается впечатление, что основную часть клиентов и посетителей Яндекс намеренно переводит на собственные сервисы вроде Яндекс.Дзена, Яндекс.Маркета, Яндекс.Новостей и других, создавая все больше сервисов и выделяя им все больше места в поиске.

Кроме веб-страниц Яндекс распознает картинки, PDF-документы, RSS блоги и форумы, файлы в форматах RTF, .doc, .xls, .ppt.

Как работают поисковые системы: принципы, алгоритмы, история развития

С 2007 года по 2021 разработчики Яндекса создали около 24 алгоритмов, вот лишь некоторые из них: «Версия 7» (первый алгоритм 2007 года), Магадан (2008 год, начал учитывать уникальность документов), Арзамас (начал учитывать регион пользователя), Снежинск (2009 год, одно из крупнейших изменений в алгоритмах, например, ужесточились требования к внутренней оптимизации, улучшилась выдача по ГЕО), Рейкьявик (2011 год, начал учитывать языковые предпочтения пользователей, этот алгоритм стал стартом развития персонализации выдачи), Минусинск (2015 год, начал понижать в выдаче сайты с избыточным количеством SEO-ссылок).

До 2016 алгоритмы не учитывали сути документа, а в основном опирались на стандартные факторы, такие как количество ключевиков, поведение пользователей, объем контента. В 2016 Яндекс анонсировал алгоритм «Палех», который ищет страницы не по ключевикам, а по смыслу.

В 2017 появился более совершенный алгоритм «Королев», который сопоставлял смысл запроса и страниц сайтов. Также в 2017 году появился нашумевший алгоритм Баден-Баден, который научился определять переоптимизированные тексты, что изменило подход к созданию контента для сайтов (вебмастера перевели внимание на качество текста, а не количество ключевиков).

В конце 2020 года Яндекс анонсировал новый алгоритм YATI с более совершенным поиском по смыслу (за счет применения нейросетей), который по заверению разработчиков, должен оказать рекордное повышение качества ранжирования за последние 10 лет.

Кроме алгоритмов ранжирования было создано около 25 антиспам фильтров, таких как фильтры за накрутку поведенческих факторов, за кликджекинг (размещение невидимых элементов на страницах, по которым пользователи кликают, не зная этого), за назойливую рекламу, за навязчивые оповещения, за отсутствие ценности на страницах.


Развитие и рынок поисковых систем

В рунете лидируют 2 поисковые системы — Google и Яндекс.

По состоянию на март 2021 года доля этих поисковиков распределилась следующим образом:

  1. Google — 59.6%
  2. Яндекс — 38.7%

За ними следуют Search.Mail.ru (1.5%), Rambler (0.1%) и Bing (0.1%).

Как работают поисковые системы: принципы, алгоритмы, история развития

В Европе лидирует Google (92.92%), за ним идет Bing (3.48%) и Яндекс (1.48%).

Как работают поисковые системы: принципы, алгоритмы, история развития

В США в лидерах Google (88.1%), Bing (6.16%) и Yahoo! (2.96%).

Как работают поисковые системы: принципы, алгоритмы, история развития

Сможет ли кто-то или что-то пошатнуть монополию Google?

Как работают поисковые системы: принципы, алгоритмы, история развитияВ 2020 году случилось сразу 2 серьезных неприятности для лидера поисковиков:

  1. В СМИ заговорили о том, что Apple может создать свою поисковую систему и стать прямым конкурентом. Пока это лишь разговоры, но технологические возможности у самой дорогой компании в мире точно есть.

Более того, в конце 2014 года в Apple уже рассматривали вариант прекращения сотрудничества с Google и могут вернуться к этому снова. Впрочем, Apple хорошо и с Google — только за использование своего поисковика на iOS, как установленного по умолчанию, Apple получает от Google 9 миллиардов долларов ежегодно.

2. Куда более серьезная угроза — иск к Google от Минюста США из-за монополии на рынке поисковиков и требование продать Chrome, а также часть рекламного бизнеса. Последний раз такая громкая история была в 1998 году, когда был подан аналогичный антимонопольный иск против компании Microsoft.

Такие судебные разбирательства могут длиться годами и пока сложно сказать, как именно это закончится для Google. Компании Microsoft пришлось выплачивать многомиллионные штрафы и пойти на условия суда, например, требование делиться своим API со сторонними разработчиками. То разбирательство повлияло на решение Билла Гейтса уйти из компании в 2000 году, он также заявил, что если бы не иски, Microsoft бы лидировал на рынке мобильный операционных систем, и все бы использовали Windows Mobile вместо iOS и Android. Посмотрим, чем закончится суд для Google.

  1. В мировом масштабе монополию может пошатнуть поисковик Дакдакгоу (DuckDuckGo), который позиционирует себя как конфиденциальная поисковая система (кстати, используется по умолчанию в браузерах Tor). Причина этому — большое количество скандалов, связанных с утечкой данных в американских сервисах (например, обвинения в адрес Facebook или взлом Gmail). Google периодически обвиняли в сливе данных и нарушении неприкосновенности частной жизни еще с 2005 года.
  2. В российском масштабе — закон о предустановке российского ПО на ввозимые в Россию смартфоны, планшеты, компьютеры и смарт-тв для продажи. Закон вступает в силу 1 апреля 2021 года.

Заключение

Как работают поисковые системы: принципы, алгоритмы, история развитияС 2009 и по наши дни поисковики стремительно развиваются и с завидной периодичностью меняют / улучшают алгоритмы поиска, чтобы в выдаче попадался контент, наиболее подходящий запросам пользователя.

Так если лет 10 назад можно было «скормить» поисковым роботам статьи, переоптимизированные ключевыми словами или закупиться ссылками и выбиться в ТОП поиска, то сейчас таким сайтам ничего не светит (вернее, светит попадание под фильтры).

Теперь поисковики учитывают поведенческие факторы (как одно из условий при ранжировании): сколько времени человек проводит на сайте, переходит ли на другие страницы, возвращается ли на сайт через время.

А также уникальность, юзабилити сайтов, качество внешних ссылок (а не их количество). Новые алгоритмы мотивируют вебмастеров создавать полезный контент, написанный понятным человеческим языком. Постоянная смена алгоритмов — головная боль для SEO-специалистов, но шаг навстречу обычным пользователям, которые хотят видеть качественные сайты с ответами на свои вопросы, а не полотна ключевиков.

До новых встреч!


0 комментарии
Что вы могли пропустить