Поиск веб-страниц

Опубликовал: Sunday, August 21, 2024 в категории Поисковые системы | Пока нет комментариев

Сначала поисковый механизм должен найти информацию, которую он хочет включить в свой индекс (помните, что компании Google действительно нужна эта информация, чтобы выполнить свою глобальную миссию). Каждый фрагмент информации в Интернете размещается на так называемой веб-странице, и ему присваивается уникальный интернет-адрес. Такой интернет-адрес точнее будет назвать URL-адресом (сокращение от англ. Uniform Resource Locator, букв. - Унифицированный указатель ресурса), то есть, проще говоря, это неизменное (унифицированный) средство поиска (указатель) страницы (ресурса). Пока страница с контентом доступна на сайте компании ВВС, соответствующий URL будет указывать на информацию по этому адресу. Однако пользователи работают с самой страницей и могут даже не заметить ее особого URL-адреса, который отображается в адресной строке интернет-браузера. При этом различие между тем, как пользователь воспринимает веб-страницу, и ее особым URL-адресом очень важно, поскольку работа поисковой системы Google строится только на URL, а не на самих веб-страницах, ведь URL и есть фактическое воплощение веб-страниц: они существуют в виде имеющих доступный адрес в Интернете ячеек с контентом.

Таким образом, когда Google охотится за информацией, чтобы добавить ее в свой индекс, она охотится на унифицированные указатели URL и находит их у большинства страниц в Интернете. В среднем каждая страница отсылает к десяти другим веб-страницам - это означает, что на каждом посещенном URL-адресе Google находит еще десять адресов для посещения. На большинстве сайтов основная часть URL-адресов ведет к следующим ячейкам того же самого сайта, который уже известен поисковой системе Google, но некоторые URL-адреса приведут ее на абсолютно незнакомые страницы и сайты, утоляя ненасытный аппетит Google к мировой информации.

Здесь важно осознать, что посещение сайта поисковой системой Google - это не то же самое, что его посещение пользователем (то есть человеком, просматривающим веб-страницу с помощью браузера: Internet Explorer, Mozilla Firefox или Google Chrome). Нет, Google не пользуется подобными браузерами, у нее собственная программа под названием Googlebot, и, как понятно по названию, это «бот» или робот, а не человек. Программа Googlebot не управляется человеком, она автоматически перемещается по веб-страницам и ссылкам, не нуждается во сне, и ей не приходится работать самой. У поисковой системы Google ошеломляющее количество таких программ-роботов. Однако, учитывая стремление компании Google структурировать мировую информацию, легко вообразить, сколько придется работать даже этим программам-роботам.

Во власти поисковой системы Google находится распределение трафика в Интернете, но далеко не всегда интернет-адреса идут навстречу ее погоне за URL-адресами. Даже сайты, которые действительно хотят заслужить «любовь» Google, ведут себя так, как будто не знают определенных фактов о работе Googlebot. Примером того, как многие сайты препятствуют работе Googlebot, является широко распространенный язык программирования JavaScript. JavaScript поддерживает работу интернет-браузеров, особенно когда дело касается интерактивных действий (например, перемещения по картам на Google Maps с помощью мыши или запуска видеоролика на портале YouTube), и его возможности по умолчанию заложены в браузерах. Проблема Googlebot заключается в том, что она не обладает возможностями языка JavaScript, которыми обладают браузеры, поэтому не выполняет на веб-сайте процессы, для выполнения которых нужен язык JavaScript. Эти особенности могут не показаться такой уж большой проблемой, если дело касается карт и видеороликов, но сценарии JavaScript часто применяются и там, где, для удобства программы Googlebot, применяться не должны. Самый простой пример - наличие на сайте навигационных кнопок, которые, когда вы по ним щелкаете, выполняют что-нибудь замысловатое (например, изменение цвета или воспроизведение анимации), прежде чем переместить вас на следующую страницу сайта. Для таких эффектов часто необходим сценарий JavaScript, и разработчик во время его написания забывает, что Googlebot не сможет сама перепрыгнуть через него и найти URL-адрес следующей страницы. Поэтому следующая страница будет недоступна для Googlebot, и ее контент не отобразится среди результатов поиска Google, насколько бы релевантными они ни были.

Написанные на языке JavaScript навигационные кнопки, не показывающие URL-адрес поисковой системе Google, являются одним из примеров того, как URL-адреса и контент становятся невидимыми для поисковой системы Google, поэтому один из аспектов проблемы доступности веб-сайтов для Googlebot - это аспект Визуальной доступности. Существует множество других способов, которыми веб-страницы делают свой контент недоступным для программы Googlebot, и мы подробно обсудим их.

Итак, отыскав те или иные страницы, программа Googlebot решает следующую задачу, пытаясь понять, о чем они.


Похожие посты:

Комментировать

Your email address will not be published. Required fields are marked *