Cree@rt Studio - полезно знать

Что такое Интернет и поисковики?

В раздел

Немного упрощенной информации о том, что такое поисковая система (поисковик) - эту информацию полезно иметь в виду при работе в сети - как при банальном поиске, так и при попытках продвижения сайта под какой-либо "поисковик". Что же такое поисковая система (поисковик)?

Поисковая система, поисковик — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Веб-интерфейс это обычно просто сайт. Пользователь вводит там в специальное окно свой поисковый запрос и получает результат поиска – выдачу (упорядоченный список ссылок, с окружающим текстом - сниппетом). Это так называемые релевантные страницы, которые удовлетворяли бы желаниям пользователя, то есть были ему полезны, то есть отвечали на его вопрос и давали полный ответ. Поисковые системы стремятся выводить в начале списка ссылок самые релевантные страницы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы. Обычно является коммерческой тайной компании-разработчика.

Большинство поисковых систем ищут информацию по всей сети Интернет либо по значительной её части. Это Google, Яндекс и т. д. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. Они могут отыскать файлы как текстового формата (например .html,.htm,.txt,.doc,.rtfи др.), так и графического (.gif, .png, .svg и др.) или мультимедийного (видео, звука и другой информации). Наиболее распространённым является поиск по текстовым документам. Поиск по изображениям, видео, звукам более сложен с технологической точки зрения и массово не реализован. Поисковики ищут не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. Исходной информацией для поиска является поисковый запрос. Поисковые машины выполняют: поиск ссылок, извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины, поиск по базе данных проиндексированных документов, ранжирование документов в соответствии с их релевантностью поисковым запросам .

Поисковый робот (паук, краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Но он ничего не выводит на экран. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста. Кроме обычных пауков, существуют роботы, которые периодически проверяют сайт - доступен ли он. Также имеются роботы с другими функциями. Порядок обхода страниц, частота визитов, защита от зацикливания, критерии определения релевантности информации определяются поисковыми алгоритмами. Ограничить индексацию сайта можно с помощью файла robots.txt, однако роботы могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму.

В Яндексе, например, есть несколько видов роботов, которые выполняют разные функции. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска. В помощь ему есть быстрый робот (быстробот) для оперативного индексирования свежей, актуальной на данный момент информации. У Яндекса есть еще несколько роботов, которые представляются по-разному:

User-agent для Яндекса: Yandex

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот, обращающийся к странице при добавлении ее через форму «Добавить URL»;
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией;
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;
Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;
Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей. Используется для проверки ссылок из новостных материалов;
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге;
Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода.
Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок. Используется для проверки доступности страниц, добавленных в закладки.
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок. Используется для проверки доступности страниц, определившихся в качестве быстрых ссылок.
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots)

Примерно так же обстоят дела с поисковыми роботами Google. Как они "представляются"?

User-agent для Гугла: Googlebot

Googlebot (Google Web search) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot News Googlebot-News
(Googlebot) Googlebot-News
Googlebot Images Googlebot-Image
(Googlebot) Googlebot-Image/1.0
Googlebot Video Googlebot-Video
(Googlebot) Googlebot-Video/1.0
Google Mobile Googlebot-Mobile (для мобильных устройств) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google Mobile AdSense Mediapartners-Google or Mediapartners (Googlebot) [various mobile device types] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google Mediapartners (Googlebot) Mediapartners-Google Google AdsBot landing page quality check AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)

IP-адресов, с которых «ходят» роботы и той и другой поисковой системы много, и они могут меняться. Различать и отследить посещения разных роботов Яндекса и Google можно по соответствующим записям в логах вашего сервера. Подробнее информацию об этом можно найти в разделах "помощь" обоих поисковых систем.



Далее

На правах рекламы

статьи и ссылки:          

Новости

21/05/2016
в Эмиратах дома уже печатают на принтерах

Далее...



21/08/2015
девушка для программиста

Далее...



10/08/2015
о новом виде интернет-мошенничества!

Далее...




ЧТО ТАКОЕ САЙТ И С ЧЕМ ЕГО ЕДЯТ...

Многие, даже полностью осознав необходимости создания сайта для своих нужд, всё еще плохо представляют себе, что это такое и на какие "подводные камни" им придётся натолкнуться...
Кратко и доступно мы постараемся объяснить: что такое сайт, зачем ему нужны домен и хостинг, обслуживание и администрирование, продвижение и развитие, анализ качества и статистики, способы монетизации и многое другое...

Далее

Дешевый хостинг


недорогой, многофункциональный,
современный, надежный, гибкий
хостинг с простым управлением.

Далее...


Главная | Сайты | Услуги | Новости | Литература | FAQ | Поиск | Контакты | Sitemap

Рейтинг@Mail.ru