Поисковая система Яндекс

Автор работы: Пользователь скрыл имя, 16 Апреля 2016 в 14:15, реферат

Описание работы

История развития компании Яндекс пускает свои корни в теперь уже далекие 80-е годы, бытность СССР. Именно тогда впервые началась разработка программного обеспечения для поиска в компании «Аркадия». Работы велись под руководством Аркадия Борковского и Аркадия Воложа. Именно та первая поисковая технология получила название «Яndex». А сам сайт Яндекса, тот самый, который мы можем видеть сегодня, появился в 1996 году. Разработки, которые велись в то время, были признаны перспективными, вследствие чего руководством CompTek (продажа компьютеров и комплектующих) и разработчиками системы было принято решение о целесообразности дальнейшего развития технологии, и внедрения ее в массы. В связи с этим была подготовлена концепция развития проекта, ориентированная на широкую аудиторию.

Файлы: 1 файл

Реферат Поисковая система Яндекс.docx

— 629.43 Кб (Скачать файл)

Не менее важным событием стало внедрение нового метода машинного обучения – Матрикснет. Эта технология применяет в качестве оценки различные закономерности, и учитывает различные факторы ранжирования. Но главное, что технология самообучаема. При оценке асессоров происходит оценка только реальных закономерностей, полностью исключается нахождение несуществующих.

Революционность данной технологии заключается в том, что Матрикснет использует невероятно сложную формулу ранжирования, которая учитывает огромное количество факторов. Это, с одной стороны, позволяет добиться более качественной поисковой выдачи, а с другой стороны, не даст возможности вебмастерам понять эту закономерность, и, следовательно, воздействовать на нее в своих интересах.

2010 год

Старый офис на ул.Самокатной остался в прошлом, а вся компания переехала в новые хоромы. Собственно, это стало главным событием 2010 года

Что касается развития поисковика именно в рамках поиска, то в 2010 вовсю заработал домен yandex.com, yandex.by и татарская версия поиска.

Стоит также отметить, что значительно выросла доля пользователей Yandex на Украине, где тоже появился региональный поиск, получивший название «Полтава». Данная технология тоже была реализована посредством использования Матрикснет, которую до этого уже успешно обкатали на «Снежинске». Значительно вырос сервис Яндекс.Карты, у которого теперь появился серьезный инвестор, лоббирующий интересы – картографическая компания «ГИС Технологии».

2011 год

Наиболее выдающимся событием стал выход компании на высокотехнологичную биржу NASDAQ. Инвесторам это событие будет больше известно как IPO Yandex, т.е. первичное размещение акций. Обычно, для многих компаний подобный старт бывает не весьма удачным. Например, IPO Facebook прошло не так гладко, как планировалось. И это Facebook, один из лидеров мирового интернета, огромный агрегатор трафика.

Всего лишь за один час после начала торгов, цена на акции Яндекса выросла на 40% по сравнению с первоначальной ценой. В результате этого капитализация компании стала больше чем $11 млрд. В результате акционеры поисковика номер один получили от IPO $873,38 млн., а сама компания — $365.75 млн. Наибольшую активность проявили инвесторы из США и Европы. При этом, судя по всему, они ориентировались на долгосрочную перспективу.

Сегодня особенно выгодно инвестировать средства в акции высокотехнологичных компаний, тем более таких как Яндекс. И, тем более, что на фоне IPO других российских компаний, Яндекс смотрится очень весомо.

В результате первичного размещения акций на бирже NASDAQ Яndex занял второе место среди всех интернет-компаний, которые проводили подобные мероприятия когда-либо. Впереди остался только поисковый гигант Google, который смог выручить в 2004 году в результате IPO $1,67 млрд. Можно сказать, что это событие лишь закрепило статус Яндекса как лидера в российской доле интернета, а некогда маленькая компания выросла в огромную корпорацию, сохранив при этом такие всем нам уже ставшие привычными отличительные черты [2].

 

  1. Управление индексированием в поисковой системе Яндекс

 Разрешения и запрещения  на индексацию берутся из файла robots.txt. Яндекс поддерживает META тег robots, тег NOINDEX и нестандартное расширение robots.txt - директиву Host. Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из желания не индексировать одинаковые документы в разных кодировках. Чем меньше сервер, тем быстрее робот его обойдет. Поэтому желательно запретить в файле robots.txt все документы, которые не имеет смысла индексировать.

 Поисковая система  Яндекс поддерживает нестандартное расширение robots.txt - директиву Host. Аргументом директивы Host является доменное имя (одно корректное имя хоста, не являющееся IP-адресом) с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host).

 Это нестандартное  расширение позволяет помочь  поисковой системе выбрать правильное  зеркало для индексирования. Фактически, в директиве Host указывается основное зеркало для сайта, при этом индексация всех других зеркал запрещена.

 В целях совместимости  с роботами, которые не полностью  следуют стандарту robots.txt, директиву  Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.

 Поисковая система  Яндекс анализирует и следует указанию META тег robots. Для запрета индексации определенных частей текста им можно пометить тегами.

 

  1. Добавление страниц в поисковой системе Яндекс

 Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL.

 Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке, или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета (это обычно делается письмом на addurl@yandex.ru).

 Обычно страницы появляются  в поисковой базе в течение  недели после их появления  или изменения. Новые страницы, внесенные  в базу с помощью AddURL, появятся быстрее (если они находятся в русскоязычной части сети и не требуют ручной проверки).

 Поисковая система  Яндекс - полнотекстовая, то есть в ее индекс попадают (и становятся доступными для поиска) только те слова, которые написаны на страницах сайтов.

 В списке результатов  поиска после адреса страницы  выводится текст, который состоит  из заголовка (тэг title), описания (тэг meta name="Description" content="") или начала документа (если этого тэга нет) и контекстов - фрагментов текста старницы, содержащих слова запроса.

 

  1. Индексация в поисковой системе Яндекс

 Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы, содержание которых заносится в индекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

 Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование.

 Как требует стандарт  протокола HTTP, Яндекс, получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), добавит в список адресов для обхода URL, на который ведет редирект. Если редирект был постоянный (код 301), либо на странице встретилась директива meta-refresh, то старый URL будет исключен из списка обхода.

 Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.

 Изменения уже проиндексированных  страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его невозможно.

 Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

 Робот Яндекса обходит "динамические" страницы и относится к ним в точности так же, как и к "статическим". Поисковый робот Яндекс кроме стандартного HTML, индексирует: PDF, DOC, RTF и Flash форматы файлов.

Дубликат - это один и тот же текст, под десятком разных адресов, зависящих, например, от способа навигации по сайту. Сайты с большим числом дубликатов время от времени подвергаются безжалостной чистке.

 

  1. Зеркала сайтов

Зеркало - частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса.

 Большое количество  зеркал засоряет базы данных  поисковых систем и приводит  к появлению дубликатов в результатах  поиска. Поэтому, когда робот Яндекса обнаруживает несколько зеркал сайта, он выбирает одно из них в качестве основного, остальные из индекса удаляются. По умолчанию, робот выбирает в основное зеркало исходя из собственных соображений. И обычно не то, какое хотел бы видеть владелец ресурса.

 Можно принять ряд  мер, позволяющих выбрать необходимый  сайт в качестве основного  зеркала.

 Во-первых, можно удалить  неосновные зеркала сайта.

 Во-вторых, на всех  зеркалах, кроме того, которое надо  выбрать основным, разместить файл robots.txt, полностью запрещающий индексацию сайта. Либо выложить на зеркалах robots.txt с директивой Host.

 В-третьих, разместить  на главных страницах неосновных  зеркал тег , запрещающий их индексацию и обход по ссылкам.

 В-четвертых, изменить  код главных страниц на неосновных  зеркалах так, чтобы все (или почти  все) ссылки с них вглубь сайта  были абсолютными и вели на  основное зеркало.

 В случае реализации  одного из вышеперечисленных  советов основное зеркало будет  автоматически изменено по мере  обхода поискового робота Яндекс.

 

  1. Методики работы поисковой системы Яндекс

 Поисковая система  Яндекс содержит в своем индексе о каждом слове текста номер документа,предложения, слова в предложении и вес каждого слова. Поисковый робот Яндекс индексирует страницы и на основании информации на них формирует поисковый индекс.

 Вся эта информация  используется при поиске. При  каждом запросе ищутся (и получают  более высокий ранг) фразы, точно  совпадающие с запросом, затем  предложения, содержащие все слова  запроса, и т.д. Важную роль играет  относительное положение слов. Так, например, если запрос из четырех  слов не имеет точного ответа  в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по "неточному цитированию" [4].

 

  1. Поисковая система Яндекс ру – результаты ответа

Когда Метапоиск подготовил ответ, поисковая система Яндекс должна выдать его на странице с результатами. Она представляет собой перечень ссылок на найденные документы с небольшой информацией по каждому. Задача технологии выдачи результатов – максимально информативно предоставить пользователю самые релевантные ответы.  Шаблон одной такой ссылки выглядит следующим образом:

Рассмотрим эту форму результата поподробней. Для заголовка результата поиска Яндекс часто использует название заголовка страницы (то, что оптимизаторы прописывают в теге title). Если же его нет, то здесь появляются слова из названия статьи или поста. Если текст заголовка большой, поисковая система ставит в это поле его фрагмент, который больше всего релевантен к заданному запросу.

Очень редко, но бывает так, что заголовок не соответствует содержанию запроса. В таком случае Яндекс формирует свой заголовок результата поиска, используя текст в статье или посте. Он обязательно будет иметь слова запроса.

Для сниппета поисковая система использует весь текст на странице. Она выбирает все фрагменты, где присутствует ответ на запрос, а потом выбирает самый релевантный из них и вставляет в поле формы ссылки на документ. Благодаря такому подходу, грамотный оптимизатор может после увиденного сниппета его переделать, тем самым улучшив привлекательность ссылки.

Для лучшего восприятия результата на запрос пользователя, заголовки оформляются как ссылки в тексте (выделение синим цветом с подчеркиванием). Для привлекательности веб-ресурса и его узнаваемости добавляется фавикон – маленький фирменный значок сайта. Он появляется слева от текста в первой строке перед заголовком. Все слова, которые входили в запрос в ответе тоже выделены жирным шрифтом для удобства восприятия.

 В последнее время  в сниппет поисковая система Яндекса добавляет различную информацию, которая поможет пользователю еще быстрее и точнее найти свой ответ. К примеру, если пользователь в своем запросе пишет название какой-либо организации, то в сниппете Яндекс добавит адрес ее, контактные телефоны и ссылку на месторасположение в географических картах. Если поисковой системе знакома структура сайта, в котором есть документ с ответом для пользователя, он ее обязательно покажет. Плюс к этому Яндекс тут же может добавить в сниппет наиболее посещаемые страницы такого веб-ресурса, чтобы при желании посетитель смог сразу перейти в нужный ему раздел, экономя свое время.

Есть сниппеты, которые содержат в себе цену какого-либо товара для интернет-магазина, рейтинг отеля или ресторана в виде звездочек, другая интересная информация с различными цифрами о объектах в документах поиска. Задача такой информации – дать полный перечень данных о тех предметах или объектах, которые интересны пользователю [3].

В целом уже с различными примерами страница с ответами будет выглядеть так:

 

 

  1. Поисковые подсказки Яндекс

Поиск для сайта, как и основной поиск Яндекса, содержит поисковые подсказки — они ускоряют ввод запроса. Ещё до того, как посетитель сайта наберёт запрос полностью, он сможет перейти к нужному варианту. Так получается гораздо быстрее.

Информация о работе Поисковая система Яндекс