Поиск информации в интернете

Автор работы: Пользователь скрыл имя, 13 Декабря 2015 в 21:08, курсовая работа

Описание работы

Цель работы – изучить работу поисковых систем
Задачи:
- разобрать основные понятия;
- изучить принцип работы поисковых машин;
- познакомиться с классификацией поисковых систем;
- сравнить основные поисковые системы;
- разобрать процедуру поисковой оптимизации сайтов.

Файлы: 1 файл

Poisk_informatsii_v_Internet.doc

— 486.00 Кб (Скачать файл)

 


 


ОГЛАВЛЕНИЕ

 

 

ВВЕДЕНИЕ

 

Найти нужную информацию в Интернете зачастую довольно трудно. Интернет развивается хаотично, в нем нет четко выделенной структуры. Никто не может гарантировать, что на одном домене будет только информация определенной тематики, а на другом - информация другой, но тоже четко определенной тематики. Например, на доменах .com можно найти не только коммерческую информацию, а, например, различную документацию по программным продуктам или даже анекдоты.

Первые поисковые системы появились в середине 90-х годов XX века и были похожи на обычный предметный указатель в книге: в базе поисковой системы хранились ключевые слова со страниц сотен сайтов, и поиск осуществлялся исключительно по ним. Позднее был разработан полнотекстовый поиск. Каждое слово и фраза фиксировались в индексе поисковой системы для каждой страницы сайта в отдельности. Это дало возможность поиска по любым словам и их сочетаниям1. 

Информационно-поисковые системы совершенствуются постоянно. Это обусловлено стремлением учесть особенности человеческого поведения, чтобы сделать выдачу для каждого посетителя уникальной. Теперь в механизмы обработки и поиска информации все чаще включаются технологии искусственного интеллекта, построенные на новейших вычислительных методах.

Актуальность работы может заключаться в том, что работа будет полезна студентам при первом знакомстве с данной темой, а так же при дальнейших исследованиях по этой тематике.

Объект исследования – поисковые системы. Предмет исследования -

Цель работы – изучить работу поисковых систем

Задачи:

- разобрать основные понятия;

- изучить принцип работы поисковых  машин;

- познакомиться с классификацией поисковых систем;

- сравнить основные поисковые системы;

- разобрать процедуру поисковой оптимизации сайтов.

По содержанию работа состоит из введения, трех разделов, заключения и списка использованных источников.

 

 

 

1 Поисковые машины

 

1.1 Принцип работы поисковой  машины

 

Главный элемент современного Интернета – это поисковые машины или поисковики, Yandex, Rambler, Google и прочие. В Интернете находится море различной информации, и именно поисковики помогают пользователю быстро найти необходимую информацию.

В учебниках или научных книгах есть список важных терминов – алфавитно-предметный указатель или индекс. В индексе перечислены наиболее важные термины данной книги (ключевые слова) и номера страниц на которых они встречаются.

Работа поисковиков основана на подобном принципе. По сути, когда пользователь вводит поисковой запрос (ключевое слово), он обращается к предметному указателю Интернета или индексу – списку всех ключевых слов Интернета, с указанием страниц, где они встречаются.

Поисковая машина – это программа, которая составляет и хранит предметный указатель Интернета (индекс), а также находит в нем заданные ключевые слова.

Этапы составления индекса и поиска по нему:

- В поисковую машину загружают первоначальный список адресов страниц сайтов. Затем поисковая машина, а точнее ее составная часть – поисковый робот, собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все, найденные в ссылках адреса, к своему первоначальному списку адресов. Таким образом, первоначальный список быстро увеличивается.

- Страница, на которую не ведет ни одна ссылка, не попадет в индекс поисковика никогда, поэтому если вы сделали новый сайт его необходимо зарегистрировать в поисковых системах, чтобы он попал в индекс.

- Поисковой робот  или паук обходит страницы, скачивает с них текстовый материал и хранит на дисках своих компьютеров, затем передает на индексирование индексному роботу.

- Для начала текст индексируемой страницы очищается от всяких нетекстовых элементов (графики, разметки языка HTML и пр.). Далее слова, выбранные из текста, приводятся к своим основам или именительному падежу. Собранные основы слов выстраивают в алфавитном порядке с указанием номера страницы, где взята основа, и номера вхождения, где стояла основа на данной странице.

- Когда пользователь вводит слово в строку запроса, поисковая машина обращается к индексу. Находит все номера страниц, относящиеся к заданному слову, и показывает пользователю результат поиска (список страниц).

Синонимом качества поиска считается его релевантность. В отношении поисковых машин слово релевантный ( относящийся к делу) – чуть ли не главный термин. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, которые относятся к смыслу поискового запроса. Релевантность или качество поиска – довольно сложная вещь.

Еще одним важным критерием  качества работы поисковика является точность. Точность – это мера качества выданных результатов, она вычисляется как количество релевантных страниц в общем объеме страниц, выданных в результатах поиска. Однако важна не только точность поиска, но и ранжирование результатов поиска.

Ранжирование – расположение результатов поиска по релевантности.

Невозможно сказать какая поисковая машина лучше. Для пользователя лучше поисковик, выдающий наиболее релевантные и точные результаты. Для владельца сайта хороша, та машина, в которой хорошо виден сайт и которая приводит наибольшее количество целевых посетителей2.

 

1.2 Классификация поисковых систем

 

В мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он не основывался, идеи и программы, реализующих поиск, достаточно просты. Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив человеку неограниченный и мгновенный доступ к информации. Первым чудом, очевидно, можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.

Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. Кроме появления фактора, невозможного в доинтернетовскую эру – фактора тотальной востребованности поисковых систем – стала очевидна еще пара изменений. Во-первых, стало ясно, что люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. И второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Мечты 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью.

Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Разнообразие алгоритмов не очень велико, но оно есть. Не считая квантовых компьютеров, которые обещают нам волшебный прорыв в «алгоритмической сложности» поиска, и про которые автору почти ничего не известно, есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым. 

Обычно для владельца сайта, если это не закрытая от посторонних корпоративная система, черезвычайно важно понимать принципы работы поисковых систем. При изучении работы поисковых систем целесообразно помнить, что все они в основном создаются для предоставления двух основных сервисов: первый - использование по прямому предназначению (поиск необходимой информации) и второй - применение поисковых систем для продвижения в сети. Для успешного применения той или иной системы необходимо ознакомиться с возможностями и классификацией поисковых систем.

Все поисковые системы условно можно разбить на три больших класса:

1) Поисковые машины (анг. - search engines). Иначе их еще называют программы - червяки и программы - пауки. Такие  программы ползают от одного сайта к другому методично индексируя содержимое. Все, что находит такой червь попадает в базу данных, куда любой пользователь может обратиться с запросом. Достоинство таких программ обширная база данных - практически вся сеть. Недостаток - это то, что в ответ на любой запрос вы получаете тысячи адресов веб-страниц.

2) Веб-каталоги или поисковые  порталы (directories). Информация в них  организуется в виде древовидной  структуры, обычно по тематическому  признаку и в соответствии  с рейтингом. Адреса и описания веб-сайтов заносятся в каталог по заявке. Записи редактируются вручную web-мастером, модератором. Во многие каталоги попасть трудно, некоторые эту услугу делают платной. стремление хозяев сайтов попасть в любой каталог (чем больше, тем лучше) вызвано желанием разместить свою ссылку на чужом сайте и следовательно повысить рейтинг в метапоисковых системах о чем будет сказано ниже. Если вы стремитесь увеличить количество посетителей на своем сайте, то выбирайте такой каталог в котором вас будет видно. Эффект от размещения ссылки в небольшом каталоге и при наличии интересного контента может оказаться довольно высоким, т.к. с таких сайтов посетители уходят в основном по какой-нибудь ссылке. Тем не менее регистрация в таких каталогах как Yahoo! и Open Directory желательна, т.к. их базы данных используются метапоисковыми системами при определении рейтинга.

3) Метапоисковые системы - это поисковые  системы у которых отсутствует  своя база данных с адресами  и описанием ресурсов. Они используют  базы данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен3.

 

1.3 Примеры поисковых систем

 

Поисковые машины.

AltaVista (вид сверху) - торговая марка популярной поисковой машины. Сегодня база данных AltaVista является самой крупной в Интернете. Помимо разветвленных средств поиска текстовой информации содержит такие инструменты, как Photo Finder - поиск изображений, технологию онлайнового перевода документов и возможность индексирования на нескольких языках. В сотрудничестве с компанией AskJeeves. AltaVista разработала базу данных, управляемую при помощи команд на поддерживаемых языках.

Excite - поисковая машина. Технология Excite лицензирована компанией Netscape Communications для использования на портале NetCenter, а также корпорацией America Online (с правом собственного дополнения БД). Имеет интеллектуальные алгоритмы поиска по технологии ICE (Intelligent Concept Extraction), которые позволяют работать не только с отдельными ключевыми словами, но и с объединяющими их понятиями. Если, допустим, вы введете словосочетание "система обучения", то поисковая машина просмотрит также страницы, содержащие слова "школа", "учебник" и т.д. Таким образом, Excite очень эффективна для поиска материалов по смежным понятиям.

Goto - компания начала свою деятельность с приобретения старой и довольно известной поисковой машины WWW Worm. Затем решено было подобрать ссылки на самые популярные темы поиска и даже расположить соответствующие ключевые слова на заглавной странице. Результаты поиска часто получаются такие же, что и в HotBot, Snap и Yahoo!, а иногда даже и лучше.

HotBot (Wired Digital) - с 1998 года поисковая машина принадлежит компании Lycos. Здесь используется оригинальная технология Inktomi, позволяющая совершать полноценный текстовый поиск по произвольному ключевому слову. Основные посетители ее поискового сервера - компьютерщики-профессионалы, которые используют HotBot для поиска необходимого программного обеспечения и данных, связанных с информационными технологиями. Однако компьютерной тематикой данная поисковая система, безусловно, не ограничивается. Постоянно ведется работа, направленная на дальнейшее ее развитие: пополняется база данных Inktomi, выпускаются новые версии алгоритмов.

InfoSeek - Поисковая машина которая когда-то входила в десятку лучших. В настоящее время она больше занимается электронной коммерцией. После создания в 1999 году совместного с компанией Walt Disney нового суперпортала под названием Go Network - этот сайт входит в первую десятку по посещаемости.

Northern Light - поисковая машина создавалась в целях увеличения информативности поиска в Интернете. Ее основная идея - контекстный поиск. Спайдер компании ежедневно индексирует тысячи сайтов, в число которых входят электронные издания, периодика, службы новостей, академические библиотеки и электронные архивы текстов. Еще одной особенностью поисковой машины Northern Light, выгодно отличающей ее других, является возможность сортирования полученной информации по адресам сайтов и тематикам. Желающие могут подписаться на всевозможные тематические подборки, например на материалы определенных рубрик из любимых газет и журналов, а затем в течение года получать специально подготовленную и отсортированную информацию. Проект Northern Light является одним из самых масштабных в Интернете.

Информация о работе Поиск информации в интернете