Информационно-поисковые системы
|
|
Алексей | Дата: Четверг, 11.06.2015, 21:35 | Сообщение # 1 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| Содержание: Введение 2 1. История развития поисковых систем 3 2. Понятие информационно-поисковых систем 3 3. Основные характеристики 4 4. Структура работы 5 5. Наиболее популярные поисковые системы 6 5.1. В мире 6 5.2. В России 7 Заключение 8 Список литературы 9
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:35 | Сообщение # 2 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| Одним из наиболее ярких явлений информационного общества является возникновение и развития глобальной компьютерной сети - интернет. С развитием сети интернет проблема поиска информации в этой огромной сети становилась более актуальной. Интернет – всемирная система объединённых компьютерных сетей, представляющая единую информационную среду и позволяющая получить информацию в любое время в любом месте. Не указывая конкретных цифр, можно сказать, что нужную информацию в интернете уже не представляется возможным получить сразу, так как в сети сейчас находятся огромное количество документов и все они в распоряжении пользователей интернет, к кому же каждый день их количество увеличивается. Количество изменений информации, расположенной в интернете, колоссально. В интернете хранится много полезной информации, но для ее поиска необходимо затрачивать много времени. Именно эта проблема послужила причиной для создания поисковых машин.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:36 | Сообщение # 3 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| 1. История развития поисковых систем Когда интернет только начинал свое развитие, объем информации в нем был небольшой, а количество пользователей – маленькое. В основном доступ к сети интернет имели сотрудники различных университетов и лабораторий, то есть интернет использовался чаще всего в целях научной деятельности. В это время задача поиска информации в интернете была далеко не столько актуальной, как в настоящее время. До того как поисковые системы были созданы, организацией доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались по разделам согласно тематике, такие каталоги существуют и в настоящее время. Первым каталогом сайтов был Yahoo!, который был открыт в 1994 году. Когда число сайтов в каталоге Yahoo! стало слишком большим и искать необходимый ресурс в таком объеме сайтов стало неудобно, была добавлена возможность поиска информации по каталогу. Но это не было еще поисковой системой, так как область поиска ограничивалась ресурсами, находившимися в каталоге, а не всеми ресурсами сети интернет. Широко используемые ранее каталоги в настоящее время утратили свою популярность. Причина заключается в том, что каталоги сайтов содержат лишь малую часть ресурсов сети интернет. Самые большие каталоги в мире могут содержать информацию о нескольких миллионах ресурсах, а, например, база поисковой системы Google содержит более чем 8 миллиардов документов. В 1994 году был создан проект WebCrawler, ставший первой полноценной поисковой системой. В 1995 году появилась поисковая система Lycos. В 1995 году появилась поисковая система AltaVista, которая долгие годы была лидером в области поиска информации в интернете. В 1998 году Сергей Брин и Ларри Пейдж создали поисковую систему Google, которая является наиболее популярной поисковой системой в мире. В 1997 году 23 сентября на выставке Softool была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:36 | Сообщение # 4 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| 2. Понятие информационно-поисковых систем Поисковая система – это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы, которая является поисковым запросом, выдачей списка ссылок на источники информации. Наиболее крупные международные поисковые системы: Google, Yahoo! и MSN. В русском интернете – Яндекс, Рамблер, Маил. Поисковая система состоит из следующих основных компонентов: Паук - это программа, скачивающая веб-страницы тем же способом, что и браузер пользователя. Отличие в том, что браузер отображает информацию, содержащуюся на странице, а паук не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы. Краулер – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача – определить, куда дальше должен следовать паук, основываясь на ссылках. Краулер, исследуя найденные ссылки, осуществляет поиск новых документов, которые еще неизвестны поисковой системе. Индексатор – программа, анализирующая веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда ее называют индексом поисковой системы. Система выдачи результатов – извлекает результаты поиска из базы данных. Система выдачи результатов занимается процессом ранжирования страниц. Она решает, какие страницы удовлетворяют запросу пользователя и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Веб-сервер – осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы, то есть это html-страница с полем ввода, в котором пользователь задает интересующий его запрос, а также веб-сервер отвечает за выдачу результатов пользователю в виде html-страницы. Детали поисковых механизмов могут отличаться друг от друга, например, паук, краулер и индексатор могут быть выполнены в виде одной программы, которая скачивает веб-страницы, анализирует их содержимое и ищет новые ресурсы.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:36 | Сообщение # 5 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| 3. Основные характеристики поисковых систем. Полнота – отношение количества найденных по запросу документов к общему числу документов в сети интернет, удовлетворяющих данному запросу. Например, если в интернете имеется 1000 страниц, содержащих словосочетание «Где лучше купить квартиру», а по запросу «Где лучше купить квартиру» найдено всего 540 из них, то полнота поиска будет составлять 54%. Выходит, чем полнее поиск, тем больше вероятность того, что пользователь найдет нужный ему документ, при условии, что он вообще существует в интернете. Скорость поиска. Скорость поиска тесно связана с устойчивостью поисковой системы к нагрузкам. Поисковая система должна обрабатывать до нескольких сотен, а то и тысячи запросов в секунду. В данной характеристике интересы пользователя и поисковой системы совпадают, то есть пользователь желает получить результаты как можно быстрее, а поисковая машина должна обрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов. Точность – определяется степенью соответствия найденных документов запросу пользователя. Например, вводится поисковый запрос «Где лучше купить квартиру» и тут же поисковая система выдает около 1000 страниц различных ресурсов, среди них 600 будет соответствовать запросу, то есть содержат фразу (запрос) целиком, а остальные просто содержат слова из запроса, например, «Где лучше купить обои и как правильно оклеивать квартиру». В данном примере точность поиска составляет 54%. Актуальность – характеризуется временем, проходящим с момента публикации документов в сети интернет, до занесения их в индексную базу поисковой системы. Например, в интернете появилась какая-то интересная новость и на следующий день большое число пользователей нашли ее с помощью поисковых систем. С момента публикации новости в сети прошло менее суток, а основные документы уже были проиндексированы и доступны для поиска, потому что у некоторых крупных поисковых систем есть так называемая «быстрая база», которая обновляется по нескольку раз в день. Наглядность. Наглядность представления результатов – это важный компонент для удобного поиска. По большинству запросов поисковая машина находит тысячи, а то и больше документов. Из-за нечеткости составления запросов или неточности поиска даже первые страницы выдачи не всегда содержат только нужную информацию.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:36 | Сообщение # 6 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| 4. Структура работы Работа поискового процесса происходит в три этапа. Два первых этапа происходят еще до того как пользователь отправил поисковый запрос. На первом этапе поисковый указатель собирает информацию из интернета. Для этого используют специальные программы. Они копируют Web-страницу на сервер поискового указателя, просматривают ее, находят все гиперссылки и ресурсы, имеющееся на странице. Подобные программы называют червяками, пауками, краулерами, спайдерами. За одно погружение паук способен прочесать все пространство интернета, но для этого нужно очень много времени, а еще ему необходимо периодически возвращаться к посещенным ранее ресурсам, чтобы контролировать происходящие там изменения и находить «мертвые ссылки». После того, как все разысканные Web-ресурсы были скопированы на сервер поисковой системы, начинается второй этап работы, называемый индексация. Во время работы индексации создаются специальные базы данных, по которым можно установить, где и когда в Интернете встречалось слово или фраза. Индексированная база данных — это что-то вроде словаря. Она нужна для того, чтобы поисковая система могла быстро отвечать на запросы пользователей. Если индексы не будут подготовлены заранее, то обработка одного поискового запроса будет продолжаться часами. На третьем этапе происходит обработка запроса пользователя и выдача ему результатов поиска. Например, пользователь хочет узнать, где в интернете имеются Web-страницы, на которых есть информация о «Билле Гейтсе». Он вводит слово «Гейтс» либо фразу «Билл Гейтс» в поле набора поискового запроса и нажимает кнопку найти. Поисковая система в доли секунды разыскивает по базам индексов подходящие Web-ресурсы и формирует страницу результатов поиска. Далее пользователь может пользоваться этими ссылками для перехода к интересующим его ресурсам.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:37 | Сообщение # 7 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| 5. Наиболее популярные поисковые системы. 5.1. В мире. Google. Сергей Брин и Ларри Пейдж, окончившие Стэнфорд, совместно создали поисковый механизм под названием BackRub. Более года система BackRub работала на серверах Стэнфорда, и в конечном итоге ее трафик превысил пропускную способность сетей университета. Разработчики пришли к мнению, что поисковой системе BackRub требуется новое название. После долгих размышлений они остановились на слове Google. В нем обыгрывается математический термин «гугол» (googol), обозначающий число десять в сотой степени, то есть единицу со ста нулями. В 1998 они основали компанию, которая сегодня известна всему миру под названием Google. Googlebot является основным поисковым роботом, сканирующим содержание страницы для поискового индекса. Кроме основного робота Google имеет еще специализированных роботов: • Googlebot-Mobile — робот, индексирующий сайты для мобильных устройств, • Googlebot-Image — робот, сканирующий страницы для индекса картинок, • Mediapartners-Google — робот, сканирующий контент страницы для определения содержания AdSense, • Adsbot-Google — робот, сканирующий контент для оценки качества целевых страниц AdWords. Yahoo!. В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фили, готовясь к защите диссертации в области компьютерного проектирования интегральных схем, проводили много времени в интернете в поисках нужной информации и копили ссылки, собирая тем самым базу данных. Когда ссылок стало много, они отсортировали их по категориям, а потом уже создали подкатегории. При регистрации торговой марки Yahoo! возникли небольшие трудности, так как она использовалась производителем соуса. Вот отсюда и появился восклицательный знак. Сегодня Yahoo! это не просто база данных, которой она была изначально, это полноценная поисковая система. MSN. У поисковой системы МSN не было собственного паука или каталога. С 1997 года система MSN для выдачи результатов поиска использовала разные базы данных других поисковых систем и каталогов. Сейчас MSN одна из самых популярных поисковых систем в мире. Именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer вводят в адресную строку поисковый запрос. Эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности. Поисковая система MSN локализована примерно для 30 стран.
5.2. В России. Yandex. Официально поисковая машина Yandex была анонсирована 23 сентября 1997 года на выставке Softool. Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex сейчас — 2,7 слова, а в 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю. В 1998 году на Yandex появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год объем Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас скорость поиска на Yandex — доли секунды. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов интернета. На сегодняшний день Яндекс — одна из крупнейших российских поисковых систем. Rambler. В 1991 году в подмосковном городе Пущино сформировалась группа единомышленников, вдохновленных только что появившейся коммуникационной средой Интернет. Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов — именно эти технически подкованные, творческие и смелые люди с активной жизненной позицией и стремлением к новому стали основателями «Рамблера». Компания «Стек» во главе с Сергеем Лысаковым занялась локальными сетями и подключением к Интернету. Нормальный, оперативный и эффективный обмен данными был необходим для реализации научных целей. В 1992 году компания запустила собственные ftp- и mail-серверы. Через два года — свой первый www-сервер. В 1996 году Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую русскую поисковую систему для Интернета. Программист Дмитрий Крюков начал с того, что придумал проекту название. Он открыл англо-русский словарь, и взгляд его упал на Rambler. Дмитрию понравилось значение слова «скиталец, странник, бродяга». Через несколько месяцев, к осени 1996 года, был готов окончательный вариант поисковика. 26 сентября был зарегистрирован домен rambler.ru, а 8 октября «Стек» активизировал систему.
Получается, что любая поисковая машина должна отвечать следующим требованиям: • Простота и понятность в использовании. • Наличие актуальной информации. • Полнота поиска • Быстрый поиск в базе данных и быстрое реагирование на запросы пользователей. • Точность результатов поиска. Количество информационных ресурсов постоянно растет, и поисковые системы интернета, пожалуй, являются самым эффективным способом поиска необходимой информации. Развивая себя, поисковые системы развивают все остальные ресурсы интернета, ведь нахождение на первых местах поиска интернет ресурсу всегда выгодно, а для этого на нем всегда должна быть самая актуальная информация, тем самым поисковые системы совершенствуют качество самого интернета. Существует ли какая-нибудь альтернатива для поисковых систем? На этот вопрос, наверное, нельзя ответить с уверенностью, ведь интернет и технологии постоянно развиваются. Возможно, человеку удастся создать нечто новое то, что может заменить поисковые системы. Разумеется, поисковые системы не могут находиться в том виде, в котором они находятся сейчас и не развиваться, так как интернет и технологии постоянно развиваются и надо подстраиваться под нововведения и отставание от этого может отрицательно отразиться на поисковых системах. Именно поэтому происходит постоянное развитие и совершенствование поисковых систем, а вместе с ними и других ресурсов интернета.
|
|
| |
Алексей | Дата: Четверг, 11.06.2015, 21:37 | Сообщение # 8 |
Продвигающийся
Группа: Администраторы
Сообщений: 324
Статус: Оффлайн
| Список литературы: • http://ru.wikipedia.org/wiki/Поисковые_системы - Поисковые системы • Павел Храмцов. Поиск и навигация в Интернете. • Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002. — 368 с., ил. • Талантов М. Поиск информации в Интернете: подводные камни. КомпьютерПресс 1999год. • http://company.yandex.ru/about/history - История Яндекса • http://www.google.ru/about/corporate/company - История Google • http://www.rambler.ru/doc/history.shtml - История компании Rambler • Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Rambler // Радиолюбитель. Ваш компьютер. - № 8-10, 1999. • Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Yandex // Радиолюбитель. Ваш компьютер. - № 1-3, 2000.
|
|
| |