Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.
Актуальность темы. Поиск — один из непременных атрибутов нашей жизни. Процесс бесконечного поиска, путешествия по ссылкам с сайта на сайт — занятие весьма и весьма захватывающее. Такое развлечение имеет массу поклонников и даже получило свое собственное название — веб-серфинг.
Целью настоящей работы является знакомство с поисковыми система Интернета.
Задачи работы: рассмотреть понятие и сущность поисковой системы, ознакомиться с первыми поисковыми системами Интернета, дать характеристику основным популярным поисковым системам.
Предмет исследования: поисковая система как программно-аппаратный комплекс.
Объект исследования: современные поисковые системы интернета.
1.Проблемы и алгоритмы поиска информации в глобальных компьютерных сетях
По мере развития цифровой техники и расширения сфер ее использования роль нечисловых задач непрерывно увеливается. Особенно важное значение они приобретают в связи с исследованием и применением концепций искусственного интеллекта, таких, как представление и обработка знаний. Системы работающие с большими объема дли данных должны обеспечивать достаточную согласованность данных и реакцию в реальном масштабе времени. Возможность системы поддерживать одну или несколько моделей данных и иметь набор инструкций на машинном языке удовлетворяющих общим требованиям, предъявляемым в управлении база али данных. К этим требованиям относятся: определение и хранение данных, поиск, манипулирование и специальные функции.
Рассматривая развитие событий, в которых возникает множество проблем, связанных с разработкой, реализацией и эксплуатацией баз данных, которые серьезно изменят жизнь пользователя в течение ближайших десяти лет можно выделить ряд ключевых поправлений, среди которых, с одной стороны,
предоставление удаленных вычислительных мощностей, дискового пространства и каналов связи заказчику, с другой — бурное развитие интерфейса "человек-машина" и эволюция вычислительных систем, что позволит сократить количество сбоев в работе, а интерфейс станет значительно более интуитивным.
Важное место займет использование устройств, сохраняющих всю информацию, которую человек получает при жизни благодаря встроенным технологиям распознавания речи и видео. Такое устройство запомнит все за вас. Проблемы хранения больших объемов данных и их обработка требует разработки алгоритмов, позволяющих их использовать с максимальной эффективностью.
В глобальной сети Интернет существуют миллионы страниц содержащих материалы абсолютно любого содержание, и каждая из них может оказаться полезной. Важное место в этом процессе занимают поисковые интернет-машины.
По мере развития Интернета (увеличения пользователей и хост-компьютеров) количество информации росло в геометрической прогрессии. Найти что-то в сети, полагаясь только на интуицию стало невыполнимой задачей. Именно сильное увеличение информации послужило главной причиной возникновения поисковых интернет-машин.
Все мы знаем, что собой представляют поисковые интернет-машины в отношении взаимодействия с ними человека. Это специальные интернет-сайты, которые готовы предоставить всю доступную информацию в глобальной сети по нашему запросу. Устройство каждой такой машины различно, но есть несколько общих функций:
* поиск в интернете по заданным ключевым словам;
* индексация найденной информации и места ее расположения;
* допуск пользователей к проиндексированной информации для поиска необходимых слое или целых фраз.
С развитием технологий и доступности интернета количество обрабатываемых поисковыми машинами запросов возросло с тысячи до десятков миллионов в день (к примеру, по донным компании Соод1е, которая с 10 000 запросов в день в 1998 г. уже к концу 2000 г. достигла цифры в 100 млн. запросов, обрабатываемых ежедневно) по сравнению с первыми поисковиками. Давайте попробуем разобраться, как они помогают нам находить то, что нужно.
Важнейшими для Google-робота вещами на странице являются сами слова (текст, видимый пользователем в окне браузера после обработки страницы, в результате которой скрываются все служебные фразы, теги и команды) и их местоположение (в какой части body они находятся).
Для пользовательских запросов особо важными считались слова, расположенные в служебных разделах fide, subtitles, meta tags и др. (заголовки страниц мега-теги, используемые для указания описания страницы, ключевых слое и других данных, заголовки текстовых блоков). К примеру, если бы мы искали слово "Правда", то страница с заголовком "Правда жизни" была бы более подходящей, чем страница, у которой слово "Правда" встречалось только где-то внутри обычного текста. Google-паук индексировал каждое подобное слово, кроме междометий типа "а", "ап" и "the".
Все подходы и алгоритмы поисковых машин предназначены для того, чтобы роботы-пауки работали максимально быстро и эффективно
. К примеру, некоторые поисковые
роботы отслеживают при индексации слова в title, ссылках и до 100 наиболее часто используемых на странице слов и даже каждое из слов первых 20 строк текстового содержания страницы.
Другие поисковики индексуют каждое отдельное слово страницы, например "а," "an," “the" и другие неинформационные слова.
Мета-теш (Meta Tags) дают возможность владельцу web-страницы определять ключевые слова и понятия, определяющие её содержание. Такой инструмент очень полезен в случае, если ключевые слова повторяются в тесте по нескольку раз. Мета-теги помогают поисковому роботу выбрал» ключевые слова для индексации страницы.
Некоторые сайты используют мета-теги для раскрутки сайтов за счет популярных запросов, никак не связанных с содержимым их страниц Но поисковые роботы сейчас прекрасно с этим справляются путем анализа корреляции мега-тегов и содержимого страницы, отбрасывая мета-теги, не соответствующие тексту web-страницы.
Конечно, можно просто выводить слово и ссылку на адрес (запись в документе, указывающую на другую часть этого документа или на другой документ), где оно находится. Но из-за отсутствия информации о том, относится ли это слово к мега-тегам или к обычному тексту, часто ли оно повторяется и встречается ли в ссыпках на другие ресурсы, поисковик стал бы совершенно примитивным инструментом и не дал бы практически никакой полезной информации пользователям.
Помимо URL-адреса и информации из слова, поисковая машина может сохранять данные о количестве повторений слова в тексте страницы, присвоить слову определенны* "вес", что повлияет на результаты ранжирования по данному запросу.
Каждая коммерческая поисковая машина использует свою формулу для вычисления "веса" ключевых слов при индексации. Поэтому при вводе идентичных запросов разные поисковики выдают различные результаты.
Очень важно занимать минимальный объем памяти на д иске при хранении найденной информации, для этого ее кодируют. В Google для хранения весовых данных слов используется 2 байта, при этом учитывается вид слова, размер самих букв, и другая информация, влияющая на расположение сайта в листинге результатов. Каждый такой элемент информации требует 2-3 бита данных в полном 2-байтном наборе. В результате большой объем информации удается сохранять в очень компактном виде. После кодирования машина приступает к индексации.
Символьный поиск, то есть поиск исключительно на основе совпадения символов (букв и цифр) в словах, имеет сильный недостаток — он получает слова именно ток, как они были введены. Например, слово "Ключ" может означать как инструмент для открывания замка, так и пресноводный источник. Если вас интересует только одно значение слова, значит, результаты по остальным значениям вам будут не нужны. Было бы прекрасно, если бы поисковая машина могла сама отсеять лишние результаты, и вам не пришлось бы строить сложных буквенных запросов, чтобы избежать двойного значения.
Концептуальный поиск информации — алгоритм поиска информации в интернете, который предполагает использование не только так называемых "ключевых слое", но и слое и словосочетаний, связанных с донной тематикой (терминология, синонимия), то есть концепцией, — это одна из областей исследований в области алгоритмов будущих поисковых машин. Такие алгоритмы основаны на применении статистического анализа страниц содержащих поисковое ключевое слово.
2. Общие характеристики языка запросов поисковых систем
Такой "концептуальной поисковой машине", системе, которая будет реализовывать концептуальный поиск в сети Интернет, явно потребуется больше места для хранения донных о каждой странице и больше времени для обработки каждого запроса. Сейчас многие исследователи заняты этой проблемой.
Также интенсивно ведутся работы в области поисковых алгоритмов на основе запросов с использованием естественного языка (Natural-Language query — возможность ввести запрос в поисковой системе в виде обычного вопроса и получить на него исчерпывающий ответ).
Идея естественных запросов заключается в том, что вы можете не просто написать запрос, а скорее спросить систему, как вашего реального знакомого. Не нужно думать о булевых операторах и мучиться со сложным запросом Од ним из популярных на сегодня поисковых сайтов на основе языка естественных запросов является AslJeeves.com.
Он преобразует запрос в ключевые слова — слова в тексте, способные в совокупности представлять весь текст, которые затем использует при индексации сайтов. Правда, этот подход работает только в случае простых запросов. Но прогресс не стоит на месте, и вполне возможно, что скоро мы будем разговаривать с поисковыми машинами на человеческом языке.
Поисковых интернет-машин в глобальной сети порядочное множество, и все они отличаются друг от друга, используют разные алгоритмы поиска и индексирования, различаются по возможностям и предлагаемым сервисам Но у всех у них одна схожая проблема: они доступны вам только тогда, когда вы подключены к Интернету. Нет соединения — нет возможности поиска информации. Это становится большой проблемой, когда нужно срочно найти какую-то информацию без доступа в Интернет, и даже зная, где она находится, вы не в состоянии этого сделать.
Персональная автономная поисковая система (ПАПС), разрабатываемая нами, способна решить эту проблему максимально удобно и просто, предоставив при этом полноценный релевантный поиск информации на заданных вами порталах, сайтах и страницах.
Система делает возможным поиск информации и материалов в Интернете без постойного подключения к нему
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.