Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Глобальная сеть Интернет в своем современном виде - явление относительно молодое. Ему не многим более 20 лет. Основой существования глобальной сети является протокол передачи данных HTTP и язык разметки гипертекста HTML, разработанные британским ученым Тимом Бернерсом Ли в конце 80-х лет прошлого столетия. Однако, с ростом объемов информации в глобальной сети очень быстро проявил себя ряд проблем.
Все эти проблемы связаны с тем, что HTML-разметка отвечает лишь за внешнее представление текста. То есть за то, каким образом текст разбит на абзацы и колонки, каков размер полей, какого цвета и размера шрифт и т.д.. Однако, HTML не несет никакой информации о смысле текста или, другими словами, о семантике текста. Поисковые системы, например, легко находили омонимы ключевых слов, но никогда не учитывали синонимы и названия одних и тех же объектов на разных языках. Это происходило именно потому, что поисковые системы не могли получить информацию о семантике искомых слов. Ведь знание об объекте одно, но оно может быть изложено на разных языках разными словами. С увеличением объемов информации в сети Интернет стало очевидно, что поиск требует существенной доработки человеком, так как часть ссылок, предоставленных поисковой системой, совершенно нерелевантны.
Выход из сложившегося положения предложил Тим Бернерс Ли в 1998 году. Его идея состояла в том, что кроме языка HTML нужен еще один структурированный язык. Но структурированию должен подлежать не внешний вид текста, а его семантика, то есть смысл. Тогда поисковые системы могли бы искать конкретные факты, а не слова.
В качестве математической основы для такого языка Тим Бернерс Ли предложил использовать дескрипционную логику и теорию графов. Кроме того, он ввел новые понятия - ресурс и унфицированный идентификатор ресурса (URI).
Ресурсом Тим Бернерс Ли предложил называть любой вид информации произвольного формата, о котором имеет смысл говорить как об отдельном объекте. Ресурсом, например, может быть аудиофайл, видеофайл, отдельная веб-страница или часть веб-страницы, почтовый ящик, служба. Ресурс однозначно идентифицируется при помощи URI.
URI - уникальная символьная строка, позволяющая идентифицировать ресурс однозначно.
Дескрипционная логика предлагает модель, которая позволяет записывать те факты, которые известны о ресурсах, при помощи простой схемы:
{Субъект, Предикат, Объект} (1)
Субъект и объект связаны отношением, которое выражается предикатом. Конструкция (1) называется триплетом.
Таким образом, идея Типа Бернерса Ли заключалась в том, что необходимо постепенно покрыть интернет-пространство гигантским графом - дополнительным семантическим слоем, в котором информация будет уже храниться в виде триплетов со ссылками на ресурсы
. Это позволит связать те факты и объекты, которые должны быть связаны, указать синонимы, соотнести названия на разных языках с единым объектом. Это позволит также использовать при поиске и анализе информации более мощные математические алгоритмы, так как информация будет представлена в строго формализованном виде. В результате поисковые системы, наконец, смогут учитывать семантику текстов. Этот семантический слой и получил впоследствии название Семантичекая паутина или Semantic Web.
На сегодняшний день принципы семантического хранения информации уже широко используются в сети Интернет, а также в корпоративных информационных системах [1,2]. Существует ряд проектов, направленных на увеличение «покрытия» Интернет-пространства семантическим графом [3,4].
Многоязыковый поиск в современных семантических проектах
Для того чтобы математическая модель получила практическую реализацию требовалось решить следующие задачи:
Разработать стандарты машинно-обрабатываемых языков для записи фактов-триплетов;
Построить при помощи этих языков базы знаний, где информация будет уже храниться не в формате html, а в структурированной форме.
Предложить стандарт языка запросов к базам знаний для возможности получения информации в соответствии с заданными критериями.
Для решения этих задач были предложены следующие стандарты языков, основанные на XML-формате:
RDF (Resource Description Framework);
RDFS (RDF-схема);
OWL (Web Ontology Language).
На сегодняшний день инициировано несколько online-проектов по созданию баз знаний на основе описанной модели. К таким проектам относятся:
DbPedia;
YaGO;
FreeBase;
OpenCyC;
Wikidata.
Существует два языка запросов к RDF-хранилищам данных:
SPARQL – более распространен и поддерживается большинством хранилищ;
MQL – менее известен и поддерживается только FreeBase.
Большинство онлайн-баз знаний до сих пор работают в основном с английским языком, что существенно сужает возможности семантического поиска. Например, база знаний FreeBase с 2012 года используется при поиске системой Google. Именно благодаря FreeBase c 2012 года при поиске в Google стали появляться информационные панели (рис.1).
Рис.1 – Пример информационной панели Google
В информационной панели автоматическим агентом собрана информация, связанная различными предикатами с объектом поиска. Это стало возможно исключительно благодаря наличию «семантического покрытия». Однако, далеко не вся информация, которая попадает в информационные панели на английском языке, может попасть туда при поиске на других языках [4].
Другим известным проектом в этой области является DBpedia. Dbpedia содержит структурированную базу знаний, состоящую из информации, которая хранится в Википедии
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.