Логотип Автор24реферат
Задать вопрос
Реферат на тему: Анализ современного состояния исследований по семантическим информационным технологиям
100%
Уникальность
Аа
10695 символов
Категория
Информационные технологии
Реферат

Анализ современного состояния исследований по семантическим информационным технологиям

Анализ современного состояния исследований по семантическим информационным технологиям .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод Эмоджи на новый заказ в Автор24. Это бесплатно.

Введение
Глобальная сеть Интернет в своем современном виде - явление относительно молодое. Ему не многим более 20 лет. Основой существования глобальной сети является протокол передачи данных HTTP и язык разметки гипертекста HTML, разработанные британским ученым Тимом Бернерсом Ли в конце 80-х лет прошлого столетия. Однако, с ростом объемов информации в глобальной сети очень быстро проявил себя ряд проблем.
Все эти проблемы связаны с тем, что HTML-разметка отвечает лишь за внешнее представление текста. То есть за то, каким образом текст разбит на абзацы и колонки, каков размер полей, какого цвета и размера шрифт и т.д.. Однако, HTML не несет никакой информации о смысле текста или, другими словами, о семантике текста. Поисковые системы, например, легко находили омонимы ключевых слов, но никогда не учитывали синонимы и названия одних и тех же объектов на разных языках. Это происходило именно потому, что поисковые системы не могли получить информацию о семантике искомых слов. Ведь знание об объекте одно, но оно может быть изложено на разных языках разными словами. С увеличением объемов информации в сети Интернет стало очевидно, что поиск требует существенной доработки человеком, так как часть ссылок, предоставленных поисковой системой, совершенно нерелевантны.
Выход из сложившегося положения предложил Тим Бернерс Ли в 1998 году. Его идея состояла в том, что кроме языка HTML нужен еще один структурированный язык. Но структурированию должен подлежать не внешний вид текста, а его семантика, то есть смысл. Тогда поисковые системы могли бы искать конкретные факты, а не слова.
В качестве математической основы для такого языка Тим Бернерс Ли предложил использовать дескрипционную логику и теорию графов. Кроме того, он ввел новые понятия - ресурс и унфицированный идентификатор ресурса (URI).
Ресурсом Тим Бернерс Ли предложил называть любой вид информации произвольного формата, о котором имеет смысл говорить как об отдельном объекте. Ресурсом, например, может быть аудиофайл, видеофайл, отдельная веб-страница или часть веб-страницы, почтовый ящик, служба. Ресурс однозначно идентифицируется при помощи URI.
URI - уникальная символьная строка, позволяющая идентифицировать ресурс однозначно.
Дескрипционная логика предлагает модель, которая позволяет записывать те факты, которые известны о ресурсах, при помощи простой схемы:
{Субъект, Предикат, Объект} (1)
Субъект и объект связаны отношением, которое выражается предикатом. Конструкция (1) называется триплетом.
Таким образом, идея Типа Бернерса Ли заключалась в том, что необходимо постепенно покрыть интернет-пространство гигантским графом - дополнительным семантическим слоем, в котором информация будет уже храниться в виде триплетов со ссылками на ресурсы

Зарегистрируйся, чтобы продолжить изучение работы

. Это позволит связать те факты и объекты, которые должны быть связаны, указать синонимы, соотнести названия на разных языках с единым объектом. Это позволит также использовать при поиске и анализе информации более мощные математические алгоритмы, так как информация будет представлена в строго формализованном виде. В результате поисковые системы, наконец, смогут учитывать семантику текстов. Этот семантический слой и получил впоследствии название Семантичекая паутина или Semantic Web.
На сегодняшний день принципы семантического хранения информации уже широко используются в сети Интернет, а также в корпоративных информационных системах [1,2]. Существует ряд проектов, направленных на увеличение «покрытия» Интернет-пространства семантическим графом [3,4].
Многоязыковый поиск в современных семантических проектах
Для того чтобы математическая модель получила практическую реализацию требовалось решить следующие задачи:
Разработать стандарты машинно-обрабатываемых языков для записи фактов-триплетов;
Построить при помощи этих языков базы знаний, где информация будет уже храниться не в формате html, а в структурированной форме.
Предложить стандарт языка запросов к базам знаний для возможности получения информации в соответствии с заданными критериями.
Для решения этих задач были предложены следующие стандарты языков, основанные на XML-формате:
RDF (Resource Description Framework);
RDFS (RDF-схема);
OWL (Web Ontology Language).
На сегодняшний день инициировано несколько online-проектов по созданию баз знаний на основе описанной модели. К таким проектам относятся:
DbPedia;
YaGO;
FreeBase;
OpenCyC;
Wikidata.
Существует два языка запросов к RDF-хранилищам данных:
SPARQL – более распространен и поддерживается большинством хранилищ;
MQL – менее известен и поддерживается только FreeBase.
Большинство онлайн-баз знаний до сих пор работают в основном с английским языком, что существенно сужает возможности семантического поиска. Например, база знаний FreeBase с 2012 года используется при поиске системой Google. Именно благодаря FreeBase c 2012 года при поиске в Google стали появляться информационные панели (рис.1).

Рис.1 – Пример информационной панели Google
В информационной панели автоматическим агентом собрана информация, связанная различными предикатами с объектом поиска. Это стало возможно исключительно благодаря наличию «семантического покрытия». Однако, далеко не вся информация, которая попадает в информационные панели на английском языке, может попасть туда при поиске на других языках [4].
Другим известным проектом в этой области является DBpedia. Dbpedia содержит структурированную базу знаний, состоящую из информации, которая хранится в Википедии

50% реферата недоступно для прочтения

Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!

Промокод действует 7 дней 🔥

Магазин работ

Посмотреть все
Посмотреть все
Больше рефератов по информационным технологиям:

Информационные технологии в информационно-документационном обеспечении управления проектами

17256 символов
Информационные технологии
Реферат
Уникальность

Защита программных кодов

28361 символов
Информационные технологии
Реферат
Уникальность

Понятие об информации как ресурсе развития организации.

20689 символов
Информационные технологии
Реферат
Уникальность
Все Рефераты по информационным технологиям
Получи помощь с рефератом от ИИ-шки
ИИ ответит за 2 минуты