Разработка рекомендаций для создания семантического хранилища информационных ресурсов
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Семантическая аннотация применяется в разных областях знаний. Например, в биологических системах для идентификации биомедицинских объектов, таких как гены, белки и их взаимосвязи. Кроме того, она неоднократно была применена в анализе новостей для идентификации людей, организаций и мест. Степень разработанности основного вопроса данного исследования достаточно глубока. Однако технологии постоянно обновляются, и исследования быстро теряют свою актуальность. В настоящее время стратегии семантической аннотации выполняются без учета контекста. Как правило, разработчики считают, что словаря достаточно, чтобы выразить значение терминов в документе. Однако в значительной степени семантика понятия зависит от контекста, в котором оно встречается. Следовательно, определение значения может привести к проблемам двусмысленности. Несколько исследовательских работ продемонстрировали сложность устранения неоднозначности слов (WSD), при которой традиционно поиск термина выполняется в словаре данных (например, WordNet). Можно сделать вывод о том, что проблемы семантической аннотации остаются открытой темой для исследований. Процесс аннотации может быть источником различных типов проблем, например: - неоднозначные аннотации, когда сущности были присвоены более чем одному понятию в онтологии, - ошибочные аннотации, когда значение текста не обнаруженные в онтологии, - ложные аннотации, когда аннотация не предоставляет никакой ценности для реализации семантического поиска. В данном исследовании представлена стратегия семантической аннотации в неструктурированных документах. Наш подход основан на онтологиях и на извлечении контекстной семантической информации из сущностей онтологии. Семантический контекст сущности определяется их отношениями в онтологии. Мы предлагаем извлекать семантический контекст сущностей путем вычисления подобия ассоциации между каждой парой понятий и вычисления весов взаимосвязей сущностей. С помощью этой стратегии мы решаем проблемы неоднозначных, ошибочных и ложных аннотаций. Наш метод семантической аннотации является частью системы семантического поиска на естественном языке. Целью данной работы стала разработка рекомендаций для создания семантического хранилища информационных ресурсов. При этом объектом исследования – информационные ресурсы. А объектом - создание семантических хранилищ данных ресурсов.
Сущность семантической аннотации документа
Быстрый рост Интернета привел к появлению огромного количества информации в виде неструктурированных документов. Поисковые системы стали обычным и основным инструментом для большинства пользователей. Тем не менее, поисковые системы по-прежнему испыт...
Открыть главуОсновные концепции подходов к разработке семантических аннотаций
Онтология состоит из схемы и экземпляров. В онтологии классы, свойства, типы данных и экземпляры явно идентифицируются унифицированными идентификаторами ресурсов (URI). Кроме того, они представляют сущности в онтологии, которые характеризуются своим ...
Открыть главуНедостатки и ограничения семантических хранилищ
Семантическая аннотация имеет некоторые преимущества, но при аннотации технических или медицинских текстов или других ресурсов также возникают некоторые проблемы. Вот некоторые из этих проблем: - Устранение неоднозначности смысла слова: необходимо оп...
Открыть главуИзвлечение терминов и аннотации документов
Текстовые описания семантического контекста экземпляров и сущностей, полученные на предыдущем этапе, ищутся в инвертированном индексе для извлечения и генерации аннотационной таблицы документов, содержащей объект онтологии, соответствующий документ и...
Открыть главуРекомендации для успешного проекта построения семантического хранилища данных
Создание хранилища данных (data warehouse) – это масштабная задача, которую не решают в одиночку. Поскольку семантическое хранилище данных объединяет все лучшее из информационных технологий и бизнес-практики предприятия, необходимо взаимодействие биз...
Заключение
В этой исследовательской работе мы представили семантическую аннотацию подхода к неструктурированным документам. Которая рассматривает сходство понятий в онтологии через ее семантические отношения. Неструктурированные документы представлены в виде графиков, узлы представляют упоминания, а края представляют семантику и отношения. Каждому семантическому отношению назначается весовая мера. Таким образом, значимые отношения имеют больший вес. Извлечение контекста было выполнено путем вычисления связи между попарными концепциями и весомостью отношений сущностей. Сумма двух значений - это то, что измеряет значение или контекст сущности. Мы также использовали экземпляры в базе знаний для измерения классов информационного контента и отношений. В соответствии с современным уровнем развития, результаты, полученные с помощью нашего подхода, дают наилучшие результаты. В качестве будущей работы мы пытаемся сократить базу знаний, выбирая сущности, определение которых с большей вероятностью будет использоваться в корпусе. Кроме того, можно использовать инструмент Word2vec для семантического извлечения терминов и документов. Наконец, этот подход также сравнивали с другими предложениями, доступными в литературе.
Список литературы
1. Антопольский, А. Б. Информационные ресурсы России. - М.: Бибком, 2017. - 330 c. 2. Антопольский, Александр Борисович; Шлыкова Ольга Владимировна Информационные Ресурсы России. Ч.1 Информационные Ресурсы Инновационного Развития. - Москва: ИЛ, 2015. - 410 c. 3. Аутентификация. Теория и практика обеспечения безопасного доступа к информационным ресурсам. - М.: Горячая линия - Телеком, 2018. - 552 c. 4. Гольдгамер, Г.И. Информационное обеспечение исследований и разработок. - М.: Наука, 2019. - 352 c. 5. Дегтярев М.В. Семантические хранилища. - Москва: Наука, 2015. - 116 c. 6. Информационная система математических Интернет-ресурсов MathTree. - М.: Издательство СО РАН, 2018. - 289 c. 7. Информационное обслуживание в библиотеках. Электронные библиографические ресурсы. - М.: Российская национальная библиотека, 2017. - 200 c. 8 . Информационные ресурсы и технологии в финансовом менеджменте. - М.: Юнити-Дана, 2019. - 272 c. 9. Информационные ресурсы и технологии в экономике. - М.: Инфра-М, 2017. - 464 c. 10. Клюев В. К. Хранилища информационных ресурсов. - Москва: РГГУ, 2015. - 410 c. 11. Кудряев, В.А. Защита информационных ресурсов в негосударственной сфере. - М.: ИЛ, 2015. - 261 c. 12. Меняев, М. Ф. Информационные ресурсы. - М.: Омега-Л, 2015. - 432 c. 13. Романов А. Г. Информационные системы. - М.: Х-Пресс, 2017. - 300 c. 14. Сагитова, Л. К. Информационные ресурсы. - М.: ИЛ, 2017. - 128 c. 15. Трояновский, В.М. Информационно-управляющие системы и прикладная теория случайных процессов. - М.: Высшая школа, 2015. - 304 c. 16. Тютюнник, А.В. Информационные технологии / А.В. Тютюнник, А.С. Шевелев. - М.: Высшая школа, 2015. - 368 c. 17. Федоров, А. В. Информационная. - М.: МГИМО-Университет, 2015. - 220 c. 18. Харитонов, С.А. Информационные технологии налогового учета / С.А. Харитонов. - М.: Машиностроение, 2019. - 182 c. 19. Ярочкин, В. А. Безопасность информационных систем. - М.: Машиностроение, 2016. - 320 c. Иностранная литература: 1. Бандура А. Социально-когнитивная теория массовой коммуникации. В: Брайант Дж., Оливер М.Б., редакторы. Медиа эффекты: достижения в теории и исследованиях. 2-е изд. Махва, Нью-Джерси: Лоуренс Эрлбаум; 1992. [Google Scholar] 2. Баумгартнер В., Бада М., Пюйсало С., Чиосичи М.Р., Хайлу Н., Пильке-Ломбардо Н. и др. Обзор CRAFT Shared Tasks 2019: интегрированная структура, семантика и сопоставление. В: Материалы 5-го семинара по открытым общим задачам BioNLP, 4 ноября 2019 г., Гонконг, Китай. Страудсбург: Ассоциация компьютерной лингвистики, 2019. С. 174-184. 3. Bossy R, Deleger L, Chaix E, Ba M, Nedellec C. Bacteria Biotope на BioNLP Open Shared Tasks 2019. In: Proceedings of the 5th Workshop on BioNLP Open Shared Tasks, 2019 Nov 4, Hong Kong, China. Страудсбург: Ассоциация компьютерной лингвистики, 2019. С. 121-131. 4. Босси Р., Голик В., Раткович З., Бессьер П., Неделлек К. Совместная задача BioNLP 2013: обзор задачи бактериального биотопа. В: Материалы семинара BioNLP Share Task 2013, 9 августа 2013 г., София, Болгария. Страудсбург: Ассоциация компьютерной лингвистики, 2013. С. 161-169. 5. Купер Л., Мейер А., Лапорт М.А., Эльзер Дж.Л., Мунгалл С., Синн Б.Т. и др. База данных Planteome: интегрированный ресурс для справочных онтологий, геномики и феномены растений. Nucleic Acids Res 2018; 46: D1168-D1180. 6. Жонке С., Шах Н.Х., Мусен М.А. Открытый биомедицинский аннотатор. Саммит Транс Биоинформ 2009; 2009: 56-60. 7. Жонке С., Туле А., Арно Э., Обен С., Дзал Йемо Э и др. AgroPortal: хранилище словарей и онтологий для агрономии. Comput Electron Agric 2018; 144: 126-143. 8. Йованович Дж, Багери Э. Семантическая аннотация в биомедицине: современный ландшафт. J Biomed Semantics 2017; 8:44. 9. Ляо Й., Лезоче М., Панетто Х., Буджлида Н. Почему, где и как использовать семантическую аннотацию для обеспечения взаимодействия систем. В: 1-й докторский симпозиум UNITE, июнь 2011 г., Бухарест, Румыния, стр. 71-78. 10. Ной Н.Ф., Шах Н.Х., Ветзел П.Л., Дай Б., Дорф М., Гриффит Н. и др. БиоПортал: онтологии и интегрированные ресурсы данных одним щелчком мыши. Nucleic Acids Res 2009; 37: W170-W173. 11. Оливейра П., Роча Дж. Обзор средств семантической аннотации. В: Симпозиум IEEE 2013 г. по вычислительному интеллекту и интеллектуальному анализу данных (CIDM), 16-19 апреля 2013 г., Сингапур. Нью-Йорк: Институт инженеров по электротехнике и электронике, 2013. стр. 301-307. 12. Валь О.Ф. Безумие СМИ: публичные образы психического заболевания. Пискатауэй, Нью-Джерси, США: Издательство Университета Рутгерса; 1995. [Google Scholar] 13. Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A, et al. Руководящие принципы FAIR для управления научными данными и управления ими. Научные данные 2016; 3: 160018.