Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Актуальность темы. Информационная инфраструктура компании подвергается постоянным изменениям. Этот процесс может происходить как целенаправленно, в рамках определенной ИТ-стратегии, так и спонтанно, под влиянием насущных потребностей компании. Результатом является чрезвычайно гетерогенный ИТ-ландшафт, который включает в себя приложения и программные компоненты разных производителей, реализованные платформы и часто дублирующие отдельные функции. Ситуация усугубляется слияниями и поглощениями компаний, которые приводят к наследованию новых информационных систем и приложений.
Общий доступ к файлам является наиболее распространенным типом интеграции. С точки зрения реализации - это самый простой способ, но у него есть недостатки. При необходимости обмена сложными структурами необходимо разработать специальные форматы файлов, что приводит к большой зависимости систем друг от друга. Кроме того, обмен файлами включает в себя присутствие человека, который выполняет загрузку и загрузку файлов. Однако, если вы не можете общаться по сети, передача данных на физический диск является единственно возможным решением.
Увеличение масштабируемости и доступности постоянно обновляемых копий данных позволяет масштабировать операции чтения до нескольких серверов. Избыточность, возникающая в результате обслуживания нескольких копий одних и тех же данных, имеет решающее значение для планового и незапланированного обслуживания системы.
Хранение данных и создание отчетов серверы хранилища данных и серверы отчетов часто используют данные из онлайн-обработки транзакций. Слияние данных с нескольких узлов данные из удаленных офисов часто накапливаются и объединяются в центральном офисе. Аналогичным образом, можно реплицировать данные в удаленных офисах.
На сегодняшний день информационные системы активно развиваются, и объем обрабатываемых данных увеличивается экспоненциально, меняется и форма их представления. Объединение данных из всех информационных систем, используемых на предприятии, довольно сложно, и изменение таких систем может быть довольно дорогостоящим.
Существующие методы интеграции данных для полного решения проблем не имеют как масштабируемости, так и функционального охвата. Эти подходы в основном сосредоточены на простом перемещении данных из одной системы в другую и применении преобразования и агрегации к элементам данных.
Целью изучения являются методы интеграции данных от различных источников в информационных системах.
Задачами исследования являются:
- рассмотреть многоаспектность проблемы и неоднородность источников данных систем интеграции;
- разобрать роль стандартов в системах интеграции данных;
- определить методологические основы интеграции данных.
1 Многоаспектность проблемы и неоднородность источников данных систем интеграции
1.1 Основные понятия интеграция данных в информационных системах
В современных условиях возрастает зависимость предприятий от информационных технологий и для их успешного развития необходим не столько набор приложений для автоматизации отдельных функций или бизнес-процессов, сколько интеграция и внедрение ИТ-систем и приложений. Следует выделить три аспекта, обусловливающих исключительную актуальность интеграционной проблемы. [7, с.23]
Информационные системы (ИС) - это широкий класс программного обеспечения, используемого различными компаниями для автоматизации своей работы. Поскольку объем обрабатываемой информации огромен, в каждой организации, как правило, существует несколько информационных систем. Часто в этих системах обрабатывается одна и та же информация. В связи с этим возникает проблема интеграции данных из разных систем. [5, с.101]
Под интеграцией данных понимается процесс объединения данных из разных источников для получения их согласованного представления, в широком смысле - процесс организации регулярного обмена данными между различными ИС компании.
Интеграция данных в информационные системы понимается как обеспечение единого интерфейса для доступа к некоторым агрегатам, в общем, разнородным независимым источникам данных.
Следовательно, для пользователя информационные ресурсы всей совокупности интегрированных источников представляются как новый единый источник. Система, которая предоставляет пользователю эти возможности, называется системой интеграции данных.
Система интеграции данных освобождает пользователей от необходимости знать, какие данные из источников, отличных от встроенных источников, они используют, каковы свойства этих источников и как они могут получить к ним доступ.
Встроенные источники данных могут быть традиционные системы баз данных, использующих различные модели данных (реляционные, объектные, объектно-реляционные, графовые и т.п.), различные устаревшие системы, репозитории, веб-сайты, поддерживают файлы структурированных данных. [7, с.44]
При разработке моделей интеграции данных также используется подход, основанный на интеграции моделей данных, поддерживаемых различными источниками. Эти модели интеграции одновременно обеспечивают решение двойной проблемы - поддержку множества различных представлений одних и тех же данных. Известны уже в начале 80-х годов проекты такого рода модельной интеграции. Одним из примеров является попытка интегрировать функции модели сетевых данных «CODASYL» и модели реляционных данных в одну модель данных. [5, с.122]
В 90-е годы произошло развитие объектно-реляционной модели. В разработке флагманских серверов баз данных «SQL-серверов» было реализовано расширение объекта языка «SQL», которое позже было «узаконено» в текущем стандарте языка «SQL:1999».
К этой же категории средств интеграции данных примыкает завершающаяся в настоящее время разработка расширения языка «SQL» - компонента новой версии стандарта языка «SQL:200n», получившего название «SQL/XML».
Средства «SQL/XML» обеспечивают возможности представления схем баз данных «SQL» и реляционных данных в форме «XML-документов», в том числе реляционное представление информационных ресурсов «XML» в среде баз данных «SQL».
Доступ к данным многих источников через один интерфейс на самом деле означает, что речь идет о поддержке представления набора данных из нескольких независимых источников в отношении одной модели данных. Важно, наконец, отметить, что состав многих источников может быть установлен заранее или динамически дополнен, источники данных могут иметь неизменяемое или обновляемое содержимое.
Разработка методов интеграции информационных ресурсов - одна из самых насущных проблем в области информационных систем. Особенно много внимания она получила в последние годы. Однако проблема интеграции данных отнюдь не нова. [7, с.61]
Первые шаги в этой области относятся к середине 70-х годов, когда началась разработка распределенных систем баз данных, и отчет «ANSI/X3/SPARC» сформировал более четкие представления о многоуровневой архитектуре систем баз данных, моделях данных в качестве инструмента для моделирования реальности и представления моделей данных.
Это было в основном связано с поддержкой глобальной схемы для ряда локальных баз данных, работающих на разных узлах сети на основе СУБД, которые поддерживают одну и ту же или, как правило, разные модели данных.
Позднее несколько более общая форма этой задачи была связана с созданием мультибаз и федеративных баз данных, хранилищ данных, различных репозиториев информационных ресурсов, а также веб-приложений. [5, с.134]
В последние годы в широко развернувшихся во многих странах разработках электронных библиотек («Digital Libraries») проблемы интеграции неоднородных данных стали играть ключевую роль, причем возникает также задача интеграции текстовых информационных ресурсов из различных независимых источников.
1.2 Многоаспектность проблемы
Проблема интеграции данных чрезвычайно разнообразна и разнообразна. Сложность и характер используемых методов решения в значительной степени зависят от уровня интеграции, который должен быть предоставлен, свойств отдельных источников данных и многих источников в целом, необходимых методов интеграции.
Системы интеграции данных могут обеспечить интеграцию данных на физическом, логическом и семантическом уровнях. Интеграция данных на физическом уровне с теоретической точки зрения является самой простой задачей и сводится к преобразованию данных из различных источников в необходимый единый формат их физического представления.
Интеграция данных на логическом уровне обеспечивает доступ к данным из разных источников в единой глобальной схеме, описывающей их общее представление с учетом структурных и, возможно, поведенческих свойств данных (при использовании объектных моделей). При этом не учитываются семантические свойства данных. [5, с.155]
Поддержка единого представления данных с учетом их семантических свойств в контексте единой онтологии предметной области позволяет интегрировать данные на семантическом уровне.
Источники данных могут иметь разные характеристики, которые необходимы для выбора методов для интеграции данных – они поддерживают представление данных в терминах конкретной модели данных могут быть статическими или динамическими и т. д. множество источников, интегрируемых данных может быть однородным или неоднородным по поводу характеристик каждого используемого уровня интеграции.
С точки зрения возможностей интеграции данных возможны два подхода – виртуальное или актуальное (материализованное) представление интегрированных данных. При первом подходе создается механизм доступа, который при обработке пользовательского запроса генерирует данные в нужном представлении непосредственно из источников данных.
Полное материализованное представление встроенных данных в отношении одного пользовательского интерфейса не поддерживается. Виртуальный подход чаще всего используется при использовании часто обновляемых источников данных. Напротив, при втором подходе на этапе интеграции возникает полное материализованное представление интегрированных данных, отчужденное от исходных источников и сосуществующее с ними. Именно это представление данных используется для обработки запросов пользователей. Этот подход, в частности, используется в хранилищах данных. [7, с.88]
Концепция интеграции информационных систем далека от новой. Необходимость интеграции стала очевидной, как только у компаний было более одной информационной системы и локальной сети.
При создании интеграционных решений неизбежно возникает проблема сопряжения различных программных компонентов. Эта проблема возникает при расширении систем, включении новых подсистем или новых версий компонентов, репликации и повторном использовании приложений и организации связи между приложениями.
Минимизировать затраты на интеграцию и разработку информационных систем позволяет использование методологии открытых систем, которая включает в себя выбор части интерфейса системы, связь с другими системами или подсистемами
. Для объединения систем достаточно иметь только информацию о интерфейсных частях связанных объектов, выполненных в соответствии с определенными стандартами. [5, с.172]
1.3 Неоднородность источников данных систем интеграции
Разработка и внедрение независимых систем автоматизации организации приводит к несогласованности и семантической неоднородности данных в различных подсистемах интеграции. Для эффективного управления современной организацией необходима интегрированная информационная система (ИС), позволяющая работать со всем объемом информации, собранной в организации.
Неоднородность источников данных проявляется в системах интеграции данных в различных аспектах. Это, конечно, неоднородность свойств источников, соответствующих используемому уровню интеграции данных.
При интеграции на физическом уровне источники данных могут использовать различные форматы файлов. На логическом уровне интеграции модели данных, используемые для разных источников, могут быть неоднородными или что схемы данных различаются, хотя используется одна и та же модель данных. Некоторые источники могут быть веб-сайты и других объектов баз данных и т. п. [5, с.197]
Между тем в связи с ускоренным развитием информационных технологий (ИТ) уже накопились и продолжают расти значительные объемы данных, манипулирование которыми является существенной проблемой из-за неоднородного характера и часто слабой структурированности. В социально-экономической глобализации, в том числе рост уровня в зависимости развития общества от степени совершенства, необходим для правильного функционирования ИТ сложных «ИТ-систем» и требует разработки новых, концептуально-методологических подходов к проектированию и внедрению.
В связи с этим создание концептуально-методических основ, математических моделей и программных инструментов, интегрирующих поддержку ИС на протяжении всего ее жизненного цикла, напрямую связано с производственной и экономической эффективностью современных информационно-программных комплексов.
При интеграции на семантическом уровне различные источники данных могут соответствовать различным онтологиям. Например, возможно, если каждый из источников представляет собой информационные ресурсы, моделирующие фрагмент предметной области, которому соответствует собственная концептуальная система, и эти фрагменты перекрываются.
При создании интеграционной системы существует ряд задач, состав которых зависит от требований и используемого подхода. К ним относятся, в частности: [7, с.111]
- разработка архитектуры системы интеграции данных;
- создание интегративной модели данных, которая лежит в основе единого пользовательского интерфейса в интеграционной системе;
- разработка методов отображения моделей данных и создание сопоставлений в модели интеграции для определенных моделей, поддерживаемых отдельными источниками данных;
- интеграция метаданных, используемых в системе источника данных;
- преодоление неоднородности источников данных.
Основные инструменты интеграции информационных ресурсов включают конвертеры данных, интеграцию моделей данных, отображение модели данных, адаптеры объектов («Wrappers»), посредники («Mediators»), онтологические спецификации, интеграцию схем и онтологические спецификации, а также архитектуру, которая позволяет взаимодействовать с инструментами, используемыми в конкретной системе интеграции ресурсов. [5, с.216]
2 Роль стандартов в системах интеграции данных
2.1 Архитектура систем интеграции
Архитектура интеграционной среды должна поддерживать такие модели интеграции, где зависимость между подсистемами минимальна. При этом под зависимостью понимается не только необходимость интеграции структур данных и технических решений, присущих конкретной подсистеме, но и сам факт их существования (подсистема может получать необходимую информацию, не зная ее источника). [9, с.101]
Следует отметить, что выбор метода интеграции во многом зависит от особенностей интегрированных приложений и имеющихся технических ресурсов.
Основными моделями интеграции являются: [6, с.215]
- передача сообщений, интеграция физических данных (хранилище данных, репликация данных);
- интеграция логических данных;
- мониторы транзакций и серверы приложений;
- автоматизация производственных процессов.
Используются два типа архитектуры с посредником – «Global as View» и «Local as View». Первая из них («Global as View») определяет глобальное представление встроенных данных по отношению к указанным представлениям локальных источников. Этот подход более эффективен, если набор всех используемых источников предопределен. Если интеграционная система поддерживает полное материализованное представление интегрированных данных, процессы преобразования данных из источников объединяются в единое глобальное представление. [4]
В системах интеграции данных наиболее широко используется архитектура с посредником. Посредник обязан поддерживать единый пользовательский интерфейс, основанный на глобальном представлении данных, содержащихся в источниках, и поддерживать отображение между глобальным и локальным представлением данных. Пользовательский запрос, сформулированный в отношении одного интерфейса, разбивается на множество подзапросов, адресованных правильным локальным источникам данных. На основе результатов их обработки синтезируется полный ответ на запрос. [9, с.124]
При использовании второго варианта рассматриваемой архитектуры («Local as View») предполагается, что представление для каждого из локальных источников данных определено по отношению к указанному интегративному глобальному представлению. Несмотря на то, что это затрудняет отображение пользовательских запросов в локальной среде источника данных, этот подход позволяет динамически создавать множество источников данных. Каждый новый источник может быть подключен к системе как на этапе разработки, так и на этапе эксплуатации. [4]
Неотъемлемой частью архитектуры системы интеграции данных является механизм отображения моделей данных. Существует ряд работ, посвященных методам отображения моделей данных и созданию отображения определенных моделей. Некоторые системы, которые интегрируют внешние источники данных в среду системы базы данных, используют концепцию шлюза, который по существу является механизмом для отображения исходных данных в среде системы базы данных. Стандартизация этого сопоставления для баз данных «SQL» обеспечивается спецификациями «SQL/MED». [6, с.232]
При интеграции данных в среду на основе «CORBA», используются объектные адаптеры («Wrappers»), которые поддерживают «интерфейс-IDL» для инкапсулированных информационных ресурсов и могут «объективировать» необъектные ресурсы, такие как унаследованные системы баз данных. Это создает интегрированную совместимую объектную среду для разнородных информационных ресурсов.
Разумеется, интеграция данных в информационную систему предполагает также интеграцию в ту или иную форму метаданных, определяющих их источники.
Одной из традиционных задач интеграции метаданных в структурированных системах интеграции данных является задача интеграции схем. Трудности ее решения в определенных ситуациях могут быть связаны с наличием конфликтов, а именно: [9, с.136]
- конфликты неоднородности (используются различные модели данных для разных источников);
- конфликты имен (разные схемы используют разную терминологию, что приводит к омонимии и синонимии в именовании);
- семантические конфликты (различные уровни абстракции выбираются для моделирования сходных сущностей реального мира);
- структурные конфликты (одни и те же сущности представлены в разных источниках разными структурами данных).
Другая типичная довольно сложная задача - интеграция онтологических спецификаций информационных ресурсов.
2.2 Интегрирующие модели данных
В качестве интегративной модели данных (также известный как глобальные данные модели называют) в поддержку единого пользовательского интерфейса используются в интеграции систем наиболее распространенные модели данных, например, реляционной или объектной модели данных. Из-за растущего развития веб-приложений модель на основе «XML» получила широкое распространение в качестве модели интеграции данных. [6, с.248]
При использовании разнородных моделей данных в различных источниках данных часто создается специальная, достаточно развитая модель интеграции данных для поддержки глобального представления данных. Экспериментальная разработка таких моделей стала проводиться с середины 70-х годов и продолжается и по сей день. Мощная модель данных в функциональном плане воплощена в языке синтеза.
Новая платформа веб-технологий, основанная на стандартах «XML», в последние годы привлекла внимание многих экспертов как эффективный инструмент для интеграции информационных ресурсов во многих практически важных случаях. Большой интерес к «XML-среде» связан не только с возможностями «XML» в качестве языка описания данных, но и с возможностью его использования для транспортировки сообщений в веб-среде. [9, с.148]
Конструктивный интерес к интеграции веб-информационных ресурсов и реляционных баз данных проявляют и разработчики новых информационных технологий для «всемирной паутины». Стандарт языка запросов «XQuery» «XML-платформы» воплощает функциональность, свойственную интегративной модели данных.
Базовая модель данных этого языка поддерживает иерархические и реляционные структуры данных, что позволяет интегрировать «XML-данные» и данные в реляционные базы данных. Однако он позволяет явно представлять огромные информационные ресурсы «скрытой» «веб-базы» данных «SQL», к которой в настоящее время можно получить доступ через интерфейс «HTML-формы» в веб-среде. [6, с.269]
Наиболее распространенный подход к семантической интеграции данных основан на использовании семантических медиаторов. Посредники поддерживают унифицированные мета-описания встроенных источников данных. Как правило, смысловые посредники разрабатываются для определенной узкой тематической области.
Семантическая интеграция является дополнением, а не заменой стандартных методов, но это дополнение заполняет критический пробел в обеспечении необходимой практичности данных и их взаимосвязи
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.