Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
В результате развития информационных технологий количество данных, накопленных в электронном виде, растет быстрыми темпами. Эти данные существуют в различных форматах: тексты, изображения, аудио, видео, гипертекстовые документы, реляционные базы данных и т.д.
Однако подавляющая часть доступной информации не несет для конкретного человека какой-либо пользы, так как он не в состоянии переработать такое количество сведений. Возникает проблема извлечения полезной для пользователя информации из большого объема данных.
Данная работа рассматривает технологии интеллектуального анализа данных (Data Mining) – одной из активно развивающихся областей информационных технологий, предназначенных для выявления полезных знаний из баз данных различной природы.
Понятие интеллектуального анализа данных соответствует широко распространенному термину Data Mining, который часто переводится как добыча данных, глубинный анализ данных, извлечение знаний, раскопка знаний в базах данных.
1 Теоретические аспекты проведения
Существует множество различных определений понятий компетенции и компетентности. Несмотря на различные вариации, под компетенцией обычно понимается объем профессиональных знаний и навыков, а также личностные характеристики и установки, проявляемые в поведении человека и требуемые для выполнения непосредственных должностных обязанностей. Компетентность же предполагает наличие у человека определенных компетенций в совокупности с умением проявлять инициативу, способностью организовывать других людей, обладающих соответствующими компетенциями, для выполнения поставленных целей, готовность оценивать, анализировать и предвидеть социальные последствия своих действий.
Иными словами, любая компетенция и компетентность включают в себя несколько характеризующих квалификационный уровень специалиста составляющих; некоторые из них легко поддаются оценке, тогда как другие определить с большой долей точности весьма проблематично. Так, говоря о компетентности в целом, мы, как правило, используем словосочетания «обладает высоким уровнем компетенции», «компетентен», «имеет низкую компетентность».
Д. И. Менделеев утверждал: «Наука начинается там, где начинаются измерения». Мы можем измерить количество правильных ответов в тесте и сумму теоретических знаний и практических навыков обучаемого, так как они представляют собой значения, поддающиеся исчислению. А вот способности, личностные качества, темперамент, инициативность, обязательность и многие другие качества человека, входящие в понятия компетенции и компетентности, не могут быть оценены подобными средствами, так как являются качественными характеристиками, в отношении которых могут использоваться лишь словесные описания. То есть применительно к указанным категориям необходимы иные инструментарий и методы измерения.
Например, если при проведении тестирования мы будем рассматривать каждый параметр, полученный отдельно, скажем - количество правильных ответов на вопросы теста по конкретной теме, то мы никогда не получим объективного представления о компетенции или компетентности ученика. Высокий результат, показанный при прохождении тестирования, не может гарантировать полноты полученных или имеющихся знаний, умений, навыков, личностных характеристик, необходимых для успешной работы. При «выпадении» хотя бы одного из перечисленных пунктов, несмотря на высокую оценку, человек не будет компетентен в своей области, и данный «провал» обязательно проявится в будущей практической деятельности.
В случае, когда мы имеем дело с качественными характеристиками, применение стандартных статистических методов оценивания усложняется еще и тем, что они построены на основе выполнения операций усреднения. Допустим, в группе два человека имеют высокую мотивацию, а три - низкую, тогда определить средний уровень мотивации группы становится невозможно.
Кроме того, существует еще одна проблема. Точность проведения измерений, безусловно, важна, но не менее значима процедура обработки результатов, итогом которой может быть как приведение полученных данных к информативному виду, удобному для восприятия основных статистических показателей, так и полная дискредитация полученных данных, вызванная выбором неверной модели и, как следствие, «выявленными» ложными закономерностями. Более того, материалы комплексного педагогического мониторинга, которые могут быть представлены текстовыми, числовыми, графическими, фото- и видеодокументами, всегда являются разнородными, а при высокой периодичности проведения контрольных мероприятий могут стать избыточными и, значит, неинформативными.
Перечисленные и многие другие вопросы оценивания уровня компетенции и компетентности учащихся пока остаются открытыми.
1.1 Средства ИАД
В настоящее время разработаны и активно используются экономистами, маркетологами и бизнес-аналитиками средства интеллектуального анализа данных, позволяющие на основе как количественных, так и качественных показателей решать задачи синтеза, анализа и прогнозирования финансово-экономических процессов.
На наш взгляд, для педагогической науки изучение опыта применения в сфере экономики средств интеллектуального анализа с целью их адаптации и широкого внедрения в процесс контроля и управления обучением весьма актуально и полезно.
Под интеллектуальным анализом данных - английский синоним Data Mining - понимается собирательное название целой совокупности методов. В основе подходов Data Mining лежат методы классификации, кластеризации, моделирования и прогнозирования, построения деревьев решений, эволюционного программирования и нечеткой логики.
Data Mining - метафора, состоящая из двух понятий: данные (data) и добыча горной руды (mining), поэтому часто переводится как «добыча данных». В литературе можно встретить также варианты «извлечение информации», «раскопка данных», «интеллектуальный анализ данных», «извлечение знаний», «анализ шаблонов», «обнаружение знаний в базах данных». Можно сказать, что Data Mining - это мультидисциплинарная область, возникшая и развивающаяся на базе прикладной статистики, распознавания образов и искусственного интеллекта.
Способ анализа информации, рассматриваемый в данной работе, называется «интеллектуальным». Для понимания характерных особенностей и семантического поля этого понятия проанализируем этапы появления выражений «искусственный интеллект» и «интеллектуальный анализ данных» в русском языке.
Термин «искусственный интеллект» (англ. artificial intelligence) впервые был предложен в 1956 г. в США. Слово «intelligence» поли-семично и имеет значения «интеллект; рассудок, разум; умственные способности». Применительно к информатике и способам обработки данных оно традиционно переводится на русский язык созвучно английскому произношению и согласно первому значению - «интеллект». Но под интеллектом мы понимаем высшую способность человека к мышлению и рациональному познанию. Именно интеллект позволяет индивидууму мыслить, предвидеть, проводить сравнения, абстракции, выводить понятия, суждения, заключения, превращать восприятие в знание или критически пересматривать и анализировать уже имеющиеся знания.
1.2 Коротко об искусственном интеллекте
На сегодняшний день под искусственным интеллектом, интеллектуальными средствами обработки информации понимают раздел информатики, включающий разработку методов моделирования и воспроизведения с помощью компьютера отдельных функций творческой деятельности человека, таких как решение проблемы представления знаний и построение баз знаний, создание экспертных систем, распознавание зрительных и звуковых образов, речи, рукописных текстов, автоматический перевод с одного языка на другой. Эти задачи выходят за рамки ординарных вычислительных задач, но электронная техника не способна к высшему познанию, присущему исключительно человеку, обладающему интеллектом. Поэтому, с нашей точки зрения, наиболее точным переводом «intelligence» стало бы слово «разумность». Ведь, действительно, существующие сегодня интеллектуальные системы демонстрируют лишь элементы разумности. Именно с этих позиций мы и будем в дальнейшем рассматривать применение интеллектуального анализа педагогических данных.
Технологии Data Mining получили развитие в 90-е гг. XX в. В это время резко возрастает количество обрабатываемой информации, увеличиваются объемы устройств хранения данных и совершенствуются алгоритмы обработки информации. Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro), один из основателей направления интеллектуального анализа данных, предложил следующее определение: «Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».
В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, выраженные в понятных человеку формах. В таблице буквально на нескольких возможных формулировках задач, касающихся трудоустройства выпускников, продемонстрировано отличие формирования шаблонов интеллектуального анализа данных для управления образованием от стандартных статистических подходов к нему.
Очевидно, что если будут существовать четкие шаблоны результатов поведения или личностных качеств студентов, адекватно отражающие динамику целевых показателей, то с большой долей вероятности можно будет говорить о более качественной организации и возможности при необходимости оперативной корректировки деятельности педагогической системы в целом и отдельных образовательных учреждений в частности.
1.3 Программные комплексы
Сегодня уже разработано большое количество программных комплексов, на базе которых проводится аналитическая обработка полученных результатов. Из наиболее популярных отметим:
• Clementine - созданный фирмой IBM один из наиболее популярных продуктов, позволяющих проводить преобразования, моделирование и оценивание и внедрение методов Data Mining;
• DBMiner 2.0 Enterprise1 - программное приложение для исследования больших объемов данных;
• Polyanalyst2 - ресурс, который помимо полного анализа данных методами Data Mining включает востребованный инструмент анализа текстов Text Mining;
• IBM Intelligent Miner for Data3 - инструмент, поддерживающий полный процесс Data Mining от подготовки данных до презентации результатов.
Самым доступным средством интеллектуального анализа является программа MS Excel (версии 2007 и выше) с установленной надстройкой «Интеллектуальный анализ данных», которая позволяет использовать преимущества функций прогнозирующего анализа SQL Server
. Применение надстройки, содержащей специализированные инструменты, дает возможность на основе табличных или внешних источников информации создавать и тестировать модели интеллектуального анализа данных, а также управлять ими.
1.4 Анализ ключевых факторов влияния
С помощью инструмента «Анализ ключевых факторов влияния» определяется связь интересующего нас параметра с другими показателями и зависимость его от них. Например, если в качестве результирующего фактора принять нахождение выпускниками работы в течение определенного времени после окончания вуза, т. е. подтверждение того, что компетенции выпускников удовлетворили работодателей, а в качестве влияющих факторов - оценки, полученные студентами на сессиях, государственном экзамене, при защите дипломного проекта; участие в студенческих научных конференциях, научных кружках, творческих коллективах; личностные характеристики и др., то можно понять, какие факторы или их комбинации оказали решающее воздействие на результат.
Решение задачи кластеризации, или разделения всего множества вариантов на части, составляющие которых наиболее близки друг к другу по ряду признаков, позволяет обнаружить наличие студентов со сходными психологическими, физиологическими, поведенческими и интеллектуальными характеристиками. А формирование на основе этого и в соответствии с полученными рекомендациями групп для дополнительного обучения, факультативных занятий, тренингов и т. д., предоставляет широкие возможности для индивидуального подхода к обучению.
Используя блок «Прогноз», основанный на заранее выявленных ключевых факторах, оказывающих максимальное воздействие на результат, можно планировать выполнение поставленных целей и, в случае неблагоприятной версии прогноза, своевременно принимать меры воздействия на систему.
Инструмент «Анализ сценариев» позволяет моделировать влияние, которое оказывают изменения одного из параметров на другой, связанный с первым. Благодаря этому можно получить ответ на вопрос, реально ли достичь желаемого результата при модификации значения выбранного параметра. Например: действительно ли существует прямая зависимость между количеством студенческих научных конференций, олимпиад и более высокой оценкой при защите дипломного проекта или обретением желаемой работы?
Поскольку интеллектуальный анализ данных изначально был ориентирован на финансовых и торговых аналитиков, то достаточно популярной операцией в нем является «Анализ покупательской корзины». По аналогии, как на основе данных о покупках выделяются товары, встречающиеся чаще всего в заказах, и формируются рекомендации относительно совместных продаж, с помощью этой операции можно выделять мероприятия, которые охотнее всего посещают студенты различных курсов и направлений, и сформировать рекомендации относительно привлечения учащихся к участию в наиболее значимых видах деятельности.
Инструмент «Деревья решений» сформирует правила классификации в виде иерархической (древовидной) структуры. Описанные с помощью дерева зависимости представляют собой визуализацию правил «если... - то...». Например: «Если студент посещает дополнительные углубленные занятия по предмету X и имеет отличные оценки по предмету Y, то с большой вероятностью будет приглашен на работу после окончания вуза работодателем Z».
1.5 Этапы процесса ИАД
Современные информационные технологии позволяют эффективно собирать и накапливать большой объем разнородных экспериментальных данных, грамотный и всесторонний анализ которых является необходимым для проведения полноценного исследования. Стандартные методы математической и статистической обработки данных зачастую не позволяют обнаружить существующие в данных нетривиальные и заранее непредсказуемые закономерности, для выявления которых разрабатываются и используются методы интеллектуального анализа данных. Интеллектуальный анализ данных (ИАД) широко применяется в мировом сообществе при проведении исследований во многих областях, например, в генетике, биоинформатике, астрономии, медицине, экономике, образовании, информатике и других. Чтобы проводить эффективные эксперименты, получая конкурентоспособные и доказательные результаты, специалисты должны обладать знаниями и навыками в области интеллектуального анализа данных.
В процессе ИАД выделяются несколько этапов:
1) понимание и формулировка задачи анализа;
2) подготовка данных для автоматизированного анализа;
3) применение методов интеллектуального анализа данных и построение моделей;
4) проверка построенных моделей;
5) интерпретация моделей человеком.
Как можно заметить, этапы интеллектуального анализа данных схожи с этапами выполнения любой исследовательской работы (формулирование темы, цели и задач исследования, теоретические исследования, экспериментальные исследования, анализ и оформление научных исследований, внедрение и проверка эффективности результатов проведенного исследования). Отличие заключается в том, что окончательная оценка эффективности полученных результатов выходит за рамки непосредственно самого процесса ИАД и возможна после их практического применения.
Поскольку спрос на специалистов, обладающих знаниями и опытом в области ИАД, неуклонно растёт, то в университетах всего мира активно внедряются курсы по интеллектуальному анализу данных, а в последнее время также наблюдается тенденция к формированию целых кафедр, занимающихся подготовкой специалистов в области анализа данных. Некоторое время подготовка таких специалистов считалась прерогативой вузов и факультетов с ИТ-направленностью, но сегодня все больше на рынке труда ценятся междисциплинарные специалисты, обладающие одновременно, как знаниями в определенной области науки (генетика, медицина, социология, лингвистика и т.д.), так и знаниями по современным способам анализа данных. В то же время, несмотря на бурное развитие этого направления, практика обучения методам ИАД все еще не сложилась, и нет каких-либо устоявшихся канонов преподавания данной дисциплины в высшей школе.
2 Об основных задачах
Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения - менеджерами и руководителями компаний.
Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.
Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях.
2.1 Поддержка в принятии решений
Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. В рамках такой общей формулировки обычный анализ отчетов, построенных по базе данных, также может рассматриваться как разновидность ИАД. Чтобы перейти к рассмотрению более продвинутых технологий ИАД, посмотрим, как можно автоматизировать поиск зависимостей между данными.
Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода - "добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.
Классическим считается определение, данное одним из основателей направления Григорием Пятецким-Шапиро: DataMining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации.
Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:
· специализированных "коробочных" программных продуктов для интеллектуального анализа;
· математических пакетов;
· электронных таблиц (и различного рода надстроек над ними);
· средств интегрированных в системы управления базами данных (СУБД);
· других программных продуктов.
2.2 Примеры СУБД
В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line (OLAP)и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.
Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.
В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов)
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Наш проект является банком работ по всем школьным и студенческим предметам. Если вы не хотите тратить время на написание работ по ненужным предметам или ищете шаблон для своей работы — он есть у нас.
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.