Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Машинное обучение, один из ключевых строительных блоков искусственного интеллекта, было частью технологического мира с 1950-х годов, когда стало необходимым работать с большими данными. Программисты все чаще совершенствовали способность машин изучать данные, чтобы обнаруживать шаблоны, которые позволяют компьютерам организовывать информацию, идентифицировать отношения, делать прогнозы и обнаруживать аномалии. Сегодня современные применения ИИ уже дали самоуправляющихся автомобилей и виртуальных помощников. Помогли выявить мошенничество и более эффективно управлять ресурсами, такими как электричество.
Сегодняшние машины теперь способны выполнять узко заданные задачи с большой точностью, но и это важное предостережение — эта точность настолько же хороша, как качество, а в некоторых случаях и количество данных, которые управляют моделью. Текущее состояние игры в машинном обучении будет, с учетом тщательно продуманных данных, делать возможным бесчисленные усовершенствования существующих продуктов и, в конечном счете, развитие автономных ИИ.
В рамках данной работы будут рассмотрены такие понятия, как машинное обучение, искусственный интеллект, глубокое обучение, проведен анализ различных этапов при создании моделей, использующих искусственный интеллект. Будут изучены варианты построения слоев, раскрыты понятия весов, функции потерь.
1 Машинное обучение и искусственный интеллект
Термин искусственный интеллект был изобретен в 1956 году, но сегодня ИИ стал более популярным благодаря увеличенным объемам данных, передовым алгоритмам и улучшениям в области вычислительной мощности и хранения.
Ранние исследования ИИ в 1950-х годах изучали такие темы, как решение проблем и символические методы. В 1960-х годах Министерство обороны США проявляло интерес к этой работе и начало обучать компьютеры, имитировать основные человеческие рассуждения. Например, Агентство перспективных исследований обороны (DARPA) завершило проекты картирования улиц в 1970-х годах. И DARPA подготовила умных личных помощников в 2003 году, задолго до того, как Сири, Алекса или Кортана стали бытовыми именами.
Эта ранняя работа проложила путь для автоматизации и формальных рассуждений, которые сегодня на компьютерах, включая системы поддержки принятия решений и интеллектуальные поисковые системы, которые могут быть разработаны для дополнения человеческих способностей [1].
ИИ работает, объединяя большие объемы данных с быстрой, итеративной обработкой и интеллектуальными алгоритмами, позволяя программному обеспечению автоматически изучать шаблоны или функции данных. ИИ — это широкая область исследований, которая включает в себя множество теорий, методов и технологий, а также следующие основные подразделы:
Автоматическое обучение, которое автоматизирует построение аналитических моделей. Он использует методы из нейронных сетей, статистики, исследований операций и физики, чтобы найти скрытые данные, не будучи явно запрограммированным для того, не имея информации о том, где искать или что делать.
Нейронная сеть — это тип машинного обучения, состоящий из взаимосвязанных единиц (таких как нейроны), которые обрабатывают информацию, реагируя на внешние входы, передавая информацию между каждым устройством. Процесс требует нескольких проходов в данных для поиска соединений и получения значения из неопределенных данных.
Глубокое обучение использует огромные нейронные сети со многими слоями процессоров, используя преимущества достижений вычислительной мощности и улучшенные методы обучения, чтобы изучать сложные шаблоны в больших объемах данных. Обычные приложения включают распознавание изображений и речи.
Когнитивные вычисления — это подраздел ИИ, которое стремится к естественному, человекоподобному взаимодействию с машинами. Используя ИИ и когнитивные вычисления, конечная цель состоит в том, чтобы машина смоделировала человеческие процессы посредством способности интерпретировать изображения и речь, а затем говорила согласованно в ответ.
Компьютерное зрение полагается на распознавание образов и глубокое обучение, чтобы распознать, что находится на картинке или на видео. Когда машины могут обрабатывать, анализировать и понимать изображения, они могут захватывать изображения или видео в реальном времени и интерпретировать их окружение.
Обработка естественного языка (NLP) — это способность компьютеров анализировать, понимать и генерировать человеческий язык, в том числе речь. Следующим этапом NLP является взаимодействие на естественном языке, которое позволяет людям общаться с компьютерами, используя обычный, повседневный язык для выполнения задач [1, 6].
Значимость искусственного интеллекта заключается в следующем:
ИИ автоматизирует повторное обучение и обнаружение через данные. Но ИИ отличается от программируемой автоматизации. Вместо автоматизации ручных задач ИИ надежно выполняет частые, объемные, компьютеризированные задачи. Для такого типа автоматизации человеческий запрос по-прежнему необходим для настройки системы и задания правильных вопросов.
ИИ добавляет интеллект к существующим продуктам. В большинстве случаев ИИ не будет продаваться как отдельное приложение. Скорее, продукты, которые уже используются, будут улучшены с помощью возможностей ИИ, так же как Siri была добавлена, как функция для нового поколения продуктов Apple. Автоматизация, диалоговые платформы, боты и смарт-машины могут сочетаться с большими объемами данных для улучшения многих технологий на дому и на рабочем месте, от анализа безопасности до инвестиционного анализа.
ИИ адаптируется с помощью прогрессивных алгоритмов обучения, чтобы данные выполняли программирование. ИИ находит структуру и закономерности в данных, так что алгоритм приобретает навык: алгоритм становится классификатором или предикатом. Таким образом, так же, как алгоритм может научить себя играть в шахматы, он может научить себя, какой продукт рекомендовать следующий в интернет-магазине. И модели адаптируются при предоставлении новых данных. Обратное распространение — это метод ИИ, который позволяет моделировать, путем обучения и добавления данных, когда первый ответ не совсем правильный.
ИИ анализирует более и более глубокие данные, используя нейронные сети, которые имеют много скрытых слоев. Создание системы обнаружения мошенничества с пятью скрытыми слоями было почти невозможно несколько лет назад. Все это изменилось с невероятной мощностью компьютеров и большими данными. Нужно много данных для обучения глубоким учебным моделям, потому что они учатся непосредственно из данных. Чем больше данных можно подать на вход, тем точнее они станут.
ИИ достигает невероятной точности через глубокие нейронные сети, что было ранее невозможно. Например, взаимодействия с Alexa, Google Search и Google Фото основаны на глубоком обучении, и они продолжают получать более точную информацию, чем больше их используют пользователи. В медицинской области методы ИИ от глубокого обучения, классификации изображений и распознавания объектов теперь можно использовать для поиска рака на МРТ с такой же точностью, как это делали высококвалифицированные радиологи.
ИИ получает максимальную отдачу от данных. Когда алгоритмы являются самообучающимися, сами данные могут стать интеллектуальной собственностью. Ответы приведены в данных; просто нужно применить ИИ, чтобы вытащить их. Поскольку роль данных сейчас важнее, чем когда-либо прежде, она может создать конкурентное преимущество. Если есть более лучшие данные в конкурентной отрасли, даже если все применяют подобные методы, более лучшие данные всё-равно выиграют [4].
Машинное обучение (ML) — это категория алгоритмов, которая позволяет программным приложениям стать более точными в прогнозировании результатов без явного программирования. Основной предпосылкой машинного обучения является построение алгоритмов, которые могут получать входные данные и использовать статистический анализ для прогнозирования вывода при обновлении выходных данных по мере поступления новых данных.
Процессы, связанные с машинным обучением, аналогичны процессам интеллектуального анализа данных и прогнозирования. Оба требуют поиска данных, чтобы искать шаблоны и соответственно корректировать действия программы. Многие люди знакомы с машинным обучением от покупок в интернете и показом объявлений, связанных с их покупкой. Это происходит потому, что механизмы рекомендаций используют машинное обучение для персонализации доставки онлайн-рекламы практически в режиме реального времени
. Помимо персонализированного маркетинга, другие распространенные случаи использования машинного обучения включают обнаружение мошенничества, фильтрацию спама, обнаружение угрозы сетевой безопасности, интеллектуальное обслуживание и создание новостных лент [4].
Так же, при безграничном использовании машинного обучения, нет недостатка в алгоритмах машинного обучения. Они варьируются от довольно простых до очень сложных. Вот несколько наиболее часто используемых моделей:
Этот класс алгоритмов машинного обучения включает определение корреляции, как правило, между двумя переменными и использование этой корреляции для прогнозирования будущих точек данных.
Деревья принятия решений. Эти модели используют наблюдения за определенными действиями и определяют оптимальный путь для достижения желаемого результата.
Усиление обучения. Эта область глубокого обучения включает модели, повторяющие многие попытки завершить процесс. Шаги, которые дают благоприятные результаты, вознаграждаются, а шаги, которые приводят к нежелательным результатам, наказываются до тех пор, пока алгоритм не найдет оптимальный вариант.
Существуют разные подходы к обучению машин, от использования базовых деревьев решений до кластеризации, и до слоев искусственных нейронных сетей (последняя из которых уступила место глубокому обучению), в зависимости от того, какую задачу необходимо выполнить, и типа и количества доступных данных.
Хотя акцент часто делается на выборе лучшего алгоритма обучения, исследователи обнаружили, что некоторые из наиболее интересных вопросов возникают из-за отсутствия доступных алгоритмов машинного обучения, выполняющих пар. В большинстве случаев это проблема с данными обучения, но это также происходит при работе с машинным обучением в новых областях.
Исследования, проводимые при работе с реальными приложениями, часто приводят к прогрессу в этой области, а причины двоякие:
1. Тенденция к обнаружению границ и ограничений существующих методов.
2. Исследователи и разработчики, работающие с экспертами в области, и использующие время и знания для повышения производительности системы.
Две самые большие, исторические (и продолжающиеся) проблемы машинного обучения связаны с переобучением, в которых модель проявляет предвзятость в отношении данных обучения и не обобщает новые данные и/или дисперсию, то есть изучает случайные вещи при обучении новым данным, и алгоритмы с большим количеством функций работают в более высоких/нескольких измерениях, затрудняя понимание данных. В некоторых случаях доступ к достаточно большому набору данных также был основной проблемой [6].
Одна из самых распространенных ошибок среди новичков по компьютерному обучению — успешное тестирование учебных данных и иллюзия успеха. Нужно подчеркнуть важность сохранения отдельного набора данных при тестировании моделей и только использование этих зарезервированных данных для тестирования выбранной модели с последующим изучением обучения по всему набору данных.
Когда алгоритм обучения (то есть ученик) не работает, часто более быстрый путь к успеху состоит в том, чтобы подавать машине больше данных, доступность которых в настоящее время хорошо известна как первичный драйвер прогресса в машинах и алгоритмах глубокого обучения. Однако это может привести к проблемам с масштабируемостью, в которых есть больше данных, но нахождении времени, чтобы узнавать эти данные, остается недостаточным.
Глубокое обучение сочетает достижения в области вычислительной мощности и специальных типов нейронных сетей для изучения сложных моделей в больших объемах данных. Глубокие методы обучения в настоящее время являются современными для идентификации объектов в изображениях, в словах, в звуках. Исследователи теперь стремятся применить эти успехи в распознавании образов к более сложным задачам, таким как автоматический перевод языка, медицинские диагнозы и множество других важных социальных и деловых проблем.
Глубокое обучение включает в себя изучение и разработку машинных алгоритмов для обучения хорошему представлению данных на нескольких уровнях абстракции (способы организации компьютерных систем) [3].
За последние десять лет системы глубокого обучения добились больших успехов в таких областях, как обнаружение и распознавание объектов, преобразование текста в речь, поиск информации и другие. В настоящее время исследования сосредоточены на разработке эффективного машинного обучения, то есть на глубоких обучающих системах, которые могут учиться более эффективно, с одинаковой производительностью за меньшее время и с меньшим объемом данных, в таких передовых областях, как персонализированное здравоохранение, обучение роботов и другие.
2 Описание работы искусственного интеллекта
Этапы решения задач при построении моделей искусственного интеллекта следующие:
Сбор данных для обучения;
Подготовка и нормализация данных;
Выбор топологии сети;
Экспериментальный подбор характеристик сети;
Экспериментальный подбор параметров обучения;
Собственно, само обучение;
Проверка адекватности обучения;
Корректировка параметров, окончательное обучение;
Вербализация сети с целью дальнейшего использования.
Выбор данных для обучения сети и их обработка является самым сложным этапом решения задачи. Набор данных для обучения должен удовлетворять нескольким критериям:
Репрезентативность — данные должны иллюстрировать истинное положение вещей в предметной области;
Непротиворечивость — противоречивые данные в обучающей выборке приведут к плохому качеству обучения сети.
Исходные данные преобразуются к виду, в котором их можно подать на входы сети. Каждая запись в файле данных называется обучающей парой или обучающим вектором. Обучающий вектор содержит по одному значению на каждый вход сети и, в зависимости от типа обучения (с учителем или без), по одному значению для каждого выхода сети. Обучение сети на «сыром» наборе, как правило, не даёт качественных результатов. Существует ряд способов улучшить «восприятие» сети [2].
Нормировка выполняется, когда на различные входы подаются данные разной размерности. Например, на первый вход сети подаются величины со значениями от нуля до единицы, а на второй — от ста до тысячи. При отсутствии нормировки значения на втором входе будут всегда оказывать существенно большее влияние на выход сети, чем значения на первом входе. При нормировке размерности всех входных и выходных данных сводятся воедино;
Квантование выполняется над непрерывными величинами, для которых выделяется конечный набор дискретных значений. Например, квантование используют для задания частот звуковых сигналов при распознавании речи;
Фильтрация выполняется для «зашумленных» данных.
Кроме того, большую роль играет само представление как входных, так и выходных данных. Предположим, сеть обучается распознаванию букв на изображениях и имеет один числовой выход — номер буквы в алфавите. В этом случае сеть получит ложное представление о том, что буквы с номерами 1 и 2 более похожи, чем буквы с номерами 1 и 3, что, в общем, неверно. Для того, чтобы избежать такой ситуации, используют топологию сети с большим числом выходов, когда каждый выход имеет свой смысл. Чем больше выходов в сети, тем большее расстояние между классами и тем сложнее их спутать.
Следующий этап — это выбор топологии сети.
Выбирать тип сети следует, исходя из постановки задачи и имеющихся данных для обучения. Для обучения с учителем требуется наличие для каждого элемента выборки «экспертной» оценки. Иногда получение такой оценки для большого массива данных просто невозможно. В этих случаях естественным выбором является сеть, обучающаяся без учителя (например, самоорганизующаяся карта Кохонена или нейронная сеть Хопфилда). При решении других задач (таких, как прогнозирование временных рядов) экспертная оценка уже содержится в исходных данных и может быть выделена при их обработке. В этом случае можно использовать многослойный перцептрон или сеть Ворда.
Следующий этап экспериментальный подбор характеристик сети. После выбора общей структуры нужно экспериментально подобрать параметры сети. Для сетей, подобных перцептрону, это будет число слоев, число блоков в скрытых слоях (для сетей Ворда), наличие или отсутствие обходных соединений, передаточные функции нейронов. При выборе количества слоев и нейронов в них следует исходить из того, что способности сети к обобщению тем выше, чем больше суммарное число связей между нейронами. С другой стороны, число связей ограничено сверху количеством записей в обучающих данных.
Дальше следует экспериментальный подбор параметров обучения
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.