Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
ВВЕДЕНИЕ
Машинное обучение – это применение искусственного интеллекта (ИИ), которое предоставляет использующим его системам возможность автоматически обучаться и совершенствоваться на основе опыта без явного программирования. Машинное обучение направлено на разработку компьютерных программ, которые могут получать доступ к данным и использовать их для обучения. Машинное обучение тесно связано (и часто пересекается) с вычислительной статистикой, которая фокусируется на прогнозировании с использованием компьютеров, а также с математическими методами оптимизации, которые обеспечивают доступ к методам, теории и областям применения. Машинное обучение иногда отождествляется с интеллектуальным анализом данных, которое больше фокусируется на исследовательском анализе (неконтролируемое обучение). Оно также может быть неконтролируемым и использоваться для изучения и установления базовых поведенческих профилей для различных объектов, а затем использоваться для поиска значимых аномалий. Контролируемый алгоритм обучения контролирует данные обучения и вырабатывает общее правило (функцию), которое можно использовать для отображения новых входных данных
Машинное обучение в настоящее время – это мощный инструмент обработки больших объемов данных, требующий, однако, выбора между качеством полученных моделей и временем их расчета. Настройка модели алгоритмов по данным – это задача оптимизации, от эффективности решения которой зависит практическая применимость метода машинного обучения. В эпоху больших данных многие классические алгоритмы оптимизации становятся неприменимы, поскольку требуется решать задачи оптимизации функций за время меньшее, чем необходимо для вычисления значения функции в одной точке. Таким требованиям можно удовлетворить в случае грамотного комбинирования известных подходов в оптимизации и использования параллельных вычислений.
Основы машинного обучения
Для решения задачи классификации объектов, то есть установления связи между объектами и классами, к которым они принадлежат, может использоваться алгоритм контролируемого обучения, или обучения с учителем, который состоит в демонстрации системе распознавания нескольких учебных изображений, каждому из которых поставлена в соответствие метка класса (отклик), сделанная, возможно, человеком (который и является учителем). Совокупность таких пар «объект – ответ» при этом называется обучающей выборкой. Набор пар, которые системе распознавания неизвестны, используется для оценки качества алгоритма и называется тестовой выборкой.
Двумя важнейшими типами задач обучения с учителем являются регрессия и классификация. В задаче классификации алгоритм пытается предсказать отклик для неизученных данных на основе данных обучения, и множество возможных ответов, таким образом, является конечным. В задаче регрессии выход, который пытается предсказать алгоритм, является непрерывным, то есть ответы являются действительными числами или векторами действительных чисел.
Структурная схема на рисунке 1 иллюстрирует процесс обучения с учителем . Здесь участие учителя рассматривается как наличие знаний об окружающей среде, причем эти знания представлены парами «вход-выход». При этом сама окружающая среда неизвестна обучаемой системе. Если на вход учителю и обучаемой системе подается обучающий вектор из окружающей среды, то учитель на основе имеющихся знаний может сформировать и передать системе желаемый отклик (действия, которые должна выполнить система), соответствующий данному входному вектору. Разность между желаемым и текущим откликом системы называется сигналом ошибки
. Параметры системы настраиваются при помощи комбинации обучающей выборки и сигнала ошибки с использованием различных методов оптимизации; настройка происходит пошагово для того, чтобы система имитировала поведение учителя. Оптимальные параметры позволяют системе корректно определять отклик для ранее невидимых векторов, поскольку знания учителя передаются в систему в максимально полном объеме.
Другим большим разделом машинного обучения является обучение без учителя (рисунок 2). В этом виде обучения системе предоставляются данные, а желаемый отклик не предусмотрен. Классический пример использования такого подхода – задача кластеризации, где заданное множество объектов разбивается на непересекающиеся подмножества (кластеры). Объекты выделяются в подмножества благодаря общим свойствам, в результате чего каждое из подмножеств состоит из схожих объектов, а между объектами разных подмножеств существуют серьезные различия. Совсем недавно, особенно с появлением технологий глубокого обучения, обучение без учителя стало полезным инструментом предварительной обработки в задачах обнаружения полезных представлений данных .
Для непосредственного процесса обучения использование полноразмерных входных данных может быть неоправданным или вовсе невозможным. По этой причине данные, как правило, подвергаются небольшой предварительной обработке, в результате которой алгоритмы машинного обучения в качестве входных данных используют наиболее важные признаки, извлеченные из исходных данных. Проблема такого подхода заключается в поиске и выборе тех признаков, которые являются более важными, чем другие.
Одной из ключевых задач в машинном обучении является способность алгоритма к обобщению. Вывод закономерностей из прецедентов означает возможность хорошо работать на новых, ранее неизученных входных данных, которую должен обеспечить используемый алгоритм. Чаще всего обучающая ошибка (то есть ошибка, возникающая в процессе обучения) может быть уменьшена. Однако основное отличие машинного обучения от методов оптимизации состоит в том, чтобы также была низкой ошибка обобщения, называемая тестовой ошибкой.
Тестовая ошибка определяется как ожидаемое значение ошибки на новом входе и обычно оценивается путем измерения производительности алгоритма на тестовой выборке примеров, которые были собраны отдельно от обучающей выборки. Величина средней ошибки обучения и небольшой разрыв между ошибкой обучения и тестовой ошибкой являются факторами, которые оказывают влияние на две центральные проблемы в машинном обучении, – недообучение и переобучение. Недообучение происходит в том случае, когда алгоритм не может получить достаточно низкое значение ошибки на обучающей выборке. Такая ситуация может возникнуть при использовании недостаточно сложных методов. Переобучение происходит, когда разрыв между ошибкой обучения и тестовой ошибкой слишком велик. Как правило, к этому приводит сложный метод обучения в сочетании с небольшим размером обучающей выборки. Цель этапа обучения состоит в том числе в минимизации ошибки.
На рисунке 3 показаны эффекты недообучения и переобучения.
На графике слева функция обучения охватывает не все точки (происходит недообучение), на графике справа возникает «ложное срабатывание» – в итоговый результат включается точка, являющаяся шумом (переобучение). На графике в центре проиллюстрирован пример обученного алгоритма.
GPU в задачах машинного обучения
Графический процессор очень хорошо подходит для решения задач, допускающих распараллеливание по данным, одновременно обладая средствами выполнения потоков арифметических операций, характеризуемых частыми обращениями к памяти
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.