Методы автоматической классификации текстов

Методы автоматической классификации текстов .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.

Введение
Следует начать с того, что частичной причиной масштабного прорыва в области искусственного интеллекта выступил лавинообразный рост информации, потому что информация является основой обучения искусственного интеллекта. При этом нейронные глубокие сети выступают в настоящее время одним из наиболее популярных методов машинного обучения.
Ключевая цель современных исследований в сфере искусственного интеллекта – это создание систем, которые, с одной стороны, могут применять большое количество знаний, которые передаются им с помощью специалистов, а с другой – имеют возможность вступать в диалог и, соответственно, объяснять свои собственные выводы. Это, в свою очередь, предполагает наличие эффективного управления базой знаний, большой по объему и хорошо структурированной.
Так, одной из ключевых задач компьютерной лингвистики выступает классификация текстов, так как к ней сводится и ряд других задач: определение тематической принадлежности текстов, далее, автора текста, а также эмоциональной окраски высказываний и т.д. С целью обеспечения как информационной, так и общественной безопасности существенное значение отводится анализу контента в телекоммуникационных сетях, который содержит противоправную информацию, в частности данные, которые связаны с терроризмом, наркоторговлей, подготовкой массовых беспорядков и прочее.
Актуальность данной работы состоит в том, что в настоящее время построение систем машинного обучения – это одна из наиболее популярных, актуальных, а также современных сфер деятельности человека на стыке информационных технологий, математического анализа и статистики.
Так, машинное обучение представляет собой подобласть компьютерной науки, занимающейся многими задачами такими, как распознавание лиц, речи, а также обработка естественного языка, прогнозный анализ, глубокое обучение и многое другое. Благодаря современным различным инструментам эти задачи сегодня решаемы. В настоящее время имеются как разнообразные инструменты, так и платформы для решения задач машинного обучения.
Наиболее важным представляется то, что алгоритмы автоматического обучения сегодня являются неотъемлемой частью современного мира. Несмотря на то, что все это скорее напоминает научную фантастику, однако на самом деле работа всех современных интерфейсов приложений, сервисов и многих других цифровых устройств основана именно на инновационных алгоритмах искусственного интеллекта, а также машинного обучения.
Сущность вышеизложенного сводится к тому, что в настоящее время анализ и исследование потенциальных изменений, которые может повлечь за собой машинное обучение и его широкое применение, выступают крайне важными аспектами.
Цель работы – изучение особенностей методов автоматической классификации текстов. Поставленная цель предполагает решение следующих задач:
рассмотреть общие понятия и особенности машинного обучения;
выполнить обзор и сравнение методов автоматической классификации текстов.
При написании работы использовались такие методы, как теоретическое обоснование темы, анализ и синтез, изучение научных источников, а также их сравнительный анализ.
1 Общие понятия и особенности машинного обучения
Начнем с того, что зачастую термины искусственный интеллект (ИИ), машинное обучение и глубокое обучение применяются бессистемно в качестве взаимозаменяемых, однако, на самом деле, между ними есть определенные различия. Далее, рассмотрим данные термины подробнее. Прежде всего искусственный интеллект является широким понятием, которое касается передового машинного интеллекта. Искусственный интеллект (Artificial Intelligence) означает, что компьютер тем или иным образом имитирует поведение человека.
Отметим, что впервые термин «artificial intelligence» был предложен в 1956 году на конференции в городе Ганновере (США), посвященной разработке методов решения логических задач [5, с. 16]. На рисунке 1 представлены этапы развития искусственного интеллекта.
Рисунок 1 – Этапы развития искусственного интеллекта
Так, А.А. Уруновым и И.Б. Родиной искусственный интеллект определяется как наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ [6, с. 139]. Однако существенно то, что само понятие «искусственного интеллекта» ничего не говорит о том, каким образом данные задачи решаются. Между тем имеется множество разных методов, в том числе методы, основанные на правилах или экспертных системах. Так, машинное обучение, как одну из категорий методов стали особенно широко применять в 1980-х годах.
Машинное обучение (ML, Machine Learning) - это одно из направлений искусственного интеллекта, состоящее из методов, которые позволяют компьютерам делать выводы на основе данных и предоставлять искусственный интеллект приложениям. Необходимо отметить, что нет данных – нет и машинного обучения.
Если говорить простыми словами, то машинное обучение - это целый набор методов и алгоритмов, которые могут предсказать какой-то результат по входным данным

Зарегистрируйся, чтобы продолжить изучение работы

. Например, имеется какая-то информация по тому, сколько стоили ценные бумаги в каждый момент из какого-то длинного промежутка времени, алгоритмы машинного обучения могут предсказать, сколько эти бумаги будут стоить в будущем. Алгоритмов машинного обучение большое множество: одни эффективны для решения одного типа задач задач, вторые - для другого. Основные задачи машинного обучения:
регрессия (предсказание числовых значений признаков, например, предсказание будущих объемов продаж на основании известных данных о продажах в прошлом);
классификация (предсказание того, к какому из известных классов относится объект, например, предсказание того, вернет ли заемщик кредит, на основании данных о том, как возвращали кредиты заемщики в прошлом);
кластеризация (разделение большого множества объектов на кластеры - классы, внутри которых объекты похожи между собой, например, сегментирование рынка, разделение всех потребителей на классы так, что внутри классов потребители похожи между собой, а в разных классах - отличаются);
поиск аномалий (поиск редких и необычных объектов, существенно отличающихся от основной массы, например, поиск мошеннических транзакций).
Благодаря машинному обучению компьютеры могут распознавать на загруженных фотографиях лица, пейзажи, заданные предметы. В современном мире без машинного обучения уже сложно представить многие процессы. Мы сами того не подозревая, сталкиваемся с этим явлением ежедневно - распознавание текста, машинного почерка, обработка массива данных, поисковики, переводчики. В медицине при помощи машинного обучения уже сегодня проводят диагностирование, способное выявить сложнейшие заболевания на самых ранних сроках, а значит и спасти больше человеческих жизней.
Ключевой принцип состоит в том, что машины «обучаются» на основе заранее полученных данных. В настоящий период машинное обучение – это весьма перспективный инструмент для бизнеса, в основе которого лежит искусственный интеллект. Отметим, что благодаря системам машинного обучения есть возможность быстрым образом применять знания, полученные при обучении на больших наборах данных, что, в свою очередь, дает возможность преуспевать в разного рода задач таких, как распознавание лиц, распознавание речи, распознавание объектов, перевод, и многих других.
Далее, рассмотрим основную задачу машинного обучения, которая состоит в следующем:
Этап № 1 – обучение с учителем.
На входе: данные – выборка претендентов «объект-ответ», на выходе: алгоритм, по любому объекту предсказывающий ответ.
Этап № 2 – применение.
На входе: данные – новый объект, на выходе – предсказание ответа на новом объекте.
Нельзя не сказать о том, что глубокое обучение (DL, Deep Learning), в свою очередь, представляет собой расширенный случай машинного обучения, который предоставляет возможность компьютерам более сложные задачи. Можно сказать, что Deep Learning – это инновационное направление в сфере машинного обученное, которое было введено, прежде всего, с целью приближения машинного обучения к искусственному интеллекту, выступающим его первоначальной целью.
Безусловно, в скором времени время обучения искусственного интеллекта станет существенно меньше [4], а это, в свою очередь, незамедлительно будет способствовать повышению эффективности моделей машинного и глубинного обучения.
Важно то, что алгоритмы машинного обучения являются универсальными, поэтому совершенно не привязываются к конкретному виду бизнеса (отрасли экономики). Другими словами, все задачи можно решить с помощью одного и того же математического аппарата. В таблице 1 показаны цели использования алгоритмов машинного обучения бизнесом [5].
Таблица 1 – Цели использования алгоритмов машинного обучения бизнесом [5]
Цель использования %
Управление активами на рынке ценных бумаг 47%
Аналитика больших данных 46,40%
Риск-менеджмент 37,50%
Кибербезопасность 35,10%
Оптимизация системы продаж 30,40%
Кредитный скоринг 28,60%
Оптимизация ценовой политики 26,80%
Алгоритмическая торговля на рынке ценных бумаг 25,60%
Прогнозирование продаж 25,60%
Анализ маркетинговых данных и сегментация клиентов 24,00%
Кроме того, что в настоящее время от правильности и эффективности организации работы с документами зависит эффективность работы совершенно любой компании. В данном случае опять приходит на помощь машинное обучение, в частности различные методы автоматической классификации текстов.
2 Обзор и сравнение методов автоматической классификации текстов
Следует начать с того, что можно выделить четыре этапа решения задачи классификации [1, с. 86]:
предобработка и индексация документов;
уменьшение размерности пространства признаков;
построение и обучение классификатора посредством методов машинного обучения;
оценка качества классификации.
Подчеркнем, что, выбирая определенный алгоритм классификации, необходимо учитывать особенности каждого из них. До сих пор нерешенный вопрос – это определение набора признаков классификации, их количества, а также способов вычисления весов