Логотип Автор24реферат
Задать вопрос
Статья на тему: Исследование и разработка системы распознавания текста на изображении
30%
Уникальность
Аа
15650 символов
Категория
Программирование
Статья

Исследование и разработка системы распознавания текста на изображении

Исследование и разработка системы распознавания текста на изображении .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод Эмоджи на новый заказ в Автор24. Это бесплатно.

Аннотация: В работе рассмотрена технология создания системы распознавания символов на изображении. На данный момент существует множество подходов к решению этой проблемы, причем большинство из них неэффективны для изображений, символы которых расположены на сложном фоне и подвержены шумовым, аффинным и проекционным искажениям. Предлагаемая методика состоит из следующих этапов: предварительная обработка изображения, сегментация текста и распознавание, которое осуществляется сверточными нейронными сетями. Данная методика применительно к задаче распознавания автомобильных номеров в результате проведенных экспериментов демонстрирует высокую надежность и точность, в том числе в условиях слабого освещения, поэтому разработанный метод распознавания может быть рекомендован для использования в коммерческих целях.
Abstract: The paper discusses the technology of creating character recognition systems on the image. Now, there are many approaches to solving this problem, and most of them are ineffective for images whose symbols are located on a complex background and are vulnerable to noise, affine and projection distortions. The proposed technique consists of the following stages: image pre-processing, text segmentation and recognition by convolutional neural networks. As a result of the experiments performed, this technique as applied to the recognition of car numbers demonstrates high reliability and accuracy, including in low light conditions, therefore, the developed recognition method can be recommended for commercial use.
Ключевые слова: МАШИННОЕ ОБУЧЕНИЕ, ГЛУБОКОЕ ОБУЧЕНИЕ, СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ, АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ НОМЕРОВ, ОБРАБОТКА ИЗОБРАЖЕНИЙ, БИНАРИЗАЦИЯ, СЕГМЕНТАЦИЯ
Keywords: MACHINE LEARNING, DEEP LEARNING, CONVOLUTIONAL NEURAL NETWORKS, AUTOMATIC NUMBER-PLATE RECOGNITION, IMAGE PROCESSING, BINARIZATION, SEGMENTATION
Современные методы распознавания символов текста позволяют решать ряд научных, а также прикладных задач, таких как восстановление документов, публикация текста на веб-странице, оцифровка книг, автоматизация систем учета в бизнесе, определение номера банковской карты. Поскольку ряд характеристик текстовых данных имеет свойство меняться (информация может быть нанесена на изображения вручную или с использованием разных шрифтов; символы могут содержать цифровые дефекты или отображены на изображениях частично; сами изображения могут иметь сложную фоновую структуру), методы, положенные в основу программных систем, должны обеспечивать высокую точность и быстродействие, при этом оставаясь эффективными в естественных условиях. В связи с этим особую актуальность приобретает разработка систем распознавания символов с большой нагрузкой, которые ориентированы на распознавание коротких текстов, не имеющих строгого стандарта, например, американских автомобильных номеров. Разработка программной системы сопряжена с рядом проблем:
Освещение: из-за воздействия окружающей среды (свет фар, дождь и т.д.) освещение входного изображения меняется
Сложный фон: фон номерных пластин может содержать рисунки со сложными объектами, которые трудно отделимы от символов, находящихся на переднем плане
Расположение региона (штата): расположение идентификатора в номерных знаках США варьируется от штата к штату. Это затрудняет обобщение методов, лежащих в основе системы распознавания, и требует больших вычислений
Наличие контуров, теней, нежелательных символов и т.д.
Этап предобработки изображения, содержащего автомобильный номер, включает в себя коррекцию изображения (удаление шумов с фона номерной пластины, устранение неравномерного распределения яркости и эффектов потери фокуса) и устранение избыточной информации

Зарегистрируйся, чтобы продолжить изучение работы

. Этап предварительной обработки является не менее важным, чем все последующие – от его успеха зависит качество сегментации изображения. Предлагаемый в работе метод использует анизотропную диффузию и эквализацию гистограммы изображения.
Поскольку изображения могут иметь ряд многочисленных особенностей из-за специфики окружающей среды, рассмотрение одного метода бинаризации неэффективно. Для лучшей сегментации символов предлагается провести бинаризацию гибридным методом : к входному изображению применить пять методов бинаризации, среди которых выбрать лучший в зависимости от качества получаемого результата.
Глобальный метод выбирает пороговое значение для классификации пикселя изображения – фон или передний план . Пороговое значение основано на требуемом проценте фоновых пикселей и рассчитывается для части изображения, содержащей необходимую текстовую информацию.
Метод Саувола относится к методам локальной адаптивной бинаризации – он вычисляет индивидуальный порог бинаризации Tx,y для каждого пикселя x,y:
Tx,y=mx,y [1+kσx,yR-1 (1)
где
mx,y – среднее значение,
σx,y – среднеквадратическое отклонение в точке x,y,
R – максимальное отклонение (R=128 для оттенков серого),
k – смещение, которое принимает положительные значения в диапазоне [0,2; 0,5].
Алгоритм Оцу позволяет минимизировать среднюю ошибку сегментации, возникающую при принятии решения о принадлежности пикселя фону или объекту изображения:
Вычислить сумму Pik для k=0,1,2, …, L-1 по формуле
Pk=i=0kpi (2)
где
pi – компоненты нормализованной гистограммы для i=0, 1, 2, ...,L-1,
L – максимальное значение шкалы оттенков серого.
Вычислить средние значения mk для k=0,1,2, …, L-1 по формуле
mk=i=0ki×pi (3)
Вычислить общую яркость mG по формуле
mG=i=0L-1i×pi (4)
Вычислить межклассовую дисперсию σb2(k) для k=0,1,2, …, L-1 по формуле
σb2= [mG × P1k - mk]2(P1k1- P1k) (5)
Найти порог Оцу как значение, для которого σb2(k) максимальна
Часто используемым в задачах компьютерного зрения является алгоритм Кэнни обнаружения границ :
Применить к входному изображению фильтр Гаусса для удаления шума
Найти градиенты яркости, применяя матрицы свертки к каждому пикселю изображения:
Gxi, j=-101-202-101
Gyi, j=121000-1-2-1
где i, j – координаты пикселя в исходном изображении
Вычислить значение градиента G и угол направления вектора градиента θ, используя соответствующие формулы:
G(i, j)=Gx2i, j+Gy2i, j (6)
θi, j=tan-1Gyi, jGxi, j (7)
Отметить как границы только локальные максимумы
Определить итоговые границы путем удаления всех «слабых» границ
Полученное в результате работы алгоритма Кэнни изображение делится на области, которые используются для вычисления локального порога. Пороговое значение для каждого блока находится при помощи шкалы оттенков серого исходного изображения и соседних для всех граничных пикселей, затем полученные бинарные блоки объединяются для создания целого двоичного изображения
Медианный стекинг представляет собой технологию наложения изображений с целью уменьшения шума, при которой значение яркости каждого пикселя вычисляется путем нахождения медианного значения его яркости из набора изображений. В настоящей работе для медианного стекинга предлагается использовать бинаризованные изображения, полученные после применения вышеприведенных алгоритмов.
На рисунке 2 представлены изображения (1–5), которые были получены в результате применения пяти выбранных методов бинаризации к некоторому входному изображению (рисунок 1). Изображение номерной пластины, бинаризованное при помощи обнаружения границ, содержит меньшее количество так называемых артефактов – отношение пикселей переднего края к фоновым пикселям является максимальным

50% статьи недоступно для прочтения

Закажи написание статьи по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!

Промокод действует 7 дней 🔥
Оставляя свои контактные данные и нажимая «Заказать работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.
Больше статей по программированию:

Машинное обучение в биржевой торговле

8913 символов
Программирование
Статья
Уникальность

Алгоритмы при территориально-резонансном приеме

12088 символов
Программирование
Статья
Уникальность
Все Статьи по программированию
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач