Обзор методов и технологий нейронных сетей
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Текущий обзор библиотек не будет охватывать многочисленные коммерческие программы, предпочитая им доступные решения с открытым исходным кодом. Двумя наиболее популярными свободными OCR-приложениями являются OCRopus и Tesseract, которые рассматриваются более подробно.
Tesseract разрабатывался как проприетарное программное обеспечение в лабораториях фирмы Hewlett Packard с 1985-го по 1994-й гг. В 1996-м в его исходный код, написанный на языке C, были внесены некоторые изменения для совместимости с операционной системой Windows, а также дописаны фрагменты кода на языке C++. В течение следующего десятилетия Tesseract не был востребован, и только в 2005-м году исходный код приложения был открыт фирмой Hewlett Packard совместно с Университетом Невады в Лас-Вегасе. В 2006-м году проект был выкуплен Google.
Tesseract способен распознавать практически все символы в кодировке UTF-8, включая кириллицу. Однако при распознавании текста используются словари, поэтому язык распознаваемого текста должен быть унифицирован.
Tesseract совместим с тремя операционными системами: Windows, Linux и Mac OS, для работы имеется только интерфейс командной строки. Результат работы программы будет иметь очень низкое качество, если входные изображения не будут обработаны в соответствии с требованиями: размер не менее 20х20 пикселей, любые повороты или перекосы символов должны быть скорректированы, иначе текст не будет распознан, низкочастотные изменения яркости должны быть отфильтрованы без потери качества, в противном случае этап бинаризации изображения уничтожит большую часть обрабатываемого текста, а темные границы должны быть удалены вручную, поскольку они могут быть неверно истолкованы как символы.
Наиболее высокие результаты распознавания достигаются при четком отделении текста от фона. Обычно гарантировать подобное на практике чрезвычайно сложно, поэтому для решения конкретных задач используются другие методы, в которых выполняется обучение разного рода классификаторов и детекторов текста
Зарегистрируйся, чтобы продолжить изучение работы
. Тем не менее, в ряде задач использование OCR Tesseract может оказаться полезным. Например, сканы документов или книг зачастую не содержат большого количества зашумлений. На рисунке 7 приведен пример распознавания текста на изображении с использованием библиотеки Tesseract.
Для применения программы в собственных проектах можно воспользоваться библиотекой с открытым исходным кодом Pytesseract – пакет Tesseract для языка программирования Python. Pytesseract сохраняет изображение во временный файл на диске, а затем вызывает бинарный файл Tesseract, записывая полученный результат в файл. При наличии установленного Python3 установка Pytesseract выполняется при помощи менеджера управления пакетами pip:
pip install pytesseract
Другими популярными обертками Tesseract для Python являются Pyocr и Textract, который позволяет работать с большим количеством других форматов файлов, таких как csv, epub, mp3, pdf и т.д. Устанавливаются они аналогично:
pip install pyocr
pip install textract
Кроме того, для работы с растровой графикой необходимо также установить библиотеку PIL (Python Imaging Library):
pip install pillow
Для распознавания при помощи Pytesseract используется метод image_to_string(), который преобразует изображение в строку текста. На вход передается ссылка на временный файл картинки.
Textract вызывает метод process(), в котором явно указывается кодировка текста и метод преобразования.
Операции для преобразования строк в Pyocr находятся в модуле builders, а инструменты, необходимые для работы с изображениями, подключаются в основной программе при помощи get_available_tools()[0]. Метод DigitBuilder() явно указывает на необходимость преобразования цифр.
OCRopus был специально разработан для использования в крупных проектах по оцифровке книг, таких как Google Books и Internet Archive, и поддерживает большое количество языков и шрифтов
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!