Структура и процедура преобразования текста в речь
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Процедура преобразования текста в речь (TTS) состоит из двух основных этапов. Первый – анализ текста, когда входной текст транскрибируется в фонетический или какой-либо другое лингвистическое представление. Второй этап – это генерация речевых сигналов. Эти две фазы обычно называют синтезом высокого и низкого уровня. Упрощенная версия процедуры представлена на рисунке 1.
Рисунок. 1. Упрощенная схема синтезатора речи
Синтезир. речь
Генерация речевого потока и просодических хар-к
Анализ текста
Входной текст
Вводимый текст может быть, например, данными из текстового процессора, стандартного ASCII из электронной почты, мобильного текстового сообщения или отсканированным текст из газеты. Затем строка символов предварительно обрабатывается и анализируется в фонетическое представление, которое обычно представляет собой строку фонем с некоторой дополнительной информацией для правильной интонации, продолжительности и ударения. Звук речи наконец генерируется синтезатором низкого уровня по информации из высокоуровневого.
Самый простой способ воспроизвести синтетическую речь - это воспроизводить длинные предварительно записанные образцы естественной речи, такие как отдельные слова или предложения. Этот метод конкатенации обеспечивает высокое качество и естественность, но имеет ограниченный словарный запас и, как правило, только один голос. Метод очень подходит для некоторых информационных и информационных систем. Тем не менее, очевидно, что мы не можем создать базу данных всех слов и общих имен в мире. Таким образом, для неограниченного синтеза речи (преобразования текста в речь) мы должны использовать более короткие фрагменты речевого сигнала, такие как слоги, фонемы, дифоны или даже более короткие сегменты.
Как правило, системы синтеза речи включают в себя четыре основные части или процессоры: лингвистический процессор, просодический процессор, фонетический процессор, и акустический процессор.
Лингвистический текстовый процессор необходим для того, чтобы:
Выделять предложения в тексте и разбивать их на отдельные слова;
Производить разметку текста на буквы, а так же на специальные символы, цифры и знаки пунктуации
Зарегистрируйся, чтобы продолжить изучение работы
. Это необходимо для того, чтобы дальнейшая обработка текста была успешной. От этого непосредственно зависит качество синтезируемой речи;
Учитывать разметку текста, которая была проставлена пользователем, так как именно эта разметка является наиболее важной, в отличие от обработки текста по умолчанию.
Нормализовать текст. Этот этап является не менее важным, поскольку текст, который подается на синтез, в основном может содержать многочисленные обозначения, которые невозможно прочитать в исходном виде. Таким образом, необходима их расшифровать, в чем и заключается процедура нормализации.
Определять местл ударения, а также морфо-грамматические характеристики слов в предложении. Стоит отметить, что для того, чтобы определить место ударения в слове в системе синтеза речи по тексту используется морфограмматический словарь.
Осуществлять снятие омонимии. Эта процедура заключается в выборе одной из нескольких словоформ, которые соответствуют определенному слову в тексте. Словоформы могут различаться в зависимости от места ударения (например, замо́к или за́мок), наличия в ней буквы «ё» (например, все или всё), грамматических характеристик (например, вопрос о том является лексическая единица «стали» глаголом или существительным). Выбор словоформы основан на анализе контекстов, а также он зависит от его грамматической позиции в предложении.
Просодический процессор. Качество синтезируемой речи непосредственно зависит от просодической обработки текста, которая состоит в интонационном оформлении текста
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!