Сравнительный анализ систем синтеза речи
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
За последнее время технология синтеза речи эффективно и стремительно развивается. Главным достижением в области синтеза речи является то, что системы синтеза речи могут озвучивать произвольный текст, и делая это с качеством близким к естественному звучанию. Кроме того, систем синтеза речи позволяют осуществлять такое озвучивание в реальном времени. На сегодняшний день синтез речи используется достаточно широко: в системах голосового самообслуживания, транспортных компаний, в проведении телефонных опросов, в приложениях мобильных устройств, с помощью синтеза речи озвучиваются аудиокниги. С каждым днем синтезированная речь становится частью жизни человека и общества. Именно поэтому проблема выбора оптимального метода синтеза речи и сравнения систем синтеза речи между собой является особенно значимыми. Актуальность данной работы определяется тем, что сегодня решены не все вопросы создания универсальной системы синтеза речи. Кроме того, вопрос определения общепризнанного метода получения качественной синтезированной речи, наиболее близкой по звучанию к естественной, является актуальным. Цель настоящего исследования состоит в изучении существующих систем синтеза речи и их сравнении. Для достижения поставленной цели необходимо решить ряд следующих задач: Рассмотреть историю развития систем синтеза речи; Рассмотреть структуру системы синтеза речи; Изучить особенности существующих систем синтеза речи; Провести сравнительный анализ систем синтеза речи. Предмет исследования составляют методы синтеза речи. Объект исследования – синтезируемая речь, её характеристики с точки зрения восприятия слушающими. Теоретическую основу исследования составили работы О.Ф. Кривновой, Б. М. Лобанова, С.В. Рыбина, Дж. Фланагана, A. Black, T. Dutoit, D. H. Klatt, P. Taylor, J. Van Santen. Структура работы. Работа состоит из Введения, двух глав, заключения и списка литературы.
Системы синтеза речи: их история развития
Речь является основным средством общения между людьми. Автоматический синтез речи представляет собой технологию, которая позволяет преобразовать входную текстовую информацию в звучащую речь [Рыбин, 2014, с.5]. Важнейшим аспектом является качество син...
Структура и процедура преобразования текста в речь
Процедура преобразования текста в речь (TTS) состоит из двух основных этапов. Первый – анализ текста, когда входной текст транскрибируется в фонетический или какой-либо другое лингвистическое представление. Второй этап – это генерация речевых сигнало...
Открыть главуКомпилятивный синтез
Компилятивный синтез – это процесс составления сообщения, который основан на предварительно записанном словаре исходных элементов. Таким образом, что синтезируемые сообщения ограничены объёмом словаря. В большинстве случаев, количество слов в словаре...
Открыть главуСелективный синтез речи
На сегодняшний день именно метод Unit Selection – это одна из популярных и основных технологий автоматического синтеза речи. Это объясняется тем, что он позволяет получать синтезированную речь, которая по своим характеристикам наиболее приближена к е...
Заключение
В ходе исследования была рассмотрена теоретическая база, которая лежит в основе технологии синтеза речи, а также история создания синтезаторов речи. Можно сделать предполагать, что за всю длительную историю технологии синтеза речи приоритеты и направления исследований значительно менялись. Это обусловлено не только целями, которые ставились перед системами синтез. Так, изначально ученые пытались определить возможность получения звуков, которые будут похожи на человеческую речь, затем, важной задачей было моделирование процессов речеобразования, при этом важно было получить разборчивое чтение произвольного текста, а затем и естественную, выразительную манеру чтения компьютером. Важно отметить также, что история и успешность систем синтеза речи непосредственно связаны с развитием науки техники. В основном, этом зависит от развития компьютерной техники, и таких наук, как физика, математика, информатика, физиология, психология и лингвистика. В работе рассматривалось современное состояние систем синтеза речи, перспективы развития данной отрасли. Основная задача исследования состояла в проведении сравнительного анализа систем синтеза речи. Для этого были рассмотрены основные методы, которые применяются при создании системы синтеза речи. На сегодняшний день в сфере синтеза речи существуют системы, основанные на таких основных методах, как: параметрический синтез; компилятивный синтез; синтез речи по фонетическим правилам; селективный синтез речи. Кроме того, речевые синтезаторы можно разделить на два типа: синтезаторы с ограниченной словарной базой и синтезаторы с неограниченной словарной базой. Для каждого подхода были выявлены свои преимущества и недостатки. В результате исследования, в качестве наиболее эффективного и популярного подхода выступает селективный метод синтеза речи, основанный на методе Unit Selection. Суть его состоит в том, что синтезированная речь компилируется не из базы специально записанных элементов (аллофонов, дифонов, трифонов, полуфонов, слогов и т. п.), каждый из которых представлен единственным вариантом, а из произнесенных предложений естественного языка, и для каждого элемента из множества выбирается наиболее подходящий вариант. Прежде всего, стоит отметить, что данный метод позволяет получить максимально естественную синтезированную речь. Кроме того, он предоставляет полный контроль за процессом синтеза. Однако, для получения высококачественного результата необходим полный, сбалансированный и корректно размеченный речевой корпус.
Список литературы
Бабкин А. В., Захаров Л. М. Оценка качества системы синтеза речи, разработанного в МГУ // Труды Международного семинара «Диалог’99». — Таруса, 1999. — С. 12–25. Богданова Н. В. Живые фонетические процессы русской речи: пособие по спецкурсу. — СПб., 2001. — С. 286. Брызгунова Е. А. Интонация // Русская грамматика. М., 1980. — Т. 1. — С. 96–122. Кейтер Дж. Компьютеры — синтезаторы речи. — М.: Мир, 1985. — 237 c Кодзасов С. В., Кривнова О. Ф. Общая фонетика. — М., 2001. — 592 с. Кривнова О. Ф. Автоматический синтез русской речи по произвольному тексту (вторая версия с женским голосом) // Труды Международного семинара "Диалог98". — Таруса, 1998. — С. 498–511. Кривнова О. Ф., Захаров Л. М., Строкин Г. С. Подбор текстового материала и статистический инструментарий для создания речевых корпусов // Сборник трудов XI сессии Российского акустического общества. Том 3. Акустика речи. Медицинская и биологическая акустика. — М.: ГЕОС, 2001(b). — С. 87–92 Кузнецов В. Б., Отт А. В. Автоматический синтез речи. Алгоритм преобразования «буква-звук» и управление длительностью речевых сегментов. — Таллинн, 1989. — 135 с. Лобанов Б. М. и др. Синтезатор персонализированной речи по тексту “ЛобаноФон-2000” // Тр. Международной конференции, посвящённой 100- летию российской экспериментальной фонетики. — СПб, 2001 — С. 101– 104 Лобанов Б. М. Микроволновой синтез речи по тексту // Анализ и синтез речи: сб. науч. трудов / научн. ред. Б. М. Лобанов. — Мн.: Институт технической кибернетики АН БССР, 1991. — С. 57–73 Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи. — Минск, «Белорусская Наука», 2008. — 316 с Лобанов Б. М. Проблема разрешения «Ё»-омографов при синтезе речи по тексту // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009». — Вып. 8 (15). — М.: РГГУ, 2009. — С. 291–298. Обжелян Н. К., Трунин-Донской В. И. Машины, которые говорят и слушают. — Кишинев, 1987. — 175 с. Потапова Р. К. Речь: коммуникация, информация, кибернетика. — М., 2015. — 600 с. Рыбин С. В. Синтез Речи [Текст]: Учебное пособие по дисциплине "Синтез речи". – СПб: Университет ИТМО, 2014. – 92 с. Смирнова Н. С., Хитров М. В. Фонетически представительный текст для фундаментальных и прикладных исследований русской речи // Изв. вузов. Приборостроение. — 2013. — Вып. 2. — С. 5–10. Фланаган Дж. Анализ, синтез и восприятие речи. — М.: Связь, 1968. — 396 с Black A. W, Taylor P. CHATR: A Generic Speech Synthesis System // COLING94. — Japan, 1994. — P. 983–986 Black A. W. Perfect Synthesis for all of the people all of the time // Keynote, IEEE TTS Workshop. — Santa Monica, CA, 2002. — P. 167–170. Black A. W., Zen H., Tokuda K. Statistical parametric speech synthesis // Proc. ICASSP 2007. — 2007. — P. 1229–1232. Dutoit T. Аn Introduction to Text-to-Speech Synthesis. — Dordrecht–Boston– London, 1997. — 286 p. Klatt D. Review of Text-to-Speech Conversion for English // JASA. — 1987. — Vol. 82 (3). — P. 737–793. Klatt D. H. Software for a cascade/parallel formant synthesizer // JASA. — 1980. — Vol. 67. — P. 971–995. Lemmetty, S. Review of Speech Synthesis Technology. Master’s Thesis, Helsinki University of Technology. — 1999. — 104 p. Tokuda K., Nankaku Y., Toda T., Zen H., Yamagishi J., Oura K. Speech Synthesis Based on Hidden Markov Models // Proceedings of the IEEE. — 2013. — Vol. 101. — No. 5. — P. 1234–1252. Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. 474 p. Van Santen J. Evaluation // Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. — Kluwer, Dordrecht, 1998. — P. 229–244. Van Santen J. P. H., Buchsbaum A. L. Methods for optimal text selection. Proc. of Eurospeech. — Rhodes, Greece, 1997. — P. 553–556.