Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Введение
Следует начать с того, что связь всегда имела огромное значение для людей. Особенно полезны системы мобильной связи. Не секрет, что системы радиосвязи, которые не используют для своей работы провода, разрабатывались для армии, полиции, флота и других специальных целей. Обывателям же долгое время приходилось быть рядом с телефоном, не имея возможности отлучиться от аппарата. Развитие систем мобильной связи позволило людям чувствовать себя более свободными в передвижении.
В настоящее время мобильная связь переживает период стремительного роста и развития, ежедневно обслуживая миллиарды абонентов по всему свету, и удовлетворяя их потребности. Непрерывное расширение объема услуг и повышение их качества делает мобильную связь доступной и приспособленной к широкому рынку потребителей.
Актуальность исследования состоит в том, что параметрическое представление речевого колебания основывается на описании речевого сигнала, как выходного отклика модели формирования речи. На первом этапе параметрического представления речевые колебания подвергаются процессу дискретизации и квантования, а затем обрабатываются для получения параметров модели. Параметры модели обычно делятся на параметры возбуждения и параметры голосового тракта.
Важным видится то, что одним из наиболее важных примеров приложений для обработки речевого сигнала является вокодер или голосовой кодер (voice-coder), созданный Дадли в 1930 году. Целью разработки вокодера было уменьшение полосы частот для передачи речи. Эта задача остается актуальной и сегодня, несмотря на наличие широкополосных спутниковых, микроволновых и оптических систем связи.
При этом кодирование речи обеспечивает компактное цифровое представление аналогового речевого сигнала, обеспечивая высокое качество передачи речи по цифровым телефонным сетям. Кроме того, возникает необходимость снижения скорости передачи (сжатия) речевых сигналов в военной и других областях для обеспечения закрытой связи.
Цель работы – исследование преобразования и обработки речевых сигналов в системах подвижной радиосвязи. Поставленная цель предполагает решение следующих задач:
изучить особенности параметрического кодирования речи;
рассмотреть вокодеры с линейным предсказанием (липредеры);
исследовать особенности кодирования речи в гибридных кодерах;
рассмотреть речевые кодеки абонентских терминалов стандарта GSM;
проанализировать особенности оценки качества передачи речевых сигналов в системах подвижной радиосвязи.
При написании работы использовались такие методы, как теоретическое обоснование темы, изучение научных источников, а также их сравнительный анализ.
Глава 1 Теоретические основы особенностей кодирования речи
1.1 Параметрическое кодирование речи
Начнем с того, что речь предназначена для общения. Возможности речи с данной точки зрения можно охарактеризовать по-разному. Один из количественных подходов основан на теории информации, разработанной К. Шенноном. Согласно этой теории, речь может быть описана ее информационным содержанием или информацией [1, с. 5]. Другой способ описать речь - представить ее как сигнал, то есть как акустическое колебание.
Для решения двух основных задач компилятивного синтеза было разработано параметрическое представление сигнала, абстрагированного от речевой волны и представляющего ее в виде определенных параметров [6, с. 155]. Этот подход уменьшает объем памяти, необходимый для словаря, и обеспечивает большую гибкость, чем с компилятивная модель.
Отметим, что параметры отражают наиболее характерную информацию либо во временной, либо в частотной области. Одним из подходов параметризации является представление речевой волны путем суммирования отдельных гармоник на этой частоте. Другой вариант параметрического представления речевого тракта – формантный, который генерирует речь искусственно, создавая необходимый набор резонансов. Данная система работает с параметрами основного тона и форматами.
Важным видится то, что при кодировании сигнальной формы практически не учитываются свойства артикуляционного аппарата человека, а также особенности его слухового восприятия. Тем не менее именно здесь заключен существенный ресурс избыточности речевого сигнала (РС). Широкое параметрическое представление речевого сигнала основано на использовании этого ресурса избыточности.
Таким образом, параметрическое представление РС основано, прежде всего, на данных о механизмах формирования речи, то есть применяется своеобразная модель речевого тракта, что, в свою очередь, привело к развитию таких систем, как анализ-синтез, называемых вокодерными системами или вокодерами.
Так, вокодером называется устройство синтеза речи, основанного на произвольном сигнале с богатым спектром [3]. Сегодня имеются как аппаратные, так и виртуальные реализации этого устройства. Данное устройство позволяет обеспечить большую пропускную способность канала связи, сжимая поток информации, а также позволяет кодировать передаваемую информацию, что особенно важно на данный момент, вследствие активного использования и продолжающегося развития коммуникационных технологий, таких как беспроводная мобильная связь.
Следует отметить, что главным недостатком вокодеров является низкое качество речи, в связи с чем они используются в основном в военных связях, где главное – не естественность речи, а ее высокая степень сжатия и, соответственно, хорошая разборчивость.
Работа вокодеров основана на анализе характеристик человеческой речи. На рисунке 1 показаны условно-частотные характеристики речи как функции времени.
Рисунок 1 - Пример распределения энергии в частотных диапазонах
На рисунке изображены частотные полосы (от 0 до 1 КГц, от 1 КГц до 2 КГц и т. д.), а также распределение энергии по ним при произнесении фразы. Как можно видеть из данного рисунка, энергия распределяется во времени только в некоторых частотных диапазонах и различается по величине. Отдельные пики энергии, которые возникают в одном частотном диапазоне, называются фонемами.
Далее, отметим, что различают следующие типы вокодеров (по принципу определения параметров фильтровой функции):
канальные (полосовые);
формантные;
ортогональные;
вокодеры с линейным предсказанием (липредеры - с Линейным ПРЕдсказанием РЕчи).
При этом в параметрическом вокодере из речевого сигнала выделяют два типа параметров и затем по этим параметрам на приеме синтезируют речь:
параметры, которые характеризуют огибающую спектра речевого сигнала (функция фильтра);
параметры, которые характеризуют источник речевых колебаний (генератора) - частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.
Так, в полосовых вокодерах речевой спектр разделен на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее количество каналов в вокодере придает большую естественность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговой или цифровой форме.
В свою очередь, огибающая спектра речи в формантных вокодерах описывается комбинацией формант (другими словами, резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина. [1, с. 121]
Далее, в ортогональных вокодерах огибающая мгновенного спектра расположена последовательно в соответствии с выбранной системой ортогональных базисных функций. Рассчитанные коэффициенты этого разложения передаются принимающей стороне. Широкое распространение получили гармонические вокодеры, которые используют разложение рядов Фурье.
Наконец, вокодеры с линейным предсказанием (Linear Prediction Coding, LPC) или липредеры, основой которых является оригинальный математический аппарат. В настоящее время передача информации в сотовых сетях, а также голосовая связь через Интернет (IP-телефония) является очень популярным методом кодирования с предсказанием. Они могут использоваться как в чистом виде, так и в сочетании с другими видами кодирования, например вокодерами, которые будут рассмотрены подробнее в следующем разделе.
1.2 Вокодеры с линейным предсказанием (липредеры)
В настоящее время в системах мобильной связи широко используются вокодерные методы, основанные на методе линейного предсказания. Суть метода речевого кодирования линейного предсказания (Linear Predictive Coding – LRS) заключается в том, что по линии связи передаются не параметры речевого сигнала, а параметры фильтра, в некотором смысле эквивалентные речевому тракту, и параметры сигнала возбуждения фильтра, который используется в качестве фильтра линейного предсказания [1, с. 150].
Отметим, что задачей кодирования на передающем конце линии связи является оценка параметров фильтра и параметров сигнала возбуждения, а задачей декодирования на приемном конце является пропускание сигнала возбуждения через фильтр, на выходе которого получается восстановленный речевой сигнал. Значения коэффициентов предсказания, которые являются постоянными на интервале кодируемого речевого сегмента (на практике длительность сегмента составляет 20 мс), определяются из условия минимизации среднеквадратичного значения остатка предсказания на интервале сегмента.
Необходимо сказать, что вокодеры с линейным предсказанием (рисунок 2,3) в отличие от вышеназванных применяет для передачи речи не фильтры, а систему линейного предсказания [2]. В линию передается разностный сигнал между истинным и предсказанным значениями. Коэффициенты предсказания применяются для предсказания управлением, восстанавливающим генератором на приеме и добавления генератором шума для передачи глухих и "свистящих" согласных.
Рисунок 2 - Схема передающей части вокодера с линейным предсказанием
Рисунок 3 - Схема приемной части вокодера с линейным предсказанием
Таким образом, процедура кодирования речи в методе линейного предсказания выглядит следующим образом:
оцифрованный речевой сигнал разрезается на отрезки длительностью 20 мс;
для каждого отрезка оцениваются параметры фильтра линейного предсказания и параметры сигнала возбуждения;
в простейшем случае может использоваться остаток предсказания, полученный путем пропускания речевого отрезка через фильтр с параметрами, найденными из оценки для этого отрезка;
параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.
Резюмируя вышесказанное, отметим, что процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого передаются одновременно с сигналом возбуждения
. Линейное предсказание является кратковременным и, как результат, не обеспечивает достаточной степени устранения избыточности речи, поэтому, помимо кратковременного предсказания, применяется долговременное, которое в значительной степени устраняет остаточную избыточность и приближает остаток предсказания по своим статистическим характеристикам к белому шуму.
Таким образом, прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей, которые улучшают это качество. Эти методы связаны с улучшением параметров возбуждения генераторов на принимающем конце. Поэтому из трех составляющих системы с предсказанием-аппроксимацией, предсказанием и методами восстановления (возбуждения генераторов) речи - все усовершенствования в методе линейного предсказания относятся к последней составляющей. Поэтому их иногда называют гибридными кодерами, потому что они являются гибридами вокодеров и кодеров сигналов. Кратко рассмотрим каждый из них в следующем разделе.
1.3 Кодирование речи в гибридных кодерах
Начнем с того, что многоимпульсное кодирование (MLC - Multi-Pulse PC) отличается от LPC тем, что предсказание касается не основного тона, а параметров передаваемых, а также принимаемых импульсов, что больше похоже на адаптивные методы кодирования. В отличие от последнего, предсказывается последовательность импульсов. В этом методе не нужно искать тип высказывания (речь читается вслух или нет) и находить параметры основного тона. Этот тип кодирования используется в широко используемой системе речи через интернет - Skype. Он позволяет передавать речь со скоростью 9,6 Кбит/с.
Далее, линейное предсказание с возбуждением усеченного остаточного сигнала (RELP LTP - Residual Excited Linear Predication Long Term Prediction). Он отличается от предыдущего тем, что нижняя часть речевого спектра кодируется и предсказывается в результате обработки, что уменьшает количество обработанных и предсказанных отсчетов. Использование RELP в некоторых европейских мобильных системах позволяет снизить скорость передачи в канале с 16 до 9,6 Кбит / с без существенного снижения качества речи.
Наконец, линейное предсказание с кодовым возбуждением (CELP - Code Excited Linear Prediction). Этот класс речевых кодеров занимает промежуточное место между кодерами формы сигнала и параметрическими вокодерами. Анализ речевых параметров проводится с интервалами 10-30 мс, что, в свою очередь, позволяет эффективно использовать CELP при скоростях передачи от 4 до 16 Кбит/с. Как видно из блок-схемы кодера ACELP (рисунок 4), вместо кодирования сигналов используется «кодовая книга возбуждения».
В данном случае каждый разностный сигнал связан со строкой (паттерном) сигналов. Эта строка содержит набор выборок, которые соответствуют остаточной последовательности, передаваемой на основе полученного значения ошибки. На приемном конце вместо декодера разностного сигнала также используется «кодовая книга возбуждения».
Рисунок 4 - Структурная схема кодера CELP
При этом имеется много разновидностей кодовых книг, которые можно классифицировать по:
принципу поиска кодов векторов (с полным перебором, двоичный или последовательный поиск и т.п.);
по способам обучения (фиксированная или адаптируемая книга);
по виду хранимой информации (выборки речи или реализация шума).
Отметим, что CELP позволяет воспроизводить речь с высоким качеством. Средний экспертный рейтинг: 3,5-3,5 [2]. Однако для этого требуется много вычислительных ресурсов, поэтому он основан на многих разновидностях кодеров. Далее, таблица 1, которую приведем ниже, позволяет сравнить качество методов при различных типах кодеров. Именно по ней проводится оценка качества.
Таблица 1 - Экспертная оценка по шкале Рифмованного Диагностического Теста (DRT) [2]
Оценка (%) Показатель качества
95-100 Превосходно
87-95 Хорошо
79-87 Удовлетворительно
70-79 Плохо
Менее 70 Неудовлетворительно
В таблице 2 приведем результаты оценки различных кодеров различными методами оценки.
Таблица 2 - Сравнение качества речи для основных типов кодеров [2]
Кодер Скорость кодирования, кбит/с Метод оценки
Диагностический рифмованный тест Диагностический критерий пригодности Метод экспертных оценок
ИКМ 64 95 73 4,3
QCLEP-13 14,4
4,2
АДИКМ 32 94
4,1
LD-CELP 16 94
4,0
MP- MLQ (G.723.1) 6,4
3,9/3,4
RPE-LTP (GSM) 13
3,5
MPLPC (Skyphone) 9,6
3,4
QCELP 9,6
3,4
CELP 8 93 68 3,7
LPC 2,4 90 54 2,5
Глава 2 Практические аспекты качества передачи речевых сигналов в системах подвижной радиосвязи
2.1 Речевые кодеки абонентских терминалов стандарта GSM
Постоянное совершенствование и развитие сотовой связи определяется как непрерывно растущим спросом на нее, так и внедрением новых технологий и подходов в предоставлении услуг связи абонентам. Сотовые сети на основе стандартов GSM являются достаточно распространенными на сегодняшний день и занимают подавляющую долю рынка. Этот стандарт способен обеспечить хорошее качество речи, передачу данных, текстовых и мультимедийных сообщений.
Как правило, контроль исправности и готовности элементов такой системы связи, как система подвижной радиосвязи общего пользования (СПР ОП), организуется по собственным каналам, например по каналам GSM [5, с. 135]. Как видно из рисунка 5, архитектура сети GSM состоит из двух систем. Каждая из этих систем состоит из ряда функциональных устройств, являющихся компонентами сети мобильной связи.
Рисунок 5 - Архитектура сети GSM
Данными системами являются:
Система коммутации – Network Switching System (NSS);
Система базовых станций – Base Station System (BSS).
Отметим, что система NSS подразумевает выполнение функций по обслуживанию вызовов, установления соединений и реализации всех услуг, которые предоставляются абоненту. Система коммутации включает в себя следующие элементы:
Mobile Switching Center (MSC) – Центр коммутации подвижной связи;
Home Location Register (HLR) – Домашний регистр местоположения;
Visitor Location Register (VLR) – Гостевой регистр местоположения;
Equipment Identity Register (EIR) – Регистр идентификации абонентского оборудования;
Authentication Center (AUC) – Центр аутентификации.
GSM - это цифровая система, поэтому аналоговая речь должна быть оцифрована на входе и восстановлена на выходе. Речевой кодер является первым элементом цифровой части передающего тракта АЦП [1, с. 49]. Основной задачей кодера является максимально возможное сжатие речевого сигнала, то есть максимально возможное устранение избыточности речевого сигнала при сохранении приемлемого качества. Компромисс между степенью сжатия и сохранения качества экспериментального и проблема получения высокой степени сжатия без чрезмерного снижения качества является основной трудностью при разработке кодера.
Далее, подчеркнем, что в приемном тракте перед ЦАП размещен речевой декодер, задача которого состоит в восстановлении цифрового сигнала речи по принятому кодированному сигналу (с присущей ему естественной избыточностью). Комбинация кодера и декодера называется кодеком. Кодирование исходного сигнала первоначально основывалось на данных о механизмах формирования речи. Этот метод использовал модель голосового пути и привел к таким системам, как анализ-синтез, называемый вокодерами.
Таким образом, в системе GSM определены три стандарта кодирования речи:
кодирование речи с полной скоростью (GSM FR);
кодирование речи с половинной скоростью (GSM HR);
улучшенное кодирование речи с полной скоростью (GSM EFR).
Важным видится то, что современные мобильные телефоны имеют речевые кодеры и декодеры, которые позволяют использовать любой из перечисленных стандартов.
Начнем с кодирования речи с полной скоростью, который использует модифицированный метод RPE-LTP - линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем. Упрощенная блок-схема кодера представлена на рисунке 6.
Рисунок 6 - Блок-схема полноскоростного кодера речи в системе GSM(FR)
Подчеркнем, что основными требованиями к кодеру являются уменьшение избыточности речевого сигнала и обеспечение в перерывах во время пауз передачи речи. Поэтому, система GSM использует метод передачи DTX прерывистый, который значит, что каждый канал речи является активным непрерывным.
Так, блок предварительной обработки кодера предыскажает входного сигнала с помощью цифрового фильтра восприятия, который подчеркивает верхние частоты, режет сигнала на сегменты по 160 выборок (20 мс) и взвешивает каждый сегмент окном Хемминга. Сигнал с выхода фильтра предыскажений анализируется согласно метода линейного предсказания, в результате чего определяются коэффициенты краткосрочного линейного предсказания (STP).
Далее, полученные параметры, которые представляют собой восемь коэффициентов отражения фильтра STP, преобразуются в логарифмические отношения площадей (LAR), которые могут быть представлены более компактно, чем сами коэффициенты отражения. Значения LAR представлены в цифровом виде 36 битами.
Найденные коэффициенты краткосрочного линейного предсказания затем используются в анализаторе фильтров STP для обработки одного и того же сегмента входных отсчетов. Результатом является 160 отсчетов сигнала остатка краткосрочного предсказания сигнала. Для дальнейшей обработки 20-мс сегмента кратковременного предсказания остаток z(n) делится на четыре подсегмента по 5 мс, по 40 проб каждый. Каждый подсегмент обрабатывается последовательно в блоках кодера отдельно.
Перед обработкой каждого подсегмента речевой кодер определяет параметры фильтра долгосрочного предсказания (LTP) -коэффициент (вес) предсказания g и задержку d. Результатом является субсегмент остатка долгосрочного предсказания. После отбрасывания последнего отсчета данный подсегмент отправляется в блок-анализатор с возбуждением регулярной импульсной последовательности (RPE). RPE -анализатор делит обрабатываемый подсегмент на три последовательности возбуждения, каждая из которых состоит из 13 импульсов
Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!
Наш проект является банком работ по всем школьным и студенческим предметам. Если вы не хотите тратить время на написание работ по ненужным предметам или ищете шаблон для своей работы — он есть у нас.
Нужна помощь по теме или написание схожей работы? Свяжись напрямую с автором и обсуди заказ.
В файле вы найдете полный фрагмент работы доступный на сайте, а также промокод referat200 на новый заказ в Автор24.