Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
ЛЕКЦИЯ 20. Основы IP-телефонии
1. Общие вопросы
Концепция передачи голоса по сети с помощью персонального компьютера сформировалась в Университете штата Иллинойс (США). В 1993 г. Чарли Кляйн опубликовал Maven - первую программу для передачи голоса по сети с помощью PC. Примерно в то же время одним из самых популярных мультимедийных приложений в сети стала CU-SeeMe, программа видеоконференций для Macintosh (Mac), разработанная в Корнельском университете.
Апрель 1994 г. Во время полета челнока Endeavor NASA передало на Землю его изображение с помощью программы CU-SeeMe. Полученный со спутника сигнал поступал на Maven, соединенную с Интернетом, и любой желающий мог услышать голоса астронавтов. Потом одну программу встроили в другую, и появился вариант CU-SeeMe с полными функциями аудио и видео как для Mac, так и для PC.
Февраль 1995 г. Израильская компания VocalTec предложила первую версию программы Internet Phone для владельцев мультимедийных PC, работающих под Windows. Это стало важной вехой в развитии интернет-телефонии. VocalTec надеялась использовать популярные в то время текстовые каналы Internet Relay Chat (IRC) в качестве двустороннего средства общения между людьми, имеющими сходные интересы. Но компании не удалось договориться с Eris Free Network (EFNet), курирующей IRC, поэтому доступ к этим общественным каналам для Internet Phone был закрыт. Через некоторое время была создана частная сеть серверов Internet Phone, и уже тысячи людей загрузили эту программу с домашней страницы VocalTec, - так начиналась практика регулярного общения.
В том же 1995 г. другие компании очень быстро оценили перспективы, которые открывала возможность разговаривать, находясь в разных полушариях и не платя при этом за международные звонки.
В сентябре того же года в розничной продаже появилась первая из таких программ - DigiPhone, которая предложила "дуплексные" возможности, позволяя говорить и слушать одновременно. В этот момент и родилась привлекательная для абонентов настоящая интерактивная связь.
В марте 1996 г. произошло еще одно знаменательное событие. Тогда было объявлено о совместном проекте под названием "Internet Telephone Gateway" двух компаний: уже известной нам VocalTec и крупнейшего производителя программного обеспечения для компьютерной телефонии Dialogic. Его целью было научить работать через Интернет обычный телефонный аппарат, для чего между Сетью и ТфОП устанавливался специализированный шлюз. Последний получил название VTG (VocalTec Telephone Gateway) и представлял собой специализированную программу, которая использовала голосовые платы Dialogic как интерфейс с обычными телефонными линиями. Специально разработанные многоканальные голосовые платы, во-первых, позволяли одной системе VTG поддерживать до восьми независимых телефонных разговоров через Сеть, а во-вторых, убрали проблему адресации, взяв на себя преобразование обычных телефонных номеров в IP-адреса (и обратно). Для разговора одного пользователя в том продукте достаточно было ширины полосы канала порядка 11 кбит/с. Вот так возможность высокого уплотнения канала и малая стоимость связи создали предпосылки для коренных изменений телекоммуникационного мира.
Еще через год стали вполне привычными соединения через Интернет двух обычных телефонных абонентов, находящихся в совершенно разных местах планеты.
Всего за несколько лет технологии IP-телефонии значительно эволюционировали, и распространенные сегодня решения существенно отличаются от прежних. С одной стороны, это обусловлено развитием аппаратных решений, в частности появлением мощных магистральных и транзитных маршрутизаторов и высокоскоростных телекоммуникационных каналов. С другой стороны, нельзя не отметить и появления таких качественно новых технологий, как динамическая маршрутизация с учетом качества обслуживания в мультисервисных IP-сетях и резервирование ресурсов для контроля качества обслуживания транзитных маршрутизаторов.
Современное оборудование для передачи голоса посредством протокола IP (VoIP) позволяет обеспечивать приоритет передачи голосового трафика над передачей обычных данных, получать приемлемое качество звукового сигнала при сильном сжатии, эффективно подавлять различные шумы.
Сегодня телекоммуникационные операторы, специализирующиеся на предоставлении услуг IP-телефонии, применяют выделенные каналы с приоритетом голосового трафика над трафиком данных, что гарантирует высокое качество передачи речи. При этом используется сразу несколько вариантов маршрутизации голосового трафика для каждого из тысяч направлений, а в случае возникновения каких-либо проблем трафик автоматически перенаправляется на другие каналы.
Как было отмечено, IP-телефония становится одним из компонентов решения передачи разнородного мультимедийного трафика с использованием протокола TCP/IP. И вполне естественно, что развитие отдельных инструментов управления мультимедийным трафиком влияет на всю систему технологий пакетной передачи данных.
Следует также иметь в виду, что IP-телефония - это не просто альтернатива обычной телефонии. Актуальность развития решений IP-телефонии обусловлена не только возможностью снижения затрат на телефонные переговоры и техническое обслуживание инфраструктуры (хотя и это, безусловно, имеет значение). В стратегическом плане IP-телефония может стать единой технической платформой, которая позволит объединить решения для передачи данных и голоса, а также для обработки и последующего использования этой информации во всех бизнес-процессах. Таким образом, развитие IP-телефонии в определенном смысле является средством повышения производительности труда и развития бизнеса.
2. Взаимодействие протоколов VoIP При использовании протоколов, которые непосредственно имеют дело с VoIP, важно правильное понимание спецификации, вносимой этими протоколами. На рис. 2.1 показан стек протоколов VoIP. Здесь отсутствует верхний уровень, который подразумевает в себе любую разговорную речь. Данный рисунок характеризует исключительно передачу голосовых данных.
Технология VoIP может работать в любой физической среде, которая может использоваться обычным протоколом IP. Такие среды могут быть представлены в виде кабеля витой пары (используемой в традиционном Ethernet), телефонных проводов, беспроводных соединений (протокол IEEE 802.11) и др. Второй уровень этой модели - канальный уровень - указывает, что протокол IP для создания фреймов может использовать различные форматы. Как показано на рис. 3.1, он включает многоканальный PPP (Multilink PPP), Frame Relay (FR) и ATM. При проектировании сети возможны и другие варианты, поскольку передавать голос могут также Ethernet, Wi-Fi и другие технологии локальных сетей. На третьем, сетевом уровне используется протокол IP в качестве способа передачи голоса, однако обычный IP должен быть дополнен специальными средствами. Поскольку существуют проблемы с задержкой, протоколу IP требуется использовать какой-либо способ установления очередности для того, чтобы голосовым данным не пришлось ожидать передачи в условиях конкуренции с обычными данными. На маршрутизаторах должна быть использована очередность с малой задержкой (Low-Latency queuing - LLQ) или какая-либо иная современная схема установки очередности, чтобы голосовые данные отправлялись раньше обычных данных. Кроме того, должны использоваться схемы маркировки (marking) с заданием приоритетов (coloring), называемые IP-приоритетами, для обеспечения того, чтобы голосовые данные рассматривались системой как более важные для первоочередной передачи, чем обычные данные. Следующим уровнем является транспортный. Поскольку для передачи голоса используется протокол UDP, системе не хватает механизма установки очередности пакетов, чтобы пакеты доставлялись в требуемой последовательности. Транспортный протокол реального времени (Real-Time Transport Protocol - RTP) для выполнения этого требования добавляет номер пакета в последовательности передачи и механизм расстановки временных меток. Также может использоваться протокол резервирования (Resource Reservation Protocol - RSVP) для резервирования полосы пропускания вдоль пути следования голоса по IP-сети. Данный протокол исключает использование зарезервированной полосы пропускания пакетами обычных данных. Пятый уровень модели - сеансовый. На сегодняшний день сети VoIP переходят со стандарта ITU-T H.323 на другой протокол инициирования сеанса (Session Initiation Protocol - SIP) и протокол описания сеанса (Session Description Protocol - SDP). Шестым уровнем модели является уровень представлений. Как определено в модели OSI, уровень представлений анализирует и интерпретирует форматы данных. В терминах передачи голоса уровень представлений обеспечивает методы кодирования и сжатия, используемые для передачи голоса. Все уровни стека протоколов совместно применяются для того, чтобы решить проблемы минимизации задержки и обеспечить требуемый порядок следования пакетов. 3. Качество передачи речевой информации по IP-сети IP-телефония является одной из областей передачи дан ных, где все процессы передачи информации должны происходить в режиме реального времени и где особенно важна динамика передачи сигнала, которая обеспечивается современными методами кодирования и передачи информации; в результате увеличивается пропускная способность каналов по сравнению с традиционными телефонными сетями. Хорошо изучены факторы, влияющие на качество IP-телефонии. Они могут быть разделены на две категории:
В сетях IP протокол управления передачей (Transport Control Protocol - TCP) может решить проблему нарушения порядка следования пакетов данных из-за установления последовательности передачи и использования подтверждений, однако для передачи голоса используется протокол дейтаграмм пользователя (User Datagram Protocol - UDP), а не TCP. Применение протокола UDP в технологии VoIP обусловлено тем, что у посылающего устройства нет необходимости перед отправкой последующих пакетов дожидаться подтверждения от принимающего устройства. Данные VoIP отправляются тем же способом, который используется при отправке аудио- или видеоданных в сети Интернет. Потеря небольшого количества голосовых пакетов считается приемлемой и может быть компенсирована с помощью механизма кодирования/декодирования, а также различных методов интерполяции речи, то есть посредством заполнения отсутствующих звуков с помощью DSP-технологии, которая анализирует форму звукового колебания и предсказывает отсутствующий звук. Организация ITU-T серьезно занималась исследованием проблем, связанных с задержками при передаче голоса по сети. В результате был разработан стандарт ITU-T G.114, который рекомендует, чтобы задержка при передаче голоса в одном направлении не превышала 150 миллисекунд. Также стандарт рекомендует рассматривать задержку от 150 до 400 миллисекунд как приемлемую, если говорящий и слушающий понимают наличие задержки и готовы с ней смириться. В том случае, когда задержка достигает 400 миллисекунд и более, она становится заметной. Для сравнения можно привести общение через спутник: задержка при передаче по спутниковой связи в одном направлении составляет примерно 170 миллисекунд; при этом не учитывается задержка, возникающая в устройствах, расположенных на земле. Стандарт также устанавливает, что при передаче голоса задержка более чем 400 миллисекунд является неприемлемой. Возможны случаи, когда при передаче речи по IP-сети возникают намного большие, чем в ТфОП, задержки, которые, к тому же, изменяются случайным образом. Этот факт представляет собой проблему и сам по себе, но кроме того, усложняет проблему эха. Задержка (или время запаздывания) определяется как промежуток времени, затрачиваемый на то, чтобы речевой сигнал прошел расстояние от говорящего до слушающего. Покажем, что и как оказывает влияние на количественные характеристики этого промежутка времени. Можно выделить следующие причины задержки при передаче речи от источника к приемнику.
Важно отметить тот факт, что задержки в сетях с коммутацией пакетов влияют не только на качество передачи речевого трафика в реальном времени. Не менее существенно, что данные задержки в определенных ситуациях могут нарушить правильность функционирования телефонной сигнализации в цифровых трактах типа E1/T1 на стыке голосовых шлюзов с оборудованием коммутируемых телефонных сетей. 4. Явление джиттера, меры уменьшения его влияния Когда речь или данные разбиваются на пакеты для передачи через IP-сеть, пакеты часто прибывают в пункт назначения в различное время и в разной последовательности. Это создает разброс времени доставки пакетов - джиттер. Джиттер приводит к специфическим нарушениям передачи речи, они воспринимаются как треск и щелчки. Различают три формы джиттера:
Величины возникающих задержек и их вероятности важны для организации процедуры обработки и выбора параметров обработки. Понятно, что временная структура речевого пакетного потока меняется. Возникает необходимость применения буфера для фильтрации превращения пакетной речи, отягощенной нестационарными задержками в канале и возможными перестановками пакетов, в непрерывный естественный речевой сигнал в масштабе реального времени. Параметры буфера определяются компромиссом между величиной запаздывания телефонного сигнала в режиме дуплексной связи и процентом потерянных пакетов. Потеря пакетов является другим серьезным негативным явлением в IP-телефонии. Можно выделить следующие причины появления джиттера:
Во-первых, неустойчиво и плохо предсказуемо время прохождения пакета через сеть. Если нагрузка сети относительно мала, маршрутизаторы и коммутаторы могут обрабатывать пакеты практически мгновенно, а линии связи бывают доступны почти всегда. Если загрузка сети относительно велика, пакеты могут довольно долго ожидать обслуживания в очередях. Чем больше маршрутизаторов, коммутаторов и линий в маршруте, по которому проходит пакет, тем больше время его запаздывания и тем больше вариация этого времени, то есть джиттер.
Большинство приложений IP-телефонии (особенно клиентских) представляет собой обычные программы, выполняемые в среде какой-либо операционной системы, например, Windows или Linux. Эти программы обращаются к периферийным устройствам (платам обработки речевых сигналов, специализированным платам систем сигнализации) через интерфейс прикладных программ для взаимодействия с драйверами этих устройств. Большинство операционных систем не могут контролировать распределение времени центрального процессора между разными процессами с точностью, превышающей несколько десятков миллисекунд, и не могут обрабатывать за такое же время более одного прерывания от внешних устройств. Это приводит к тому, что задержка в продвижении данных между сетевым интерфейсом и внешним устройством речевого вывода составляет, независимо от используемого алгоритма кодирования речи, величину такого же порядка или даже больше. Из сказанного следует, что выбор операционной системы является фактором, влияющим на общую величину задержки. Чтобы минимизировать влияние операционной системы, некоторые производители шлюзов и IP-телефонов применяют так называемые ОС реального времени (VxWorks, pSOS, QNX Neutrino и т. д.), которые используют более сложные механизмы разделения времени процессора, действующие таким образом, чтобы обеспечивать более быструю реакцию на прерывания и более эффективный обмен потоками данных между процессами. Другой, более плодотворный подход - переложить все функции, которые необходимо выполнять в жестких временных рамках (обмен данными между речевыми кодеками и сетевым интерфейсом, поддержку RTP и т. д.), на отдельный быстродействующий специализированный процессор. При этом пересылка речевых данных осуществляется через выделенный сетевой интерфейс периферийного устройства, а операционная система рабочей станции поддерживает только алгоритмы управления соединениями и протоколы сигнализации, т. е. задачи, для выполнения которых жестких временных рамок не требуется. Этот подход реализован в платах для приложений IP-телефонии, производимых фирмами Dialogic, Audiocodes, Natural Microsystems.
Проблема джиттера весьма существенна в пакетно-ориентированных сетях. Отправитель речевых пакетов передает их через фиксированные промежутки времени (например, через каждые 20 мс), но при прохождении через сеть задержки пакетов оказываются неодинаковыми, так что они прибывают в пункт назначения через разные промежутки времени. Это иллюстрирует рис. 3.3.
Задержка прохождения пакетов по сети Тi может быть представлена как сумма постоянной составляющей Т(время распространения плюс средняя длительность задержки в очередях) и переменной величины j, являющейся результатом джиттера: Ti = T±j. Для того чтобы компенсировать влияние джиттера, в терминалах используется так называемый джиттер-буфер. Этот буфер хранит в памяти прибывшие пакеты в течение времени, определяемого его объемом. Пакеты, прибывающие слишком поздно, когда буфер заполнен, отбрасываются. Интервалы между пакетами восстанавливаются на основе значений временных меток RTP-пакетов. В функции джиттер-буфера обычно входит и восстановление исходной очередности следования пакетов, если при транспортировке по сети они оказались "перепутаны". Слишком короткий буфер будет приводить к слишком частым потерям "опоздавших" пакетов, а слишком длинный - к неприемлемо большой дополнительной задержке. Обычно предусматривается динамическая подстройка длины буфера в течение всего времени существования соединения. Для выбора наилучшей длины используются эвристические алгоритмы.
Большинство современных эффективных алгоритмов кодирования/декодирования речи ориентировано на передачу информации кадрами, а не последовательностью кодов отдельных отсчетов. Поэтому в течение времени, определяемого длиной кадра кодека, должна накапливаться определенной длины последовательность цифровых представлений отсчетов. Кроме того, некоторым кодекам необходим предварительный анализ большего количества речевой информации, чем должно содержаться в кадре. Это неизбежное время накопления и предварительного анализа входит в общий бюджет длительности задержки пакета. На первый взгляд кажется, что чем меньше длина кадра, тем меньше должна быть задержка. Однако из-за значительного объема служебной информации, передаваемой в RTP/UDP/IP-пакетах, передача маленьких порций данных очень неэффективна, так что при применении кодеков с малой длиной кадра приходится упаковывать несколько кадров в один пакет. Кроме того, кодеки с большей длиной кадра более эффективны, поскольку могут "наблюдать" сигнал в течение большего времени и, следовательно, могут более эффективно моделировать этот сигнал. ITU-T в рекомендации G.114 определил требования к качеству передачи речи. Оно считается хорошим, если сквозная задержка при передаче сигнала в одну сторону не превышает 150 мс (рис. 3.4). Современное оборудование IP-телефонии при включении "спина к спине" (два устройства-шлюза соединяются напрямую) вносит задержку порядка 60-70 мс. Таким образом, остается еще около 90 мс на сетевую задержку при передаче IP-пакета от отправителя к пункту назначения, что говорит о возможности обеспечить при современном уровне технологии передачу речи с достаточно хорошим качеством.
Временные задержки - проблема исключительно IP-телефонии. Именно поэтому на рис. 3.4 приведены отдельные характеристики спутниковой передачи, при которой требуется примерно 170 мс для того, чтобы сигнал достиг спутника и вернулся обратно к Земле (без учета затрат времени на обработку сигнала). Таким образом, полное время задержки превышает 250-300 мс. Согласно рекомендации G.114, такая задержка выходит за границы диапазона, приемлемого для передачи речи. Тем не менее, ежедневно значительное количество разговоров ведется по спутниковым линиям связи. Следовательно, приемлемое качество речи определяется также и требованиями пользователей, которые вынуждены согласиться с обстоятельствами. |
5. Эхо, устройства ограничения его влияния
Феномен эха вызывает затруднения при разговоре и у говорящего, и у слушающего. Говорящий слышит с определенной задержкой свой собственный голос. Если сигнал отражается дважды, то слушающий дважды слышит речь говорящего (второй раз - с ослаблением и задержкой).
В телефонных сетях существуют два вида эха:
В той или иной степени эхо присутствует всегда. Однако серьезной проблемой оно становится только при большой громкости. Эхо также представляет собой проблему в том случае, когда интервал между моментом, когда абонент говорит, и моментом появления отраженного сигнала становится достаточно большим. Если абонент слушает речь собеседника, то эхо мешает пониманию разговора - речь собеседника звучит в трубке дважды.
Эхо может иметь электрическую и акустическую природу.
Отражения часто проявляются при взаимодействии ТфОП и IP-сетей.
С целью экономии кабеля в ТфОП для подключения абонентских терминалов с давних пор используются двухпроводные линии, по которым речевые сигналы передаются в обоих направлениях. Более того, во многих телефонных сетях передача сигналов обоих направлений по двум проводам применяется и в соединительных линиях между электромеханическими АТС (хотя теперь для организации связи между АТС все чаще используется раздельная передача сигналов разных направлений, то есть четырехпроводная схема их передачи). Для разделения сигналов разных направлений в терминалах абонентов (телефонных аппаратах) и на АТС применяются простые мостовые схемы, называемые дифсистемами. Работа этих мостовых схем основывается на согласовании импедансов в плечах моста, одним из плеч которого является двухпроводная абонентская линия. Так как абонентские линии могут очень сильно различаться по своим параметрам (длине, диаметру жил кабеля и т. п.), то достичь точного согласования (тем более во всей полосе передаваемых частот) невозможно. Вместо этого администрация связи вынуждена ориентироваться на некоторую среднюю величину импеданса для всех абонентских линий своей национальной сети. Это приводит к тому, что сигналы прямого и обратного направления в большинстве случаев не разделяются полностью, и в дифсистеме сохраняется частичное отражение сигналов.
Если задержка распространения сигнала в сети невелика (что обычно и бывает в местных сетях), такой отраженный сигнал попросту незаметен и не вызывает неприятных ощущений. Если задержка достигает величины 15-20 мс, возникает эффект "огромного пустого помещения". При дальнейшем увеличении задержки субъективная оценка качества разговора резко ухудшается, вплоть до полной невозможности продолжать беседу.
В рамках ТфОП проблема такого эха известна с тех самых пор, когда телефонная сеть стала настолько протяженной, что задержки распространения сигналов перестали быть неощутимыми. Были разработаны и методы борьбы с этим феноменом - от минимизации задержек путем соответствующего планирования сети до применения эхозаградителей и эхокомпенсаторов. Как мы уже видели выше, задержки, свойственные процессам передачи речи по IP-сетям, таковы, что не оставляют выбора и делают механизмы, ограничивающие эффект эха, обязательными в любом оборудовании IP-телефонии.
Акустическое эхо возникает при пользовании терминалами громкоговорящей связи независимо от того, какая технология используется в них для передачи информации. Акустическое эхо может обладать значительной длительностью, а особенно неприятным бывает изменение его характеристик при смене, например, взаимного расположения терминала и говорящего или даже появления других людей в помещении. Эти обстоятельства делают построение устройств эффективного подавления акустического эха очень непростой задачей.
Существуют два типа устройств, предназначенных для ограничения вредных эффектов эха: эхозаградители и эхокомпенсаторы.
Эхозаградители появились в начале 70-х годов. Принцип их работы прост и состоит в отключении канала передачи, когда в канале приема присутствует речевой сигнал. Такая техника широко используется в дешевых телефонных аппаратах с громкоговорящей связью (speakerphones), однако простота не обеспечивает нормального качества связи - перебить говорящего становится невозможно, т. е. связь, по сути, становится полудуплексной.
Эхокомпенсатор - это более сложное устройство, которое моделирует эхо-сигнал для последующего его вычитания из принимаемого сигнала. Эхо моделируется как взвешенная сумма задержанных копий входного сигнала или, иными словами, как свертка входного сигнала с оцененной импульсной характеристикой канала. Оценка импульсной характеристики происходит в тот момент, когда говорит только удаленный корреспондент, для чего используется детектор одновременной речевой активности. После вычитания синтезированной копии эхо-сигнала из сигнала обратного направления полученный сигнал подвергается нелинейной обработке для увеличения степени подавления эха (подавление очень слабых сигналов).
Поскольку эхо моделируется только как линейный феномен, любые нелинейные процессы на пути его возникновения приводят к ухудшению работы эхокомпенсатора. Использование более сложных алгоритмов позволяет подавлять эхо, представляющее собой не только задержанный, но и сдвинутый по частоте сигнал, что часто происходит из-за наличия в ТфОП устаревших частотных систем передачи. Реализация таких алгоритмов необходима для успешного функционирования эхокомпенсаторов в телефонных сетях на территории России и бывшего СССР, и поэтому алгоритмы эхокомпенсации в российском оборудовании IP-телефонии на базе, например, интеллектуальной платформы Протей-IP разработаны именно с учетом сдвига эха по частоте.
Эхокомпенсатор должен хранить амплитуды эхо-сигналов, задержанных на время от нуля до продолжительности самого длительного подавляемого эхо-сигнала. Это значит, что эхокомпенсаторы, рассчитанные на подавление более длительных эхо-сигналов, требуют для своей реализации большего объема памяти и большей производительности процессора. Таким образом, выгодно помещать эхокомпенсаторы "максимально близко", в смысле задержки, к источнику эха.
По изложенным причинам эхокомпенсаторы являются неотъемлемой частью шлюзов IP-телефонии. Алгоритмы эхо-компенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхо-сигналов длительностью до 32-64 мс. К эхокомпенсаторам терминалов громкоговорящей связи предъявляются гораздо более строгие требования, которые здесь рассматриваться не будут, так как проблема акустического эха не входит в число проблем, специфических для IP-телефонии.
6. Требования к алгоритмам кодирования сигнала
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score). Оценки интерпретируют следующим образом:
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction"), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
7. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU-T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии.
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS (Mean Opinion Score) составляет 3,9в режиме 6.3 кбит/с и 3,7в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOSна уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay. Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Таблица 3.1. Основные характеристики кодеков |
|||||
Кодек |
Метод компрессии |
Скорость кодирования |
Сложность реализации |
Качество |
Задержка |
G.726 |
ADPCM |
32/24/16 кбит/с |
Низкая (8 MIPS) |
Хорошее (32 К), плохое (16 К) |
Очень низкая (0,125 мс) |
G.729 |
CS-ACELP |
8 кбит/с |
Высокая (30 MIPS) |
Хорошее |
Низкая (10 мс) |
G.729A |
CA-ACELP |
8 кбит/с |
Умеренная (20 MIPS) |
Среднее |
Низкая (10 мс) |
G.723.1 |
MP-MLQ |
6.4/5.3 кбит/с |
Умеренная (16 MIPS) |
Хорошее (6,4), среднее (5,3) |
Высокая (37 мс) |
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с).
Оценка качества воспринимаемой информации
Значения MOSдля различных стандартов кодеров приведены в таблице 3.3.
Таблица 3.3. Средние субъективные оценки качества различных методов кодирования |
|||
Кодек |
Скорость передачи, кбит/с |
MOS |
Размер кадра, мс |
G.711 РСМ |
64 |
4,3 |
0,125 |
G.726 Multi-rate ADPCM |
16-40 |
2-4,3 |
0,125 |
G.723 MP-MLQ ACELP |
5.3; 6.3 |
3,7; 3,8 |
30 |
G.729 CS-ACELP |
8 |
4,0 |
10 |
G.729A CA-ACELP |
8 |
3,4 |
10 |
GSM RPE-LPC |
13 |
3,9 |
30 |