Влияние параметра задержки видеокамеры на синхронизацию артикуляции говорящего в прямом эфире

Пресс-центр

Статьи

Джон Урбан - менеджер по маркетингу продукции компании Biamp

Синхронизация артикуляции - это согласованность звуков произносимых слов и движения губ говорящего в прямом эфире или на видеозаписи, что является одним из важнейших показателей в практическом использовании. Добиться синхронизации артикуляции особенно сложно при прямой передаче, когда зритель может одновременно наблюдать как само событие, так и его трансляцию на мониторе или экране телевизора. В этом сценарии не только требуется ничтожно малая задержка синхронизации, но проблема еще усугубляется тем, что аудио- и видеопотоки часто обрабатываются разными системами. Таким образом, важно контролировать ожидания зрителей в отношении задержки в системах распространения и отображения медиа-контента.

Прежде чем мы сосредоточимся на роли камеры в процессе формирования задержки, обратимся к некоторым другим факторам, связанным с передачей аудиовизуальной информации.

Что такое задержка?

В контексте локальной сети, задержка – это время, необходимое для прохождения сигнала по кабелю (медному или оптоволоконному) от источника до приемника. С позиции обработки сигнала, задержка – это временной промежуток с момента поступления сигнала в цепь обработки до момента появления сигнала на выходе. Обработка может заключаться в эквализации аудиосигнала, масштабировании видеосигнала, или даже во времени, необходимом монитору для отображения картинки (т. е. задержки отображения). Системная задержка является совокупной, поэтому каждая ступень в технологической цепочке добавляет свою часть к общей задержке передачи данных.

Также следует учитывать еще один распространенный случай, когда один и тот же аудио- или видеосигнал передается нескольким приемникам (динамикам и дисплеям) в одном пространстве или комнате. В этом случае важно, чтобы передача достигала каждую конечную точку одновременно или как можно более синхронно. Если произойдет заметная задержка в трансляции сигнала, то рассинхронизированное видео может сильно раздражать, в то время как отстающий звук может привести к окончательному разрушению восприятия.

Любая система имеет задержку, и, хотя эта задержка может быть столь незначительной, что не окажет никакого заметного влияния при использовании, она не может быть “нулевой”. Если некий продукт рекламируется, как имеющий нулевую задержку, то это очевидная ложь (либо отдел маркетинга специально приукрасил данные).

Этапы обработки видеотрансляции

Важно понимать основные этапы передачи видео по сети для того, чтобы интерпретировать заявленные производителем параметры задержки и учесть их для синхронизации артикуляции. После того, как сигнал поступает на вход энкодера, он претерпевает ряд этапов DSP-обработки:

1) масштабирование сигнала для трансляции,

2) преобразование частоты кадров (при необходимости),

3) цветовая субдискретизация (при необходимости),

4) компрессию сигнала (при необходимости) и многое другое.
Затем сигнал передается по сети (для профессиональных AV-приложений трансляция должна быть предопределенной, а не наилучшей из доступного), и, в итоге, сигнал превращается в точную копию исходного потока.

Вам действительно необходимо прочитать мелкий шрифт в спецификациях измерения задержки производителей, потому что количество этапов обработки у разных продуктов может отличаться. Например, если некий Продукт А гарантирует задержку при сетевой трансляции в 1 кадр (17 мс при 60 кадрах в секунду, – а это лишь один темно-синий сегмент на диаграмме выше), а Продукт В гарантирует задержку трансляции от входа до выхода системы в 2 кадра (33 мс при 60 кадрах в секунду, – т.е. по всей цепочке действий, см. диаграмму выше), то Продукт А не обязательно быстрее, чем Продукт В, так как их параметры измерялись по-разному. Не забудьте учесть это различие и уведомить о нем своих клиентов, поскольку камеры стандарта 4K часто, – но не всегда, – всего лишь один большой источник задержки¹ в типичной цепочке передачи AV сигнала.

Основы обработки изображения цифровыми видеокамерами

Многие цифровые видеокамеры используют матрицу с полупроводниковой светочувствительной матрицей (CCD - ПЗС) специализированной аналоговой интегральной микросхемы, состоящей из светочувствительных фотодиодов, выполненной на основе кремния, использующая технологию ПЗС — приборов с зарядовой связью. ПЗС-матрица состоит из поликремния, отделённого от кремниевой подложки, у которой при подаче напряжения через поликремневые затворы изменяются электрические потенциалы вблизи электродов. Один элемент ПЗС-матрицы формируется тремя или четырьмя электродами. (уточните в Википедии, если захотите).

Изображение проецируется через объектив на светочувствительную область, в результате чего каждый конденсатор (один конденсатор соответствует каждому пикселю) накапливает электрический заряд, пропорциональный интенсивности света в этом месте. Аналого-цифровой преобразователь измеряет величину заряда и создает цифровой сигнал, представляющий из себя значения зарядов в каждом пикселе. Затем встроенный сигнальный процессор интерполирует данные из каждого пикселя, чтобы воссоздать естественный цвет. Многие камеры на этом этапе выводят изображение на откидном ЖК-дисплее. И наконец, некоторые камеры могут сжимать изображение на заданный уровень перед выводом видеопотока.

Математическая обработка

Изображение 4К содержит более 8 миллионов пикселей на кадр, каждый со своими параметрами цветности и яркости, и потому 4K камеры могут запросто добавить 3-4 кадра задержки (51-66 мс при 60 кадрах в секунду), прежде чем видеосигнал достигнет входного порта энкодера. Добавление даже двух кадров системной задержки трансляции приводит к задержке приблизительно 84-99 мс. В итоге добавьте еще порядка одного кадра (или больше, в зависимости от параметров дисплея и потока) для определения задержки на выходе, - и получите общую задержку 101-116 мс.

С другой стороны, синхронизация артикуляции (трансляция аудио сигнала относительно видео) для комфортного восприятия у большинства людей должна быть в пределах от +45 до -125 миллискунд².
В итоге, если звук смещен более чем на 200 миллисекунд, то такая рассинхронизация начинает негативно влиять на зрителей. При задержке передачи порядка 101-116 мс (и в теории, не меньше) мы уже приближаемся к комфортной области. Обработка аудио и видео через отдельные схемы часто приводит к еще большему уровню задержек.

Ключевые Моменты

Для прямого эфира обязательной является предопределенная передача AV-сигнала, поскольку буферизация, необходимая для оптимизации потока, вызывает еще большую задержку.

Сетевые протоколы передачи мультимедийных данных, такие как AVB / TSN, CobraNet^® и Dante™, гарантируют точную задержку; но из них лишь AVB / TSN может транслировать как аудио-, так и видеосигнал (вопреки анонсам, до сих пор нет достоверных данных по продуктам Dante).

Решения AVB, такие как платформа Biamp Tesira, обеспечивают значительные преимущества по сравнению с обработкой аудио и видео по-отдельности. Поскольку Tesira контролирует весь путь сигнала, то она автоматически вычисляет и реализует все необходимые внутренние задержки с целью гарантировать синхронизацию аудио- и видеосигналов по всей цепочке.

Тем не менее, все равно какая-то временная задержка неизбежна; ее можно только уменьшить, но не избавиться полностью. Все компоненты на пути сигнала в совокупности способствуют ей, поэтому крайне сложно получить точное понимание общей задержки при взгляде на одну лишь часть системы.

Одно можно сказать наверняка: если производитель утверждает, что их продукт обладает “нулевой задержкой”, то фактическое определение задержки служит основание для расследования, поскольку нарушен один непреложный закон физики.

¹ Задержка звука незначительна для сравнения.
² В публикации МСЭ-R BT.1359-1 (11/98) рекомендована относительная синхронизация звука и изображения для радиовещания.

Источник: blog.biamp.com

Перевод: ООО «Хай-Тек Медиа» - официальный дистрибьютор Biamp