Цифровой видеоархив для дома. (1999 г.)

Рано или поздно счастливый обладатель видеокамеры сталкивается с проблемой сохранения многочисленных отснятых фильмов. Очевидное ее решение – собственно на видеокассетах – безусловно, самое простое, но не всегда самое эффективное. Во-первых, магнитный слой пленки имеет тенденцию со временем осыпаться. И в результате дорогой Вам фильм о первых шагах ребенка может не дожить до свадьбы последнего. Во-вторых, стоимость кассет, особенно mini-DV формата, для российского кошелька весьма чувствительна, и их число хотелось бы ограничить потребностями собственно исходной съемки (3-5 штук). В третьих, их габариты не пренебрежительно малы, и хранение большого числа кассет требует значительного пространства.

Наконец, последний аргумент связан с компьютерным монтажом. Дело в том, что мало кто остается удовлетворенным отснятым "сырым" видеоматериалом – обычно требуется его пост-обработка: "обрезка" лишних фрагментов, перестановка и гладкая склейка удачных сюжетов и построение эффектных переходов между ними, наложение титров, включение заставок и т.д. Все эти операции вполне по силам современному домашнему компьютеру. Достаточно установить в него соответствующую плату и программу цифрового видеомонтажа, например, из комплекта miroVideo Studio10 Plus или AverMedia MV-300. При этом собственно процесс обработки предваряет преобразование исходного видео в цифровой сигнал и его запись на жесткий диск компьютера. Ну а коли Ваше видео приобрело компьютерный цифровой вид, то разумно и хранить его в этом же виде. Особенно если в будущем при создании новых фильмов Вы предполагаете еще не раз воспользоваться снятыми материалами. Одним словом, возникает задача архивирования видео в цифровом виде на компактных, долговечных и недорогих носителях.

Существенным моментом данной постановки является требуемое качество видео. Конечно, хотелось бы как можно выше, но это вступает в противоречие с требованием минимизации затрат. Кроме того, само понятие качества и тем более его оценка весьма субъективны. В поиске разумного компромисса будем опираться на классификацию качества видео, обеспечиваемого потребительскими камерами различных форматов записи на магнитную ленту. Весьма условно, здесь можно выделить 3 уровня: Стандартное Видео (VHS, C-VHS, Video8), Супер-Видео (SVHS, C-SVHS, Hi8) и Цифровое Видео (DV, mini-DV, Digital8). Для простоты в дальнейшем будем обозначать их как Video, S-Video и DV. Количественно они обычно характеризуются горизонтальным разрешением (числом различаемых в строке элементов – телевизионных линий). Считается, что Video обеспечивает разрешение до 280 линий, S-Video – до 400 линий, а DV – не менее 500. Важно отметить, что телевизионный кадр (здесь и далее PAL стандарта) содержит 576 активных строк (всего их 625, но часть из них служебные), причем согласно рекомендации ITU-R BT.601 международного профессионального телевизионного сообщества (ITU – International Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, принципиально телевизионный кадр представляет собой матрицу 720х576, а предельно достижимое разрешение ограничено 700 линиями.

Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. Вариации их значений допускают 256 градаций (от 0 до 255 для Y, и от –128 до 127 для U/V), что в двоичном исчислении соответствует 8 битам (bit) или 1 байту (Byte). Теоретически каждый элемент кадра имеет собственные значения YUV, т.е. требует 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Однако, было установлено, что зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в профессиональном телевидении. При этом U- V-матрицы уменьшаются до 360х576, а для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Но для целей потребительского видео было признано допустимым уменьшить вдвое и вертикальное цветовое разрешение, т.е. перейти к представлению 4:2:0. Это уменьшает цветовые матрицы до 360х288, а приведенное число байт на отсчет – до 1,5 (см. таблицу ниже). Именно такое представление было заложено в DV-формат цифровых камер.

Форматы представления YUV данных телевизионного сигнала

4:4:4				4:2:2				4:2:0
YUV	YUV	YUV	YUV	YU	YV	YU	YV	YU	YV	YU	YV
YUV	YUV	YUV	YUV	YU	YV	YU	YV	Y	Y	Y	Y
YUV	YUV	YUV	YUV	YU	YV	YU	YV	YU	YV	YU	YV
YUV	YUV	YUV	YUV	YU	YV	YU	YV	Y	Y	Y	Y

Таким образом, принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 25x2x720x576=20736000 байт, т.е. поток данных составляет 21 MBps (MegaByte Per Second), но 4:2:0 представление уменьшает поток на 25% - до 16 MBps. Запись подобных потоков технически осуществима, но сложна, дорогостояща и неэффективна с точки зрения последующей обработки. Реальные возможности практики требуют значительного уменьшения потоков, т.е. вынуждают применять различные виды компрессии. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают сжатия более 2 раз.

Среди алгоритмов с потерей данных одним из наиболее известных является MJPEG (Motion-JPEG). Он пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Приставка Motion всего лишь отражает его приложение для последовательности кадров, хотя при этом каждый из них обрабатывается совершенно независимо. В этом алгоритме кадр разбивается на блоки размером 16х16, каждый из которых с помощью обратного дискретного преобразования Фурье (ОДПФ) переводится в частотную область. В результате распределение сигналов яркости и цветности (используется представление 4:2:2) переходит в соответствующие частотные коэффициенты, которые затем подвергаются квантованию (округлению значений с задаваемым интервалом). Само по себе ОДПФ обратимо, т.е. не приводит к потере данных, но вот квантование коэффициентов вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, поскольку соответствующие искажения изображения зрительно наиболее заметны. В то же время многие высокочастотные коэффициенты, ответственные за "тонкие" детали изображения, после нее принимают нулевые значения. Таким образом, JPEG-компрессия приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков), но обеспечивает значительное сжатие потока данных. Компромисс очевиден – чем больше сжатие, тем ниже качество. Установлено, что уровню Video соответствует MJPEG поток около 2 MBps, S-Video – 4 MBps, а DV – 3.1 MBps.

На первый взгляд, здесь кроется парадокс: S-Video сигнал с меньшим, чем у DV, разрешением, тем не менее, требует большего потока. Объяснение просто – на самом деле DV-кодировка несколько отлична от MJPEG. Так, DV принципиально использует 4:2:0 представление, что по сравнению с 4:2:2 экономит 25%. Ну а главное, алгоритм DV-преобразования, являясь развитием MJPEG, использует более гибкую схему компрессии, основанную на адаптивном подборе таблиц квантования. Коэффициент компрессии для различных блоков, в отличие от MJPEG, меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15%. В то же время отличительной чертой DV-сигнала является постоянный, заданный стандартом, поток видеоданных – 25 Mbps (Megabit Per Second), т.е. фиксированный коэффициент компрессии - около 5:1.

Дальнейшее снижение объема данных может быть достигнуто переходом к алгоритму MPEG компрессии (MPEG – Motion Pictures Experts Group). Он принципиально ориентирован на обработку последовательностей кадров и использует высокую избыточность информации в изображениях, разделенных малым временным интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии).

Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B – 1/8 часть. В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия. Резюмируя, приходим к следующей оценочной таблице.

Таблица 1. Оценка требуемых потоков данных для различных видов компрессии при сохранении заданного уровня качества видео

	MJPEG 422, Mbps	MJPEG 422, Mbps	MPEG 422 I-only, Mbps	MPEG 420 I-only, Mbps	MPEG 422 IPPP, Mbps	MPEG 420 IPB15/3, Mbps
Video	2	16	14	10	7	2,5
S-Video	4	32	28	21	14	5
DV				25		6
Video-CD						1,15
DVD-Video						4,8

Здесь для справки включены значения потоков видеоданных, характеризующих качество фильмов, записанных для Video-CD и DVD-Video диски. Обсуждение этих форматов записи выходит за рамки настоящего материала, но будет рассмотрено позднее. Завершая рассказ о MPEG, необходимо подчеркнуть, что это алгоритм допускает вариацию и многих других параметров кодирования, в частности, пространственного разрешения. С этой точки зрения различают MPEG-1, ограничивающий кадр размером 352х288, и MPEG-2, допускающий различные уровни разрешения (в том числе и 352х288), но в качестве основного использующий 720х576. Строго говоря, MPEG-1 является ограниченной версией MPEG-2. Впрочем, заданное разрешение Video в 280 строк и подразумевает использование данного ограничения.

Заметим: Согласно стандарту, в MPEG-1 допустимы разрешения до 4095x4095, в MPEG-2 - до 16383x16383, кроме кратных 4096. Так что скорее использование MPEG-1 для фильмов с низким разрешением следует из его ограничений (правда, лучше назвать MPEG-2 расширенной версией MPEG-1, поскольку сначала был создан именно MPEG-1).

Важно также подчеркнуть, что по мере перехода к более глубоким схемам компрессии: от MJPEG и MPEG I-only 422 к MPEG 420 IPB существенно усложняется процесс редактирования результирующих последовательностей. На сегодняшний день считается, что без дополнительных потерь качества полноценный монтаж c точностью до кадра возможен только до уровня MPEG IPPP 422, а далее допустимы лишь простейшие операции (обрезка-склейка, да и то с точностью до группы).

Из вышеизложенного следует, что для архивирования видео целесообразно использование MPEG компрессии цифровых данных (420 IBP 15/3), причем для записей фильмов уровня VHS/Video8 достаточен MPEG1 с потоком в 2-3 Mbps, а для SVHS/Hi8 и DV необходим MPEG2 c потоком не менее 5 Mbps. С точки зрения практической реализации возможны программная и аппаратная реализации MPEG компрессии. Наиболее известной и условно доступной программой является XingMPEG Encoder. Она позволяет получать MPEG-1 последовательности из AVI-файлов (например, MJPEG потоков, захваченных одной из плат нелинейного монтажа). Но данный процесс в силу сложности алгоритма компрессии требует значительных вычислительных ресурсов. Например, на Pentium II 350 MHz перекодировка каждой минуты видео при заданном потоке в 3 Mbps требует около 15 минут счета. Стоит признать, что при этом обеспечивается высокое качество результирующего видео. Аппаратные кодеры обеспечивают получение MPEG-фильмов в реальном времени: на их вход подается аналоговый видеосигнал, а на жесткий диск записывается готовый MPEG-файл. В настоящее время доступно большое количество различных устройств, обеспечивающих MPEG-1 компрессию. Они могут быть выполнены как внешние блоки, соединяемые с компьютером по LPT порту (AverMedia MPEGWizard, Pinnacle Systems STUDIO MP10, Videonics Python), так и внутренние платы (VITEC Multimedia RT6, Darim MPEGator, Data Translation Broadway). Что касается устройств MPEG-2 компрессии, то их выбор пока весьма ограничен. Из реально доступных стоит отметить miroVideo DC1000. Хотя на этапе исходной оцифровки она ограничена не самым эффективным с точки зрения степени сжатия видом компрессии 422 IP (зато позволяющим сложный монтаж видео с точностью до кадра), но допускает программно-аппаратное преобразование результирующей последовательности до MPEG2 420 IPB 15/3. Последняя, в частности, является основой для подготовки DVD-Video, например, с помощью Minerva DVD Authoring software (дополняет DC1000 до комплекта miroVideo DVD1000). В табл.2 для справки приведены краткие характеристики некоторых из этих устройств.

Таблица 2. Характеристики аппаратных MPEG кодеров

Устройство	MPEGWizard	STUDIO MP10	RT6	miroVideo DC1000
Фирма-производитель	AverMedia	Pinnacle Systems	VITEC Multimedia	Pinnacle Systems
Входы	Composite/S-Video	Composite/S-Video Stereo mini-jack	Composite/S-Video Stereo mini-jack	Composite/S-Video DV- дополнительно Stereo cinch-jack
Выходы	Нет	Composite/S-Video Stereo mini-jack	Composite/S-Video Stereo mini-jack	Composite/S-Video DV- дополнительно Stereo cinch-jack
Компрессия видео	MPEG1 420 IPB 15/3, до 3 Mbps	MPEG1 420 IPB 2/1-15/3, до 3 Mbps	MPEG1 420 I-only & IPB 15/3, до 4 Mbps	MPEG2 422 IPPP, до 25 Mbps
Компрессия аудио	Через звуковую карту: MPEG1 Layer 1&2 16-48 KHz, 16 bit, до 384 kbps	MPEG1 Layer 2 32/44.1/48 KHz, 16 bit, до 384 Kbps PCM 22-44.1KHz	MPEG1 Layer 1&2 32/44.1/48 KHz, 16 bit, до 384 Kbps	PCM 12 bit 32 KHz, 16 bit 44.1/48 KHz
Захват отдельных кадров	704х576	704x576	720х576	720х576
Воспроизведение MPEG	Нет	Да	Да	Да, 2 потока с эффектами реального времени
Комплект ПО	Astounds StudioM, Cinax i-FilmEdit, Duplexx NET TOOB Stream	Sonic Desktop SmartSound, Video SpiceRack Lite, Minerva Impression for CD, TitleDeko	MPEG TOOLBOX, MGI VideoWave & PhotoSuite SE, ARCHIVIST	Adobe Premiere 5.1 RT & Photoshop 4.0 LE, Pixelan Video Spice Rack Effects, TitleDeko, SmartGOP, miroINSTANT Video

Пришло время разобраться с тем, на каких компактных носителях размещать цифровой видеоархив. Как следует из табл. 1, один час видео даже при самом эффективном способе сжатия и визуальном качестве Video соответствует объему данных в 1 GB, 2 GB при качестве S-Video и около 3 GB для DV (данные о кодировании на 1999 год, к настоящему времени не сильно изменились, разве что преимущественно сейчас используется кодирование в MPEG2 DVD-Video - 2 часа видео стандартного качества на один DVD-R/W диск). При таких значениях выбор, собственно говоря, не велик – это один из вариантов записываемых компакт дисков. Точнее, это может быть CD-R емкостью 650MB-100MB, DVD-RAM на 2.6GB, DVD-R/W на 4.7GB. Цены на эти носители и записывающие устройства для них сейчас просто смехотворны по сравнению с тем же 1999 годом: $50 против $6000 (!) на DVD-R/W - привод.

Таким образом, в настоящих условиях наиболее разумное решение задачи архивирования может быть основано на использовании:

1. MPEG1 кодера и CD-R устройства записи - для сохранения фильмов с качеством Video (используется в Video-CD);
2. MPEG2 кодера и CD-R или DVD-RAM - для сохранения фильмов с S-Video качеством;
3. MPEG2 кодера и DVD-RAM (в качестве временного решения) с переходом в последующем на DVD-R - для сохранения фильмов с DV качеством (используется в DVD-Video).

По материалам компании "Стоик" - http://www.stoik.ru/, 1999 г.

С поправками House Studio от 2007 г.