Кодирование звуковой и видеоинформации

Оцифровка звука

Оцифровка — это преобразование аналогового сигнала в цифровой код (последовательность чисел). При инструментальном кодировании в памяти компьютера хранится нотная запись мелодии и коды музыкальных инструментов.

Звук — это колебания среды (воздуха, воды). С помощью микрофона звук преобразуется в аналоговый электрический сигнал, который в любой момент времени может принимать любое значение в некотором интервале. Этот сигнал можно подать на вход звуковой карты, где специальное устройство — аналого-цифровой преобразователь (АЦП) — преобразует его в цифровой код.

При оцифровке звука выполняется дискретизация — из всего бесконечного множества значений аналогового сигнала сохраняются в памяти только значения в отдельных точках, взятых с некоторым шагом T по времени ( рис. а). Это называется дискретизацией по времени.

222

Число T называется интервалом дискретизации, а обратная ему величина f = 1/T — частотой дискретизации. Частота дискретизации измеряется в герцах (Гц) и килогерцах (кГц). Чем больше частота дискретизации, тем точнее мы записываем сигнал, тем меньше информации теряем. Однако при этом возрастает количество отсчётов, т. е. информационный объём закодированного звука. Для кодирования звука в компьютерах чаще всего используются частоты дискретизации 8 кГц (минимальное качество, достаточное для распознавания речи), 11 кГц, 22 кГц, 44,1 кГц (звуковые компакт-диски), 48 кГц (фильмы в формате DVD), а также 96 кГц и 192 кГц (высококачественный звук в формате DVD-audio).

Кроме дискретизации по времени в АЦП происходит и дискретизация по уровню (квантование): измеренные значения сигнала записываются в памяти как целые числа. На рис. 9, б весь диапазон значений сигнала разбит на 8 = 23 одинаковых полос, что соответствует 3-битному кодированию. Все значения, попавшие в одну полосу, получают одинаковые коды.
Разрядность кодирования (глубина кодирования) — это число бит, используемое для хранения одного отсчёта. Недорогие звуковые карты имеют разрядность 16–18 бит, большинство современных — 24 бита, что позволяет использовать 224 = 16 777 216 различных уровней.

Информационный объём данных, полученных в результате оцифровки звука, равен
I = f · i · t · k,
где f — частота квантования, i — разрядность кодирования, t — время и k — число каналов, которые записываются одновременно.

Для стереофонической записи (когда отдельно записываются левый и правый каналы) нужно принять k = 2, а для квадрофонического звука (запись четырёх каналов одновременно) — k = 4.
Если записывается стереозвук, это число нужно удвоить, а при записи квадрофонического звука —умножить на четыре.

Восстановление звукового сигнала

Простейший метод восстановления сигнала по отдельным отсчётам — построить ступенчатый сигнал. В современных звуковых картах для повышения качества звука этот ступенчатый сигнал сглаживается с помощью специальных фильтров, однако восстановить точно исходный сигнал всё равно не удаётся, так как информация о значениях сигнала между моментами дискретизации была потеряна при оцифровке.

С помощью оцифровки можно закодировать любой звук, который принимает микрофон. Однако при оцифровке звука всегда есть потеря информации (из-за дискретизации). Кроме того, звуковые файлы имеют, как правило, большой размер, поэтому в большинстве современных форматов используется сжатие; программа, которая выполняет такое сжатие, называется кодеком (от англ. coder/decoder — кодировщик/декодировщик).

Форматы оцифрованных звуковых файлов

WAV (англ. Waveform Audio File Format, файлы с расширением wav);

MP3 (файлы с расширением mp3);

AAC (англ. Advanced Audio Coding, файлы с расширениями aac, mp4, m4a и др.);

WMA (англ. Windows Media Audio, файлы с расширением wma);

Ogg Vorbis (файлы с расширением ogg) — открытый формат, не требующий оплаты лицензии.

Инструментальное кодирование звука

Для кодирования инструментальных мелодий нередко используется стандарт MIDI.

Современные звуковые карты поддерживают многоканальный звук, т. е. в звуковом файле может храниться несколько «дорожек», которые проигрываются одновременно. Таким образом, получается полифония — многоголосие, возможность проигрывать одновременно несколько нот. Количество голосов для современных звуковых карт может достигать 1024.

Звук, закодированный с помощью стандарта MIDI, хранится в файлах с расширением mid. Для проигрывания MIDI-файла используют синтезаторы — электронные устройства, имитирующие звук реальных инструментов. Простейший синтезатор — звуковая карта компьютера.

Главные достоинства инструментального кодирования

Кодирование мелодии (нотной записи) происходит без потери информации.

Файлы имеют значительно меньший объём в сравнении с оцифрованным звуком той же длительности.

Кодирование видеоинформации

Для кодирования звука чаще всего используют оцифровку с частотой 48 кГц. Изображение состоит из отдельных растровых рисунков, которые меняются с частотой не менее 25 кадров в секунду, так что глаз человека воспринимает смену кадров как непрерывное движение. Это значит, что для каждой секунды видео нужно хранить в памяти 25 изображений.

При размере кадра 768 х 576 точек и глубине цвета 24 бита на пиксель закодированная 1 секунда видео (без звука) будет занимать примерно 32 Мбайт, а 1 минута — около 1,85 Гбайт. Это недопустимо много, поэтому в большинстве форматов видеоизображений используется сжатие. Упаковку и распаковку видеоданных выполняют программы-кодеки.

Современные цифровые видеокамеры и фотоаппараты могут записывать видео в форматах высокой чёткости с размерами изображения 1280 х 720 пикселей и 1920 х 1080 пикселей (Full HD).

Форматы видеофайлов

AVI (англ. Audio Video Interleave — чередующиеся звук и видео, файлы с расширением avi).

WMV (англ. Windows Media Video, файлы с расширением wmv).

MPEG (файлы с расширением mpg, mpeg).

MP4 (файлы с расширением mp4).

MOV (англ. Quick Time Movie, файлы с расширением mov).

WebM — открытый (не требующий оплаты лицензии) видеоформат, который поддерживается в современных браузерах без установки дополнительных модулей.