Организация и представление звука в мультимедиа

Автор работы: Пользователь скрыл имя, 02 Февраля 2015 в 07:36, лекция

Описание работы

Методы, программы, средства обработки информации
Форматы звуковых файлов медиаданных
Программы реализации звука
Сравнительный анализ форматов и программ проигрывателей

Файлы: 1 файл

Лекция 4.docx

— 561.51 Кб (Скачать файл)

Лекция 4

Тема: Организация и представление звука в мультимедиа

План лекции:

  1. Методы, программы, средства обработки информации
  2. Форматы звуковых файлов медиаданных
  3. Программы реализации звука
  4. Сравнительный анализ форматов и программ проигрывателей

 

  1. Методы, программы, средства обработки информации.

Первые персональные компьютеры отличались от калькуляторов и больших ЭВМ тем, что могли издавать звуки с помощью маленького динамика, установленного в их корпусе. И хотя акустические возможности этих компьютеров были более чем скромными, уже на заре компьютерной эры появились музыкальные редакторы, с помощью которых можно было создать звуковой файл для подключения к той или иной программе, написанной пользователем. 

С появлением в 1989 году звуковых карт перед пользователями открылись новые возможности. На порядок улучшилось качество звука. Появилась звуковая подсистема – комплекс программно-аппаратных средств, предназначенный для:  
• записи звуковых сигналов, поступающих от внешних источников (микрофона или магнитофона);  
• воспроизведения записанных ранее звуковых данных с помощью внешней акустической системы или головных телефонов (наушников);  
• микширования (смешивание) при записи или воспроизведении сигналов от внешних источников;  
• одновременной записи и воспроизведения звуковых сигналов;  
• обработки звуковых сигналов: редактирования, объединения или разъединения фрагментов сигнала, фильтрации, изменения уровня и т.п.;  
• управления панорамой стереофонического звукового сигнала и уровнем сигнала в каждом канале при записи и воспроизведении;  
• обработки звукового сигнала в соответствии с алгоритмами объемного звучания;  
• генерирования с помощью синтезатора звучания музыкальных инструментов через специальный интерфейс MIDI;  
• воспроизведения звуковых компакт-дисков;  
• управления компьютером и ввода текста с помощью микрофона. 

Звуковая система компьютера обычно выполняется в виде самостоятельных звуковых карт, устанавливаемых на материнской плате, но может быть размещена и на другой карте расширения. Отдельные функциональные модули звуковой системы могут выполняться в виде дочерних плат, устанавливаемых в соответствующие разъемы звуковой карты. Дочерняя плата обычно расширяет базовые возможности звуковой системы. 

К аппаратным средствам обработки звуковой информации относятся:  
• модуль записи и воспроизведения звука, который осуществляет аналого-цифровое и цифроаналоговое преобразование звуковых данных;  
• модуль синтезатора;  
• модуль интерфейсов, обеспечивающий взаимодействие программных и аппаратных средств;  
• модуль микшера, который позволяет осуществить смешивание сигналов от разных источников;  
• акустическая система (микрофон, наушники, колонки и т.п.). 

Первые четыре модуля, как правило, устанавливаются на звуковой карте. Каждый из модулей может быть выполнен в виде отдельной микросхемы или входить в состав многофункциональной микросхемы.

Программные средства обработки звуковой информации включают в себя:

• музыкальные редакторы;  
• синтезаторы звуков;  
• системы автоматического распознавания речи;  
• звуковые редакторы;  
• голосовые навигаторы;  
• программы диктовки, позволяющие преобразовывать речь в «письменный» текст;  
• программы для улучшения качества фонограмм.  
Создание (синтез) звука в основном преследует две цели:  
• имитацию различных естественных звуков (шум ветра и дождя, звук шагов, пение птиц и т. п.), а также акустических музыкальных инструментов;  
• получение принципиально новых звуков, не встречающихся в природе. 

Обработка звука обычно направлена на получение новых звуков из уже существующих (например, голос робота), либо придание им дополнительных качеств или устранение существующих (например, добавление эффекта хора, удаление шума или щелчков). 

Так же, как создание всевозможных анимационных эффектов и эффектов трехмерной графики базируется на использовании разнообразных математических методов, каждый из методов синтеза и обработки звука имеет свою математическую и алгоритмическую модель. 

К основным программам обработки цифрового звука относят Cool Editor, Sound Forge, Samplitude, Software Audio Workshop дают возможность прослушивать выбранные участки, делать вырезки и вставки, амплитудные и частотные преобразования, звуковые эффекты, наложение других оцифровок, изменение частоты оцифровки, генерировать различные виды шумов, синтезировать звук.

Для обработки звука используются следующие основные методы:   
Монтаж. Состоит в вырезании из записи одних участков, вставке других, их замене, размножении и т. п. Называется также редактированием. Практически каждый музыкальный редактор имеет такие возможности редактирования. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.  
Амплитудные преобразования заключаются в усилении или ослаблении звука.  
Частотные (спектральные) преобразования – усиление или ослабление определенных полос частот. 

Фазовые преобразования. Слуховой аппарат человека использует фазу для определения направления от источника звука. Фазовые преобразования стереозвука позволяют получить эффекты вращающегося звука, движущегося источника звука и им подобные. 

Временные преобразования. Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При небольших сдвигах (порядка менее 20 мс) это дает эффект размножения источника звука (эффект хора), при больших – эффект эха. 

Формантные преобразования оперируют с формантами – характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т. п.

Обработка речевой информации включает в себя синтез речи и автоматическое распознавание речи.

Устное сообщение можно представить как последовательность элементарных звуков, называемых фонемами, и пауз между ними. От числа фонем, выделяемых в устной речи, зависит точность ее описания. На практике для кодирования русской устной речи выделяют порядка 40-45 фонем, каждой из которых ставится в соответствие кодирующее ее обозначение. Последовательность кодов, описывающих фонемы устного сообщения, вводится и хранится в памяти ЭВМ и при необходимости выводится из нее через специальные устройства, называемые синтезаторами речи.  

В настоящее время сфера применения синтезаторов речи непрерывно расширяется – используются различные автоматизированные информационно-справочные системы, системы автоматизированного контроля, способные голосом предупредить человека о состоянии контролируемого объекта, и другие системы.  
Разработаны устройства, позволяющие преобразовать письменный текст в соответствующее ему фонемное представление, что дает возможность воспроизводить в виде речи произвольный текст, хранящийся в памяти компьютера.  
Немало усилий было положено на то, чтобы снабдить программы и операционные системы графическим интерфейсом пользователя. Сейчас развивается новое направление – речевой интерфейс пользователя. Различные голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь.  
Растет популярность средств автоматического распознавания речи. Эти средства преобразуют речь в закодированный «письменный» текст. Для этого производится спектральный анализ оцифрованной речи и определяются при помощи специальных математических методов минимальные звуковые единицы языка.  
Существующие системы распознавания речи ориентированы или на слитную, или на дискретную речь. Слитная (непрерывная) речь – это нормальная плавная человеческая речь. Если система рассчитана на дискретную речь, то говорить надо с паузами между словами. 

Большинство систем зависимы от диктора – перед началом работы пользователь должен «обучить» программу, произнося определенный текст. Но есть и разработки, которые не требуют этого.

Сегодня анализ звука и речи применяется во многих областях человеческой деятельности. Это биометрия, судебная экспертиза, медицина, обучение, конструкторская деятельность, научные исследования и другие. Голос человека можно использовать как пропуск в системах с ограничением доступа. При производстве судебной экспертизы материалов звукозаписи часто нужно провести идентификацию личности, то есть ответить на вопрос – принадлежит ли голос на двух фонограммах одному и тому же человеку? Можно определять эмоциональное состояние человека (уровень стресса) по параметрам устной речи. Этот способ имеет то преимущество, что человеку не нужно подсоединять датчики. Речевое сопровождение обучающих программ позволяет сделать процесс восприятия учебного материала более полным.

 

Обработка звука  - динамика

В дискретном виде звук отображается с помощью кривых, которые в свою очередь несут информацию о громкости звука (амплитуде колебаний кривой) и частоте звука (период колебания волны). Под динамической обработкой звука понимается как простое увеличение громкости композиции, так и сужение и расширение динамического диапазона, при котором определённые звуки понижают свою громкость а определённые наоборот становятся более громкими. Давайте рассмотрим каждый из видов динамической обработки звука в отдельности.

Нормирование

 

Цифровой звук представляется конечно же в дискретном виде. Это значит то что информация о звуке передаётся с помощью цифр, которые в свою очередь находятся в некотором ограниченном диапазоне. Нормирование — это простое выравнивание громкости звука. Вы выделяете определённую часть композиции (или всю), после чего задаёте процент нормирования. Так, если зададите значение 100% — то самое большое значение «уровня громкости звука» примет самое большое доступное цифровое значение=100%. На сколько будет громким звук при воспроизведении ? Зависит от уровня громкости (микшера, проигрывателя), однако чем ниже процент нормирования — тем тише будет звук при одном и том же  значении уровня громкости звука ( в микшере, проигрывателе).

Применение: Нормирование может быть применено как к отдельной партии трека, так и ко всей композиции. Во время процесса создания музыки для нормирования одной партии относительно другой используется микшер. Старайтесь всегда максимально использовать динамическое пространство и записывать звук так, чтобы он изначально занимал максимально широкий динамический диапазон. При нормировании все отсчёты умножаются на определённое число. Следовательно, если запись звука была произведена при слишком маленьком уровне звука — то при последующем нормировании звука будет частично потеряна динамика в качественном смысле. Так, если при записи звука максимальное значение отсчёта равнялось, допустим, 5, второго 4, то при нормировании их значения будут равняться 100 и 80 соответственно. Хотя если бы запись велась при корректном уровне записи, то динамический шаг был бы более маленьким (не 20 (0,1,2,3,4,5) при дальнейшем нормировании, а 100 (0,1,2,3…97,98,99)). Хотя даже если Вы записали звук на низком уровне — всё равно нормализуйте до 100%. Ведь таким образом Вы увеличите разницу между более громкими и более тихими значениями отсчётов, а значит расширите динамический диапазон, что всегда очень хорошо влияет на качество и динамику звучания.

Вступление / отступление

 

Если при нормировании все значения всех отсчётов умножаются на определённое число, то при создании эффектов вступления (Fade in) и отступления (Fade out) значение множетеля постепенно и линейно изменяется. При одновременном выделении правого и левого каналов эти эффекты создают ощущение постепенного увеличения/уменьшения громкости звука. При Выделении одного из каналов создаётся впечатление постепенного приближения/отдаления звука в один из каналов (на изображении мы имеем постепенное вступление и последующий уход звука в левый канал за счёт постепенного уменьшения уровня звука в правом канале).

Примечание: Используйте эффекты вступления и отступления для всей композиции. Это позволит сделать переходы между композициями более плавными (некоторые проигрыватели имеют встроенную функцию с этим эффектом) а восприятие всего альбома  более качественным (хотя это вовсе не правило а скорее норма). Тоже самое касается и отдельных партий — используйте эти эффекты для более плавного вступления/отступления. Иногда такая обработка звука необходима для устранения щелчков в начале/конце аудио файлов (возникающих в следствие резкого перепада значений кривых). В аудио-примере Вы можете послушать примеры использования этих эффектов.

После обработки:

Огибающие

 

Огибающие позволяют добиться более динамичного управления уровнем звука. По сути создаётся определённая функция, значения которой могут изменяться не линейно, и её значения перемножаются с значением отсчётов. Лично я в своей практике практически не пользовался огибающими на этапе обработки отдельной партии или всей композиции, так как мне хватало обработки звука нормализацией и эффектами вступления/отступления (которые для этого и созданы).

Примечание: Огибающие имеет смысл использовать при обработке отдельных звуков. Огибающие позволяют задать форму тембра и используются практически во всех синтезаторах. Каждый звук имеет характеристики: времени атаки, затухания, держания, конечного затухания (в синтезаторах: ADSR). Это в частности позволяет нам распознавать и отличать одни звуки от других (но не является единственным свойством тембра звука).

После обработки:

Компрессия

Компрессия —  сужение динамического диапазона, уровень звука наиболее громких звуков искуственно понижается, после чего уровень звука всех звуков повышается. Так, давайте представим, то что на изображении синяя черта (порог срабатывания компрессора) отделяет наиболее громкие звуки, значение отсчётов которых больше 80. После обработки компрессором их значения уменьшаются в определённой степени и не превышают синюю черту (второй этап на изображении). После чего мы имеем свободную область в динамическом диапазоне: 80-100 и все отсчёты с громкостью 0-60. Значения отсчётов умножаются так, чтобы значение 60 стало равно 100 (этап 3 на изображении). Благодаря этому типу обработки звука уменьшается разница между наиболее громкими и наиболее тихими звуками, благодаря чему в большинстве случаев увеличивается разборчивость. Однако следует заметить то что сужение динамического диапазона не всегда полезно, так как исчезает динамика композиции, музыка начинает монотонно звучать на одном уровне, теряет свою живость.

Информация о работе Организация и представление звука в мультимедиа