Занятие 6
Аудио и речь
Визуализация звука
Генерация речи
Распознавание речи

Главное правило — сначала привести аудиофайл к формату моно wav

Знаете это ощущение, когда у вас сломался один наушник? Музыка продолжает играть в другом наушнике, но не так полноценно: либо битов не хватает, либо голос приглушённый. Это потому, что сейчас стандарт — стереозвук, создающийся из нескольких каналов. Однако библиотекам в python непросто обработать такой звук: поэтому нужно свести все каналы в один (моно).
STT — speech to text — речь превращаем в текст — расшифровка аудио
TTS — text to speech — текст превращаем в речь — генерация аудио
Нейросети плохо работают с длинными аудио — запись длительностью в 1 час может обрабатываться вечность.

Чтобы обработка прошла быстрее, нужно «порубить» аудио на сегменты длиной по 20–30 секунд.
Диаризация — разбивка единой аудиозаписи на сегменты. Более продвинутые алгоритмы умеют разбивать аудио, ориентируясь не только на паузы, но и на изменение голоса, что позволяет расписать реплики по говорящим.
VAD — voice activity detection — эта аббревиатура показывает, что данная библиотека предназначена для разбивки аудио на сегменты.
Спектрограмма
Иногда нам хочется посмотреть на звук — в этом нам поможет спектрограмма, которая цветом показывает, как частота меняется со временем.

Частота звука — это количество колебаний в единицу времени. Чем больше частота, тем выше звук.

Амплитуда звука — это максимальное отклонение звуковой волны от положения равновесия. Измеряется в децибелах (дБ). Мы воспринимаем амплитуду как громкость.

Интенсивность — это мощность звуковой волны. Мощность — это скорость передачи энергии.

Спектральная мощность сигнала — мощность, приходящаяся на единичный интервал частоты.



Спектрограммы помогают:
  • определять и различать человеческую речь или звуки животных, например пение разных видов птиц;
  • отследить поломки в оборудовании;
  • найти и удалить дефекты в аудио, такие как кашель, скрип и свист.

В спектрограмме визуализируются три показателя:
  • X — время;
  • Y — диапазон частот в Hz;
  • Z — интенсивность (мощность, громкость) сигнала, которая задаётся цветом, по принципу: чем громче звук — тем ярче или интенсивнее цвет.
В тёмных областях меньше звука.

В привычной нам звуковой волне (осциллограмме) — только два: Х — ось времени, Y — амплитуда колебания волны в децибелах.
Звуковая волна и спектрограмма
Спектрограмма вокала с вибрато
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website