Время прочтения: 2 мин.

Ответы на вопросы, которые были заданы во время вебинара

Вопрос 1: Какие формы звука бывают?

Ответ: Форма элементарного звука одной частоты зависит от объекта, его генерирующего: живой или не живой объект, какие колебания он воспроизводит и т.п.

Чтобы описать форму таких колебаний используют определённую функцию, которая отражает зависимость изменения значения амплитуды по времени у сигнала заданной частоты. По форме графика такого сигнала или по функции и даются названия формам звука: треугольная форма, прямоугольная, параболическая, в форме зубьев пилы, кубическая и т.п.

Человеком такие звуки могут восприниматься как более громкие или тихие, резкие или мягкие при одинаковой частоте и максимальной амплитуде.

Вопрос 2: Возможно ли выявить подделку уже самого аудиофайла, с которым будет работать модель?

Ответ: Да, есть такие способы, подробнее вы можете ознакомиться со статьёй на сайте newtechaudit.ru. Ссылка на статью. Также на этом сайте есть наши статьи по поводу настройки FFmpeg и функции языка R

Вопрос 3: какой сейчас наиболее популярный и эффективный фреймворк для распознавания речи?

Ответ: В настоящее время идёт интенсивное обсуждение такого фреймворка, как Kaldi. Но при выборе следует учитывать все плюсы и минусы каждого инструмента и определить, что вам важно именно для определённой задачи. Например, следует учесть, что нейронные сети при распознавании речи требуют размеченных данных, а GMM-UBM в свою очередь не требует разметки.

Вопрос 4: на сколько хорошо работает модель, обученная на довольно чистых аудио от мозиллы, на реальных телефонных звонках?

Ответ: Первоначально следует отметить, что во время вебинара мы обозначили, что дообучали модель не только на данных компании мозилла. Также всё зависит от качества подготовки данных и настройки модели. Например, на тестовых данных такая обученная модель даёт accuracy > 96% по определению пола говорящего. При этом последующая проверка показала, что количество представителей разного пола было практически сбалансировано.