№ | Слайд | Текст |
1 |
 |
Определение артикуляционных классов и точных границ сегментов слитнойречи Меламуд Александр Евгеньевич, 545 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич Рецензент: д.ф.-м.н., проф. Граничин Олег Николаевич |
2 |
 |
Задачи обработки речиИдентификация диктора Поиск ключевых слов Распознавание команд (мало неключевых слов) Поиск в потоке Распознавание языка Распознавание речи |
3 |
 |
Уровни представления речиАкустический (параметризованный звук) Фонемы (модели фонем) Слова (словарь) Центральное звено – фонетический автомат, распознаватель фонем по параметризованному звуку |
4 |
 |
Проблемы HMMВарианты решения На лабораторной речи задача решена в общем виде На слитной речи в телефонном канале точность на уровне фонем падает (иногда до 30-35%) Возможные улучшения Cущественное увеличение обучающей выборки Предобработка на акустическом уровне Один из вариантов – сегментация по виду первичного возбуждения |
5 |
 |
Постановка задачи: 4 классаАртикуляционные классы: голос, голос+шум, шум, смычка(похожа на паузу), взрыв(раскрытие смычки) Группы фонем: гласные, звонкие согласные, глухие согласные и глухие смычные Практически точное соответствие между артикуляционными классами и обозначенными группами фонем |
6 |
 |
Постановка задачиЗадача сегментации Сегментация речевого потока с определением точных (младшие единицы мс) границ сегментов на основании источника первичного возбуждения без использования обучения Задача трассировки основного тона Определение кадров стационарности звонких участков – границы фонем на звонких Практическая возможность перехода с жесткой сетки кадров на сетку, привязанную к ударам основного тона |
7 |
 |
Определение наличия голосаГолосовой источник – высокоэнергетичные, (квази)периодические колебания Разделение по энергии в нижних частотах. Точность около 85%. Разделение с помощью линейного предсказания и отсечения пауз энергетически. Точность порядка 95% |
8 |
 |
Трассировка ОТАнализ спектра, АКФ, временные статистики Предобработка: оценка мгновенной мощности Тигр (T(i) = (s(i)?)2 – s(i)*s(i)??) – плохое поведение на шуме «Гетеродинирование» Комплексное представление сигнала G[k] = G[k]*G[k]’ – получаем квадрат амплитуды – оценку мгновенной мощности Трассы импульсов ОТ Локально самые большие по мощности Период от периода обязан отличаться незначительно |
9 |
 |
Разделение гласных и звонких согласных«Канонический» признак: Гласные – только голос, звонкие согл. голос + шум Различие в дальней форманте – вокалическая или шумовая На 8 кГц сигнале ответа получить не удалось качественно различными методами Вторичный признак: Нижние частоты лучше проходят сужение голосового тракта Соотношение энергии первой и второй формант Вариация на периоде первой форманты – решающая статистика |
10 |
 |
Разделение глухих щелевых и смычныхПереходные участки в 5-6 миллисекунд, можно решать задачу на жесткой сетке кадров по 40-50 отсчетов Анализ высоких частот: Статистика перехода через ноль в кадре. Непонятно как решать проблему дребезга в окрестности нуля на паузоподобных Вариация нормированного сигнала в кадре Правильно в районе 80%, причем ошибка сосредоточена на фазах аспирации смычных |
11 |
 |
РезультатыРезультаты работы сегментирующего автомата в районе 71-72% Сопоставимо с HMM Получено без каких либо априорных знаний о сигнале, кроме того, что это речь В трассах ОТ при ручной проверке было выявлено около 3% неверно поставленных меток Эталон\Автомат Гласные Зв.Согласные Гл.Щелевые Гл.Смычные Гласные 25,93 5,08 0,49 0,55 Зв.Согласные 10,69 19,11 0,75 1,39 Гл.Щелевые 0,52 0,27 10,25 1,18 Гл.Смычные 0,19 0,47 4,07 17,07 |
«Определение артикуляционных классов и точных границ сегментов слитной речи» |
http://900igr.net/prezentacija/russkij-jazyk/opredelenie-artikuljatsionnykh-klassov-i-tochnykh-granits-segmentov-slitnoj-rechi-211791.html