WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 4 | 5 || 7 | 8 |

Для каждой фонемы огибающая спектра имеет индивидуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется и образуются ферментные переходы. Спектр согласных чаще всего имеет один, но очень расплывчатый максимум. Средняя точка эффективного речевого спектра соответствует 1900Гц (неискаженная речь в тишине).

Гласные звуки имеют в среднем длительности около 0,15 с, согласные – около 0,09 с, а звук П – около 30 мс.

Звуки речи неодинаково информативны. Гласные звуки содержат малую информацию о слове, а глухие согласные наиболее информативны. Например, в слове ПОСЫЛКА последовательность ОЫА ничего не говорит, ПСЛК дает почти однозначный ответ о смысле. Интересно, в древне иудейской письменности не было гласных букв.

Известно, что для передачи одного и того же сообщения по телеграфу и по речевому тракту требуется различная пропускная способность. Для телеграфа достаточна пропускная способность не более 100 бит/с (полоса 7000 Гц, диапазон 42 дБ, т.е требуется 7-значный код, откуда 2*7000*7=98000 бит/с). Телеграф передает информацию только о смысле текста речи, а речевой тракт – еще и эмоциональную и другую информацию о голосе человека.

Рис. 6.1 Уровнеграмма и интегральное распределение по ней Рис. 6.3 Спектральные огибающие звуков «В»-1 и «Г»-2 русской речи Рис. 6.4 Зависимость слоговой разборчивости от уровня речи и шума для русской речи полоса пропускания 250..3000 Гц. Спектр шума равномерный Например, для S = 80% - отличная связь надо при шуме 40 дБ иметь сигнал L = 80 дБ, т.е.

на 20 дБ больше. Срыв связи при сигнал/помеха 6.4 Разборчивость речи Разборчивость речи определяется как отношение в % количества правильно услышанных элементов речи к числу переданных по специально составленным и стандартизированным артикуляционным таблицам.

Стандартные нормы разборчивости устанавливают связь разборчивости с экспертной оценкой качества связи, табл. 6. Табл. 6.Качество связи или звуковой аппаратуры Вид разборчивости Срыв Предельно УдовлетХорошо Отлично связи допустимо ворительно Слоговая S, % <25 25..40 40..55 55..80 80 и выше Звуковая D, % <60 64..75 75..82 82..93 93 и выше Словесная W, % <65 75..87 87…93 93..98 98 и выше Фразовая J, % - 90..95 95..97 97..99 99 и выше Всякие помехи и нестандартные условия влияют на разборчивость речи. Влияние шума на разборчивость речи зависит от соотношения уровней шума и речи, рис. 6.Для удовлетворительного восприятия речи ее уровень должен превышать уровень шума не менее чем на 6 дБ.

Существуют приемы повышения разборчивости речи, которым обучают дикторов и артистов. Вот некоторые из них:

1. Оптимальный выбор словаря, который должен содержать меньше сплошных речевых стимулов, учитывать акустические критерии, отдавать предпочтение привычным для определенного контингента лиц словам, не допускать включения нестандартных терминов.

2. Выбор слов. В частности, длинные слова понимаются лучше, чем короткие.

Наибольшей помехоустойчивостью к белому шуму обладают звуки Р, Л, М, Н, хуже Ш, Ч, П, наихудшей С, Ф, Ц, Т, Г. Слова с буквой И под ударением дают 10% лучшую разборчивость чем с ударной А. Точнее опознаются слова с ударением на последнем слоге. Распознаваемость слов повышается, если они начинаются с гласных.

3. Для оптимизации строения фраз их объем не должен превышать 7±2 слов, не считая индексов и позывных. Наиболее значащие слова следует располагать в первой трети фразы. В разрешающих фразах (командах) разрешение следует в конце, после содержания действия. В запрещающих фразах – наоборот.

4. Выполнение специальных требований к диктору:

а) Большая интенсивность речи;

б) Большая продолжительность слогов;

в) Повышенная вариативность звуковых высот;

г) Значительная часть времени занята речевыми звуками, а не паузами;

д) Повторение передачи должно иметь туже структуру и слова, что и в передающем случае;

6.5 Анализ и синтез речи.

На рис. 6.1 показан исходный принцип получения мгновенного амплитудного спектра речи. На практике в известном звуковом спектрографе и большинстве анализаторов параллельного типа применяют упрощенный способ измерения, рис. 6.Полосовой ФНЧ |S(,t)| детектор x(t) фильтр p(t) q(t) Рис. 6.5 Блок-схема измерения мгновенного спектра.

Этот способ обычно используется в вокодерах и устройствах автоматического формантного анализа. При соответствующем выборе импульсного отклика фильтра низких частот (ФНЧ) выходное напряжение |x(t)p(t)|g(t) приближенно описывает |S(,t)| - одну спектральную линию на частоте резонанса полосового фильтра. При типовой ширине резонансной характеристики полосового фильтра 150 Гц гребенка из 24 фильтров перекрывает частотный диапазон от 150 Гц до 4000 Гц. Сигналы снимаемые с выходов коммутируют с периодом 10 мс.

Есть приборы в которых используется один полосовой фильтр в схеме рис. 6.5, но с перестраиваемой электрически частотой резонанса.

Разрешающая способность такого прибора определяется шириной полосы фильтра, рис. 6.Рис. 6.Более информативные результаты анализа речи получают с помощью приборовсамописцев, которые разворачивают изменение спектра речи во времени. Сегмент речи записывают на магнитофон и затем подвергают частотному анализу. На бумаге самописца по оси абсцисс откладывается время, а по оси ординат частота. Спектр разворачивается для каждого момента времени вертикальной строкой (как бы механический «телевизор»).

Величина спектра отображается на бумаге степенью почернения. Для этого используется специальная электрочувствительная бумага. Электрический ток, протекающий через наконечник специального пера прожигает бумагу так что степень ее почернения пропорционально току. В результате на бумаге «вырисовывается» развертка спектра в координатах время-интенсивность-частота. Такую «картинку» называют по-разному:

спектрограммой, сонограммой, видеограммой, отпечатком речи, рис. 6.Рис. 6.8 Видеограмма английской фразы «Mary had a little lamb» (у Мери маленький барашек) Рис. 6.Рис. 6.Рис. 6.9 Видеограмма сегмента русской речи Слог «иву» Рис. 6.Различают сегменты речевого сигнала: вокализованные, невокализованные и паузы.

Вокализованный сегмент содержит во временной волне некоторый основной тон, который четко просматривается на осциллограмме, рис. 6.10. Невокализованные – шумоподобные сегменты дают глухие согласные, рис. 6.11.

Потому любая линейная модель речеобразования содержит генератор основного тона, генератор шума и сумматор, управляемый параметром вокализации, определяющим доли тона и шума в смеси. 0 Величине = 1 соответствует звонкий вокализованный звук. =0 задает глухой шумоподобный звук. А, например, для «Р» и «Л» будет 0,5.

На рис. 6.12 показана типовая линейная модель речеобразования.

ft Параметры фильтра Генератор возбуждающих импульсов Uв(t) Линейный фильтр H() x(t) Генератор A шума Uш(t) 1- t Рис. 6.12 Линейная модель речеобразования.

- умножитель - сумматор - управляющая информация Простейший, исторически первый анализатор и синтезатор речи – параметрический вокодер показан на рис. 6.ПФ-ПФ-1 Дет ФНЧ ПФ-ПФ-2 Дет ФНЧ цифровой ………………………………… …………… …………… канал связи ПФ-N ПФ-N Дет ФНЧ Выделение основного тона f0 Генеf0 ратор Генератор импушума льсов Детектирование вокализованности шум =Тон =Анализатор Синтезатор Рис. 6.Недостаток схемы – трудно построить эффективно работающий выделитель основного тона.

В формантных вокодерах в качестве основных параметров берут 3..5 первых формант, которые моделируют своими полосовыми фильтрами.

Конструируют вокодеры с использование ДПФ.

Есть вокодеры использующие модель речеобразования на основе линейного предсказания очередного отсчета Хi, речевого сигнала через линейную комбинацию предыдущих отсчетов.

Развитие вокодеров не прекращается так как вокодера с совершенными параметрами, обеспечивающего отличное, натуральное качество цифрового канала связи, при полосе пропускания не более 100..1000 бит в сек, пока не придумано. В то время как мозг человека подает команды на речеобразующие органы всего со скоростью 50 бит/с.

е а и р д е Дкодиров ние аз ел ние Ди скр е ти за ци я, ква нто ва ни е ко ди р о ва ни е 7. Устройства ввода-вывода речевой информации (УВВ) УВВ уже можно отнести к интеллектуальным интерфейсам. Основные достоинства речевого канала общения с ПК:

- общение ведется в двух направлениях;

- ведется не естественном языке и не требует дополнительного обучения;

- канал самый быстрый и экономичный;

- легко совмещается с другими периферийными устройствами;

- аппаратные средства могут быть малогабаритными и дешевыми.

7.1 Модель речи В общем случае системы речевого общения строятся на базе двух специализированных речевых процессоров: анализаторов (устройства ввода (УВв) и синтезаторов – устройства вывода (УВыв)).

Процесс речи, как процесс распознавания слуховых образов, состоит из 3-х этапов:

анализа идентификации и собственно ввода в ПК, рис Ввод в ПК анализатор распознавание кодирование машинного кода фонемы ПК звуковая Запись в память Распознавание и карта фрагментов речи кодирование фонем Над распознаванием речи работают с 60-х годов. К настоящему времени созданы УВВ речи в дискретной языковой форме - «диктовка». Но реальные результаты в распознавании слитной речи пока скромные.

Основные трудности – индивидуальность голоса и слитность речи усложняют анализ и идентификацию единиц речи: звуков, фонем, слов.

В практике УВВ речи анализируют диапазон звуковых колебаний 50…5000 Гц, разбивая его на поддиапазоны 3-мя фильтрами: 50…900 Гц, 900…2200 Гц, 2200…Гц. Запас полосы частот против стандарта 400…3000 Гц используется для сохранения интонации и индивидуальности речи и для увеличения разборчивости речи.

В русском языке 42 фонемы: 6 гласных и 36 согласных. В английском – 20 гласных (из них 5 дифтонгов)и 24 согласных. Однако в слитном потоке речи, в зависимости от конкретных условий, фонемы изменяются, т.е. появляются оттенки фонем – аллофоны.

Общее число аллофонов: 480 гласных и 8880 согласных. Акустические характеристики фонем определяются артикулярными особенностями мест и способов их образования в речевом аппарате – ротовом и носовом, образующих единую акустическую систему, возбуждаемую колебаниями голосовых связок, либо турбулентным шумом.

Распространение звуковых волн в такой системе описывается уравнением Вебстера:

1 p 1 2p S(x) = S(x) x x c2 tS(x) – функция пощади сечения звукового тракта вдоль оси распространения волн, р – давление, с – скорость звука, t – время.

Решение этого уравнения – основная забота теории речеобразования. Интонация и ударение в слитной речи реализуются тремя характеристиками:

- мелодика – изменение частоты основного тона голоса;

- ритмика – текущее изменение длительности звуков и пауз;

- энергетика – текущее изменение интенсивности звука.

Существуют три метода анализа речи:

1. Метод предварительной визуализации. Анализируются оптические изображения губ оператора. По опыту языка общения глухонемых (задача бионики ).

2. Анализ колебаний голосовых связок, снимаемых с лорингофона. Пригоден в условиях сильных помех (кабина самолета, у прокатного стана и т.п.) (задача бионики ).

3. Анализ спектральных характеристик речи: энергетических, частотных, временных и амплитудных спектров. Применяется для распознавания отдельных слов, например, команд управления и «диктовок».

Этот метод состоит из нескольких операций.

Вначале – сегментация речи (машинное разбиение речи на фонемы). Для этого речевой сигнал разбивается на 10-милисекундные дискреты t. В каждом дискрете оценивается спектральных параметров: 1,2,3-ий параметры – это максимальные значения амплитуд колебаний в трех поддиапазонах 50…900 Гц, 900…2200 Гц, 2200…5000 Гц, а 4,5,6 – параметры – это количество переходов через нуль сигналов этих частот, т.е. косвенное определение частот тех колебаний, которые имеют максимальную амплитуду в каждом из 3-х частотных поддиапазонов.

7.2 Структурная схема анализатора речи Различают два класса анализаторов: сигналов и сообщений.

В анализаторах сигналов информационный поток сигналов с микрофона (105 бит/с) сжимается (компрессируется) за счет статистических характеристик речевого сигнала без обращения к его смысловой функции.

В анализаторах речевых сообщений информационный поток компрессируется за счет введения операции распознавания смысловых элементов речи: фраз, слов, морфем, фонем. (морфема – наименьшая единица значения; в языке – слова, части слов: приставки, суффиксы или их сочетания).

В свою очередь имеем анализаторы с ограниченным словарем и универсальные.

Анализатор речевых Нелинейный номер ПК сигналов корректор команды ПЗУ эталонов команд Анализаторы с ограниченным словарем распознают заданное с конкретной целью некоторое (обычно ~100) количество речевых команд.

акустический лингвистический текст ПК процессор процессор База знаний Универсальные анализаторы нацелены на распознавание полного набора смысловых элементов речи (фонем или морфем), с помощью которых может быть распознано слово или слитно произнесенное речевое сообщение. Распознавание осуществляется лингвистическим процессором по правилам, заложенным в базу знаний.

В общем случае речевой процессор начинается с «предпроцессора» - программноуправляемое устройство спектрального анализа речевого сигнала с последующим преобразованием данных в цифровую форму.

Структурная схема анализатора 6-ти спектральных параметров звука, рис.

пик АЦП ПФ 150…900 Гц пор. у счетчик > пик АЦП ПК ПФ > 900…2200 Гц пор. у счетчик > пик АЦП ПФ 2200…5000Гц пор. у счетчик > Особенности схемы:

- Усилители охвачены глубокой отрицательной обратной связью для автоматическое регулировки усиления амплитуды сигнала.

- В УВВ служебного назначения берут АЦП на 8 разрядов – 256 уровней квантования сигнала, т.е. уровни квантования отличаются друг от друга <0,5%.

- ПК опрашивает данные на выходе анализатора через 0,1 мс, т.е. с частотой выше возможной максимальной частоты основного тона.

- ПК программно измеряет сходство параметров соседних дискретов речи, а затем и сегментов. При большом сходстве дискреты объединяются. Если же изменение параметров слишком велико, сегменты разбиваются. Так определяются границы фонем.

- Количество полосовых фильтров определяет достоверность распознавания команды, слова –поэтому зависит от объема словаря в ПЗУ или памяти ПК.

7.3 Структура устройства ввода речи Вторая операция этапа анализа речевого сообщения – машинное описание речи с помощью тех же спектральных параметров. Фонемы, слоги, слова описываются в зависимости от объема словаря и типа ввода – слитная речь или дискретная («диктовка»).

Соответственно и эталоны описываются также.

Емкость памяти словаря эталонов зависит от количества распознаваемых фонем, слов. Например, для голосового программирования на языке С (65 команд и знаков) хранение эталонов занимает 3,5 Кбайт, т.к. хранение одной команды занимает 55 байт.

Объем программы распознавания на С получается в 991 строку.

Описание поступившей речевой команды сравнивается с эталоном по типу ассоциативного поиска методом перебора или на матричном процессоре с описанием всех эталонов. Вводимой фонеме приписывается имя того эталона, который наиболее близок к коду описания слухового образа.

Если набор слов или команд ограничен, то распознавание довольно просто можно обеспечить на принципе персептрона.

Тембры голосов разных операторов часто сильно отличаются.

Машинное описание фонем также будет существенно отличаться от эталонов. Это приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (а то и всех фонем). Поэтому при смене операторов требуется предварительная настройка системы путем записи новых эталонов с голоса пользователя. Этот прием в интеллектуальных системах называют обучением. Индивидуальные речевые параметры конкретного оператора: тембр, скорость произношения слов, фраз (средняя скорость слов/мин), акцент, дефекты речи.

Другой вариант настройки на голос оператора – индивидуальная подстройка амплитудно-частотных характеристик (АЧХ) фильтров анализатора. Это сложная система частотно-зависимой отрицательной обратной связи, обеспечивающая постоянство частотного спектра сигнала независимо от индивидуальных свойств голоса оператора.

Наибольший эффект будет, когда тембры голосов близки.

Пока в дикторо-зависимых, т.е. настраиваемых, системах ввода речи удается получить в 4 раза меньше ошибок распознавания, чем в дикторо-независимых.

Pages:     | 1 |   ...   | 4 | 5 || 7 | 8 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.