WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 5 | 6 || 8 |

При проектировании дикторо-независимых методов и систем распознавания слитной речи с большим словарем разработчиками в настоящее время последовательно решаются следующие задачи:

- вначале прогнозируется дикоро-зависимая система распознавания речи с ограниченным словарем 15000…20 000 слов.

- Затем разработка адаптивных (настраиваемых на конкретного диктора в процессе работы) систем распознавания с большим словарем (более 20 000 слов).

- Наконец, ожидается создание дикоторо-независимых систем распознавания слитной речи со словарем в 200…300 слов доя использования в системах речевого управления.

7.4. Устройства вывода речевой информации. Синтезаторы.

Задача вывода речевой информации сводится к преобразованию машинных кодов из ПК в колебания звуковой частоты речи. Устройства вывода и аппаратно, и программно проще устройств анализа. Особенно заметно экономится память при синтезе речи по фонетическим правилам.

Классификация:

Синтезаторы речевых сигналов речевых сообщений компиляторы (ограниченный словарь) универсальные Блок-схемы:

1) с ограниченным словарем номер ПК компилятор синтезатор сообщения ПЗУ словарь либо все это в ПК 2) универсальный текст ПК Лингвистический синтезатор процессор база знаний В компиляторах любое сложное речевое сообщение получается просто соединением (компиляцией) элементов речи (фонем, аллофонов, слогов, слов). Это – метод синтеза по образцам (по образам).

Элементы речи заранее начитываются диктором. Эти сигналы оцифровываются, кодируются, компрессируются и записываются в ПЗУ.

В процессе выбора закодированные речевые элементы считываются из ПЗУ в заданной последовательности и одновременно восстанавливается речевой сигнал, рис.

генератор f1=50 Гц смесит маш. код ель дешифратор (фонемы….

слова) генератор fn=5 кГц Вместо генераторов лучше применять цифровые полосовые фильтры.

При использовании в качестве элементов речи отдельных словоформ, подставляемых в определенные места стандартных фраз, компиляционный метод позволяет получить удовлетворительный по качеству синтез речи.

Пока попытки добиться высококачественного синтеза фонем или аллофонов еще мало успешны, т.к. все эти элементы тесно связаны между собой внутри фразы. В слитной речи не существует аналогов этих элементов, произнесенных изолированно. И наоборот, речь из изолированно произнесенных элементов звучит ненатурально.

Поэтому подготовка словаря для компиляторов – самостоятельная сложная проблема.

Пример структуры компилятора.

от ПК память ЗУ кадров устройство образцов управления выборкой и синхронизацией выбор fосн коммутатор У генератор f Многозвенн основного тока У У ый цифровой переключате ЦАП ль генератор управляемы шума СИНТЕЗАТОР Фильтр и ЦАП управляются от ЗУ, куда заранее из памяти образцов заносится выбранное устройством управления описание сообщения как последовательности кадров.

Каждый кадр содержит параметры: громкости, частоты основного тока, длительности синтезируемого звука и др.

Кадры опрашиваются с интервалом дискретизации времени 20 мс.

Модулируя основной тон по таблице музыкальных нот, можно синтезировать пение.

В универсальных синтезаторах стремятся получить функциональную модель речеобразования, адекватную реально существующим языковым и акустическим особенностям. Речь формируется по правилам фонетики языка (фонетический метод).

На входе такой модели – орфографический или фонемный текст произвольного содержания. На выходе – звучащая речь. По существу - это кибернетическая функциональная модель чтения текста человеком. В базе знаний синтезатора хранится как информация об элементарных единицах речи (эталоны фонем, аллофонов и интонем), так и алгоритмы правил их модификации в зависимости от конкретного контекста звуковой реализации. Процесс применения этих правил реализуется лингвистическим процессором.

Достоинства универсальных синтезаторов: малый расход памяти на один элемент речи и неограниченность словаря синтезируемых сообщений. Расплата – аппаратная сложность и трудность получения высоко качества слитной речи.

Сравним методы синтеза по объему необходимой памяти на примере слова «алло», длящегося 0,3 с и резерва памяти N=48 Кбайт.

Объем памяти Скорость чтения из ПЗУ Время звучания, Формирование речи слова «алло» Т=N/v v = n/0,3 байт/с бит/с n, байт 1800 6000 48 000 8 с Прямая запись/чтение речи 6000 отсчетов/с по 1 байту f=3 кГц 188(187,5) 625 5 000 48 000/625=1 мин -код 5000 бит/с 17 с f=1,2 кГц 188 625 5 000 1 мин 17 с Компиляция по словам 45 150 320 с= 5 мин 20 с Компиляция по слогам По фонетическим правилам 30 100 8 мин проще 4 13,3 1 ч 4 мин сложнее Известен высококачественный аппарат-синтезатор («ящик» 104530 см) к ПК, дающий близкую к естественной речь различного темпа и оттенка по тексту неограниченного словаря.

8 Нейронные сети 8.1 Введение В пионерской работе Мак-Каллок и Питс (1943 г СШ А ) предложили идею, использовать сеть из простейших искусственных нейтронов для распознавания изображений. Первая практически применявшаяся сеть из искусственных нейтронов создана Ф. Розенблатом (1957г, СШ А ). Его сеть продемонстрировала удивительные возможности распознавания символов.

Понятие «распознавание образов» охватывает широкую область важных задач обработки информации – от распознавания речи и классификации рукописных символов до медицинской диагностики и обнаружения неисправностей в технике. С этими проблемами человек справляется (с разной степенью усилий). Однако формализовать эти проблемы до такой степени, чтобы переложить решение такой задачи на компьютер, удаётся далеко не всегда. Нейронные сети позволяют создать прочный теоретический фундамент для решения таких задач.

Для того чтобы система распознания могла правильно классифицировать вектора образов, которые до этого не попадали в её поле зрения, она должна обладать свойствами обобщения, реагируя на характерные признаки и обращая внимания на помехи и возможные искажения. С этой проблемой успешно справляются нейронные сети.

Искусственной нейронной сети присущи такие свойства человеческого мозга, как обучение на примерах и обобщение на основе предыдущего опыта. Они могут саморазвиваться и делать больше, чем повторение программ заложенных в них программистом.

Наиболее простая односложная и легко обучаемая нейронная сеть исторически называется персептроном. Персептроны применялись для предсказания погоды, анализа электрокардиограмм и в системах технического зрения. Но скоро оптимизм улетучился, когда оказалось, что персептроны не могут осилить ряд простых задач. Минский М. Л.

(1971 г)строго математически доказал, что персептрон нельзя обучить выполнять функцию XOR(исключающее или). Разочарованные специалисты прекратили работы с персептронами более чем на 20 лет. После длительного перерыва был теоретический фундамент многослойных нейронных сетей и работы были перенесены в более гибкую среду компьютерного моделирования.

К началу 90-х годов теория и практика искусственных нейронных сетей и работы над созданием нейрокомпьютеров стали нарастать лавинообразно. Оказалось, что возможности многочисленных нейронных сетей несоизмеримо превышают возможности однослойных персептронов. Область их применения в наше время необычайно широка.

8.2 Биологический нейрон и его формальное моделирование Основные элементы нервной системы нейрона (в мозгу человека около 1010 нейронов) делятся на три группы по назначению.

1) Рецепторы – осуществляют предварительную обработку и кодирование информации, поступающей в организм от внешней среды.

2) Ассоциативные нейроны – перерабатывающие информацию в центральной нервной системе, поступающую от рецепторных нейронов.

3) Эффекторные нейроны – передающие информацию от центральной нервной системы к мышцам.

Нейрон – это специализированная клетка (рис 8.1) Она состоит из сомы(тела) (С), оболочки, которая называется мембраной, дендритов (Д), аксона(А ), и бляшек (Б), которые называются синапсами.

Аксон - выходной отросток нейрона, разветвляется на большее количество Б волокон которые подходят к дендритам Д других нейронов и заканчиваются синоптическими бляшками (утолщениями).

А Б По ним импульс, выработанный нейроном и Д Б передаётся во вне (другим нейронам).

Б Синапсы могут быть и на теле нейрона, кроме того к ним могут подходить и волокна Д Б и волокна по которым передаётся импульсы от того же нейрона, т.е. может существовать обратная связь. Электрические импульсы Б поступающие на синапсы вызывают сложный динамический процесс в теле нейрона изменяя потенциал мембраны во времени.

В момент достижения некоторой величины (порога нейрона ) нейрон вырабатывает импульс, который уходит по аксону, а потенциал мембраны резко падает, нейрон как бы разряжается. Следующий импульс будет сформирован только после некоторой паузы, которая не может быть меньше некоторой минимальной величины, называемой абсолютной рефрактерностью нейрона. Следовательно, максимальная частота импульса нейрона ограничена. Заметим, что все нейроны вырабатывают импульс одного знака. Но одни синапсы (возбуждающие) повышают потенциал мембраны нейрона, а другие синапсы (тормозящие) понижают потенциал мембраны.

Итак биологическая нейронная сеть является однополярной асинхронной импульсной сетью с частотной модуляцией. Формальный нейрон, как модель биологического, отличается значительными упрощениями. Структура формального нейрона Мак-Каллока и Питтса показана на рис. 8.XВХОД Wf(net) net ВХОД i Xi Wi V Y Выход ВХОД n Wn Xn Пороговый элемент Суммирующий Входные Рецепторное Массив весовых элемент сигналы поле коэффициентов Рис 8.Входные сигналы Х могут иметь любую физическую природу (размерность) величины с которыми и работает формальна модель нейрона. Состояние входов {X1,X2,Xn} умножаются на весовые коэффициенты и складываются в суммирующем элементе:

net = X Wii i Выходная величина есть функция от net.

Этот нейрон уже является простейшим персептроном. Выходная величина «Y» получается вычитанием из net порогового значения V (Называемого также «смещением») Считаем, что выходной сигнал «Y» может изменяться только в дискретные моменты времени t кратные. Причем эти моменты одни и те же для всех нейронов сети, т.е. сеть работает синхронно. Входные сигналы могут быть как двоичные так и непрерывные fY net)( == net -V = X Wi -V i i Дискретность времени в этой формуле подразумевается по умолчанию т.е. выход «Y» изменяется спустя после изменения входа Х.

К особому классу относят нейроны с двоичным выходом информации. В этом случае в понятие «Пороговый элемент» вкладывается несколько иной смысл. По-прежнему вычитается V из WX, но теперь элемент выдаёт Y=0, если эта разность меньше ii i нуля и Y=1, если больше нуля.

,1 если WX V ii i Y = далее для удобства рисунков, учитывая, что элементы нейрона,0 если WX < V ii i составляют единое целое и поля входов и выходов нейронной сети не учитываются при подсчёте количества слоев нейронов, будем изображать структуру нейрона, так, как показано на рис.

Y- сигнал активности выхода нейрона Y=f(net) X1 WY Xi Wf(net) net Xn Wnet = X Wii -правило комбинации входных сигналов i В векторном представлении, например :

W W net = [X X X ]* 21 3 Wпри X1=0,7; X2=0,1;X3=0,W1=-7,3,W2=3,1,W3=0,5 получим - 3, [ 7,0 0,1 0 3, ]*,31 =,0,0 8.3 Вычисление сигнала активности 1.Тождественная функция f(net) net Рис 8.4 (а) 2. Пороговая функция f(net) net Рис 8.4 (б),1 net V netf )( =,0 net < V 3. Смешанная пороговая функция f(net) Рис 8.4(в) net n,1 net net = X Wi, netf )( = i,0 net < i= Сдвиг удобно представить как весовой коэффициент W0 от скрытого элемента постоянной величины X0=n net = X Wij ij i=X0 W0j j-й нейтрон Yj X1 W1j Xn Wnj Рис 8.В сложных задачах применяются, как в биологическом нейроне, плавные пороговые функции вместо скачка 4. Сигмоидальная (логистическая) функция f(net) 0,net Рис 8.6(а) netf )( = ext(1 -+ net) 5. Гиперболический тангенс netf )( 1-= + ext(1 2 * net) f(net) net -Рис 8.6(б) 6. Функция Гаусса netf )( ext(-= 0 5, * net)2 f(net) net Рис 8.6 (в) 8.4 Однослойный персептрон Пример структуры однослойной нейронной сети (персептрона) с ‘n’-входами и ’m’выходами, рис.8.XW YW1j net 1 VW1m W1j Xj net j Vj Wij Yj Wim WnXn Wnj net m Vm Ym Wnm Рис 8.n X -= Vj WY ijj i i=в общем случае XYV любые Для двоичных нейтронов n,1 VW ij j Yj = ni,0 XW < Vj ij i В векторной форме WY -= V, ij X - это образ, который надо распознать. Распознавание в геометрическом представлении это выделение групп (областей) точек в многомерном пространстве образов по классификационным признакам Yj. Например, разделение пространства образов линией или несколькими линиями для двумерного образа,- проведение плоскостей или поверхностей для 3-х мерного образа. Говорят о персептронной представляемости – способности научиться распознавать моделировать определённые функции, образы.

Однослойный персептрон – линейный, т.к. разделяющая образы поверхность является либо прямой линией, либо плоскостью, либо гиперплоскостью.

Нелинейные задачи (для криволинейных линий и поверхностей раздела) однослойному персептрону непосильны.

Говорят о линейной неразделимости пространства признаков X.

Обучение или конструирование персептрона (и нейронной сети) это процедура настройки весов Wij и в общем случае и Vi.

Обучаемостью называется наличие процедуры (алгоритма) настройки весов.

Заметим, что для однослойного персептрона с n-двоичными входами пространства признаков X имеется 2n различных комбинаций входных сигналов. А количество образов (функций) для распознавания Yj равно (2)2^n.Из них количество функций (образов) линейно разделимых персептроном значительно меньше, табл. 8.1. Для остающихся нелинейных задач распознавания требуются многослойные нейронные сети (часто с обратными связями) Табл.8.N (2)2^n Количество линейно разделимых функций 1 4 2 16 3 256 4 65536 5 4,3*109 8.5 Общие принципы и основные компоненты нейронных сетей Нейронная сеть (НС) – это устройство параллельных вычислений из множества взаимодействующих простых «процессов» (нейронов).Нейроны периодически получает сигналы и перерабатывает их периодически посылает свои сигналы другим другим нейронам, объединенным множеством связей в нейронной сети.

Задача, которую понимает НС описывается в терминах весовых значений связей между Нейронами. Эти матрицы весов связей и являются памятью НС.

О том как должна решаться выполняемая задача.

Весовые коэффициенты можно определить (построить НС) и без обучения, но главное преимущество НС в способности обучаться.

Структура связей НС может быть самой разнообразной. Один элемент связан со всеми другими, элементы организованы по слоям иерархически могут быть обратные связи, латеральные(параллельные)- возможности конструирования связей безграничны.

Матрицы весов (примеры) W1- матрица 4х3 первого слоя нейронов W2 –матрица 3х2 второго слоя нейронов - 20,6 4 3,,1 2 0 0 0 5, W = 8,0 0 -- 0,4 0 9, 7,0 -1 2 3, -2,4,1,0,2,-1,0 0,0,0,W1(4x3) W2(3x2) -0, 1,2 1.

1,.

.

-0,.

.

3 -1,7 2.

.

.

.

.

0,4 Рис 8.8(б) -,0 6 1,2 1,,1 3 0,...

W1 = W2 =..

...

..

.. 0, Рис 8.8(в) 8.6 Обучение нейронной сети Сеть обучается чтобы для некоторого множества входов давать желаемое множество выходов. Обучение происходит последовательным предъявлением входных векторов с одновременной подстройкой весов по заданной процедуре. В результате веса становятся такими, что на каждый входной вектор вырабатывается требуемый выходной. По способу контроля ошибки и подстройки весов различают обучение с учителем и без него.

С учителем. Учителю известен для каждого входного вектора требуемый выходной целевой вектор – обучающая пары. Сравнением вычисляются ошибки и настройкой весов минимизируются. Популярны 2-а метода -правило и способ обратного распространения ошибки.

Без учителя. При предъявлении входных векторов НС самоорганизуется путем настройки своих весов по заданному алгоритму так, что предъявления достаточно близких входных векторов даёт одинаковые выходы, т.е. НС группирует сходные входные векторы в классы. После обучения все выходные нейроны возбуждаются, а нейрон с максимальным возбуждением ассоциирует с данным классом и, хотя целевых векторов нет НС будет отображать существенные характеристики обучающего набора.

Для программной реализации используют два класса алгоритмов.

Pages:     | 1 |   ...   | 5 | 6 || 8 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.