WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 || 3 | 4 |   ...   | 82 |

Известны два основных способа поиска экстремума: переборы и градиентный спуск, поэтому подходы к моделированию мыслительных процессов базировались на использование каждого их этих способов.

Первый подход основан на сложившемся в математике представлении об универсальном классе функций, с которыми сталкивается человек, как о классе, описываемом в терминах рекурсивных функций, машин 14 (TF) Вайнцвайг М. Н.

Тьюринга, продукций Поста, нормальных алгоритмов и пр., послуживших прототипами современных языков программирования. Поскольку для таких функций существует понятие универсальной функции, позволяющей организовать их перебор, то функции мышления пытались реализовать в рамках таких переборов.

На этой основе в мире возник широкий поток работ: универсальный решатель проблем GPS, распознающие системы, экспертные системы, игровые программы, системы доказательства теорем, решения задач и пр.

Вскоре, однако, выяснилось, что такие переборы в их непосредственном виде реализуемы лишь для достаточно простых и частных предметных областей. В общем же случае в силу NP-сложности переборы оказываются практически не реализуемыми. Это касается как процесса обучения, где объем перебора гипотез растет быстрее, чем экспоненциально с числом связываемых ими характеристик, так и логического вывода, где объем перебора также быстрее, чем экспоненциально растет с числом применимых на каждом шаге законов (аксиом) и правил вывода.

Поскольку заранее неизвестно, какие характеристики ситуаций должны связываться законами, то при обучении, как правило, приходится ориентироваться на максимально широкий их набор, из-за чего перебор гипотез становится практически нереализуем.

Альтернативой языково-переборного подхода является нейросетевой (или коннекционистский) подход, где и обучение, и принятие решений определяется сетью параллельно работающих функциональных элементов (нейронов), реализующих простые (как правило, непрерывные) функции. Конкретный вид этих функций определяется набором параметров (весов синапсов), значения которых формируются в процессе адаптации, т. е. непрерывной подстройки к нужным значениям выхода.

К этому направлению относятся персептрон, сети Хопфилда, ассоциативная память Кохонена, процедура backpropagation, адаптивные критики.

Казалось бы, за счет распараллеливания вычислений и использования только непрерывных функций здесь можно было бы получить большой выигрыш в скорости обработки. Однако, даже при относительно небольшой сложности нейронных сетей (размерности пространства синапсов), обучение моделей, как правило, оказывается слишком долгим, и требующим слишком большого числа показов примеров. Как и при первом подходе, оно здесь становится возможным лишь в достаточно простых случаях, когда сетью нейронов связывается относительно небольшое число характеристик. В сложных же случаях приходится разбивать Об ускорении процессов обучения и принятия решений (TF) характеристики на небольшие группы (простые подзадачи), что, как правило, делается вручную.

Таким образом, независимо от подхода, основные трудности моделирования мыслительных процессов связаны с проблемой NP-сложности и состоят в поиске методов автоматического сокращения: для обучения числа связываемых гипотезами характеристик; для принятия решений числа законов, применяемых на каждом шаге логического вывода.

Наша работа в основном и направлена на преодоление этих трудностей. Ее цель построение возможно более полной и способной работать в реальном времени модели рекурсивного развития интеллекта [1–4], обеспечивающей возможность организации в реальном мире все более сложного поведения.

В основе модели лежит работа ассоциативной памяти с использованием внутреннего языка описания ситуаций. На множестве понятий языка переменных определенных типов (объектных, числовых, логических) вводится метрика, где расстояния между понятиями определяется близостью соответствующих им событий в пространстве времени и последовательностью связывающих их законов. Переход из одной ситуации в другую определяется последовательностью событий изменений значений понятий.

Процесс развития основывается на следующей рекурсивной схеме.

1. Наиболее близкие между собой в метрике понятий контрастные события, последовательно обращая на себя внимание, связываются гипотезами-отношениями, имеющими вид ассоциативных операторов, например, адаптивных сетей Кохонена или Хопфилда.

2. При последовательной адаптации гипотез строятся законы, позволяющие по известным значениям одних понятий находить неизвестные значения других понятий.

3. Соответствующие законам отношения становятся новыми понятиями, которые, в свою очередь, могут связываться гипотезами и законами.

4. Законы модифицируют метрику, уменьшая расстояние между понятиями, что открывает возможность построения новых гипотез.

Так происходит постепенное пополнение внутреннего языка новыми понятиями, гипотезами и законами. Метрика в пространстве понятий по существу оценивает сложность достижения одних ситуаций из других и используется не только при обучении, но и при поиске оптимальных путей к целям.

Литература [1] Вайнцвайг М. Н., Полякова М. П. Формирование понятий и законов на основе анализа динамики зрительных картин // Труды 2-й международной 16 (TF) Васильев О. М., Ветров Д. П., Кропотов Д. А.

конференции Проблемы управления и моделирования в сложных системах. Самара, 2000. С. 166–170.

[2] Вайнцвайг М. Н., Полякова М. П. Архитектура и функции механизма мышления IEEE AIS’03, CAD-2003 (труды конференции) том.1, М.: Физматлит, 2003. C. 208–213.

[3] Вайнцвайг М. Н., Полякова М. П. Архитектура системы представления зрительных динамических сцен // Математические методы распознавания образов, ММРО-11, Москва, 2003. С. 261–263.



[4] Вайнцвайг М. Н., Полякова М. П. О моделировании мышления // От моделей поведения к искусственному интеллекту. М.: УРСС, 2006. С. 280– 286.

Устойчивость обучения метода релевантных векторов Васильев О. М., Ветров Д. П., Кропотов Д. А.

ovasiliev@inbox.ru, vetrovd@yandex.ru, dkropotov@yandex.ru Москва, ВМиК МГУ, ВЦ РАН Рассматривается проблема оценивания качества обучения метода релевантных векторов в классической постановке задачи классификации с двумя классами. Получена оценка отклонения эмпирического риска от риска на скользящем контроле для метода релевантных векторов.

Определения и инструментарий В задаче классификации восстанавливаемая величина y принимает значения из множества ответов Y = {-1, 1}, а независимая величина x принимает значения из множества объектов X = Rn. Задана прецедентная информация (выборка) S = {z1 = (x1, y1),..., zm = (xm, ym)}, (z1,..., zm) Zm = (X Y )m. Рассмотрим также выборки Si = S \ {zi}, i = 1,..., m, получаемые удалением из S одного наблюдения. Алгоритмическим оператором называется отображение из X в R, выбранное из некоторого параметризованного семейства. В случаях, если необходимо подчеркнуть роль параметров u некоторого алгоритмического оператора g, будем использовать альтернативную запись g = [u]. Алгоритмы классификации, рассматриваемые в работе, имеют вид sign(g), где g некоторый алгоритмический оператор.

Методом обучения µ называется отображение, сопоставляющее про извольной выборке S алгоритм классификации µS. Далее рассматривается единственный метод обучения, поэтому введём специальные обозначения для результатов его обучения (алгоритмов и соответствующих алгоритмических операторов) на выборках S и Si, i = 1,..., m. Будем обозначать µS = sign(f) = sign([w]) и µi = sign(fi) = sign([wi]) резульS тат обучения метода µ на выборке S и Si соответственно. Для задачи Устойчивость обучения метода релевантных векторов (TF) классификации используем ценовую функцию c: R2 R вида 1, yy 0;

c(y, y) = 1 - yy, 0 yy 1; (1) 0, yy 1.

Эмпирическим риском алгоритма µS будем называть величину m Rem(f) = c f(xi), yi, m i=Риском на скользящем контроле будем называть величину m Rlo(f) = c fi(xi), yi.

m i=Определение 1. Метод обучения для задачи классификации будем называть -устойчивым в обучении, если для всех S Zm, всех (x, y) S [w](x) - [wi](x).

и всех i = 1,..., m выполняется условие Метод релевантных векторов RVM [1] в своем наиболее распространенном варианте строит алгоритмы классификации в форме m y = sign(g(x)) = sign([u](x)) = sign uiK(x, xi), i=где u Rm, K(·, ·) некоторая функция, называемая ядром.

Алгоритмический оператор f = [w] (или fi = [wi]), получаемый этим методом обучения по выборке S (или Si), доставляет минимум по параметру g = [u], соответственно, функционалам m 1 k k log 1 + e-y g(xk) + uтu, log 1 + e-y g(xk) + uтu, m m k=1 k =i где = diag(1,..., m), i 0, i = 1,..., m автоматически вычисляемые коэффициенты регуляризации.

Определение 2 (Дивергенция Брегмана [2]). Пусть F : Rm R выпуклая функция. Тогда, если F (g) градиент F в точке g, то F (g) F (g) + g - g, F (g). Дивергенцией точек g и g называется величина dF (g, g) F (g) - F (g) - g - g, F (g) 0.

Лемма 1 (О дивергенциях [2]). Пусть N [u] = uT u. Тогда f(xi) - fi(xi).

dN (f, fi) + dN (fi, f) m 18 (TF) Викентьев А. А., Новиков Д. В.

Применим лемму 1 для RVM.

Лемма 2. Для RVM справедлива оценка суммы дивергенций:

dN (f, fi) + dN (fi, f) = 2 (w - wi).

Следовательно, по лемме о дивергенциях, 2 (w - wi) 1 f(xi) - fi(xi).

2m m Обозначим m m-матрицу K(xi, xj) через K.

i,j=Лемма 3. Справедлива следующая оценка отклонения алгоритмических операторов RVM:

1 f(xj) - fi(xj) Kт- 2 (w - wi).

· Теорема 4. Метод релевантных векторов является -устойчивым обу 2 в Kт- Rlo(f) - Rem(f).

чении с показателем =. При этом 2m Работа поддержана РФФИ, проекты № 07-01-00211, № 05-01-00332.

Литература [1] Tipping M. E. Sparse Bayesian Learning and the Relevance Vector Machines // Journal of Machine Learning Research. 2001. Vol. 1, № 5. P. 211–244.

[2] Bousquet O., Elisseeff A. Stability and Generalization // Journal of Machine Learning Research. 2002. Vol. 2, № 3. P. 499–526.

Cвойства расстояния и меры опровержимости на высказываниях экспертов как формулах многозначных логик Викентьев А. А., Новиков Д. В.

vikent@math.nsc.ru Новосибирск, Институт Математики СО РАН, Новосибирский государственный университет В настоящее время появляется все больший интерес к построению решающих функций на основе анализа экспертной информации, заданной в виде вероятностных логических высказываний нескольких экспертов.

В данной работе предложено записывать высказывания экспертов в виде формул n-значной логики Лукасевича. В произвольном случае найдено правильное обобщение расстояния между такими формулами и меры опровержимости таких формул, что позволяет более тонко (по сравнению Cвойства расстояния и меры опровержимости на высказываниях (TF) с двузначной логикой) решать прикладные задачи. В частности, значение истинности на модели может служить и субъективной вероятностью формулы. Ясно, что различные такие высказывания экспертов (и соответствующие им формулы) несут в себе разное количество информации, а, значит, возникает вопрос о ранжировании высказываний экспертов и сравнении их по информативности (далее мере опровержимости при подтверждении высказывания). Для решения этих задач в работе будут введены и исследованы функция расстояния (см. [1]) между двумя такими формулами и мера опровержимости формул.





Определения основных понятий Определение 1. Множество элементарных высказываний Sn(), используемых при написании формулы многозначной логики, назовем носителем формулы.

Определение 2. Назовем носителем совокупности знаний Sn() объединение носителей формул, входящих во множество формул, т. е.

Sn() = Sn().

Определение 3. Назовем множеством возможных значений носителя совокупности формул (знаний) с указанием всевозможных их зна чений истинности Qn() = k Sn(), k = 0,..., n - 1.

n-Далее нас интересуют значения истинности, отличные от нуля, k > 0.

Определение 4. Моделью M назовем любое подмножество Qn() такое, что M не содержит одновременно k и l при любых k = l n-1 n-и Q().

n Множество всех моделей будем обозначать P (S()).

Для упрощения записи верхний индекс в формулах, означающий n-значность логики, будем опускать.

Лемма 1. |P (S())| = n|S()|.

Введем обозначение для множества моделей формулы с фиксированным для нее значением истинности:

ModS()(A) k = M M P (S()), M |= A k.

n-1 n-Определение 5. Расстоянием между формулами и, такими, что S() S() S(), на множестве P (S()) назовем величину n- n-1 ModS() k 0 + ModS() 0 k n-1 n-k=1 k=S()(, ) =.

n|S()| 20 (TF) Викентьев А. А., Новиков Д. В.

Свойства расстояний и меры опровержимости Лемма 2. Для любых формул,, таких, что S() S() S() справедливы следующие утверждения:

1) 0 S()(, ) 1;

2) S()(, ) = S()(, );

3) S()(, ) = 0 ;

n-1 n- 4) S()(, ) = 1 Mod() k Mod() l = P (S()), n-1 n-l=1 k= где прямое объединение;

5) S()(, ) S()(, ) + S()(, );

6) Если 1 2, то S()(1, ) = S()(2, );

Лемма 3 (О расширении). Для любого S(0) такого, что S() S() S(0) и любого S(1) такого, что S(0) S(1), имеет место равенство:

S( )(, ) = S( )(, ).

0 Лемма о расширении позволяет ограничить носители моделей при подсчете расстояний.

Определение 6. Мерой опровержимости IS()() для формул из () = S() S() назовем величины n- ModS() l n-IS()() = i, n|S()| i=где i удовлетворяет условиям: 0 i 1, i + n-1-i = 1, k i, n-для всех i = 0,..., и всех k = 0,..., i.

Лемма 4 (свойства меры IS()). Для любых, () 1) 0 IS()() 1;

2) IS()() + IS()(¬) = 1;

3) IS()( ) max IS()(), IS()() ;

4) IS()( ) min IS()(), IS()() ;

5) IS()( ) + IS()( ) = IS()() + IS()();

3 1 3 6) IS()( ) = IS()() + IS()() + 3 (¬, ¬) ;

2 S() 3 1 3 7) IS()( ) = IS()() + IS()() - 3 (¬, ¬).

2 S() Эта лемма доказывает общие свойства меры опровержимости, а для n = 3 указывает на справедливость гипотезы Г. С. Лбова, верную для n = 2, см. [1]. При n > 3 такой связи с расстоянием нет, но есть более сложные зависимости. Доказаны также и другие свойства расстояний Слабая вероятностная аксиоматика и эмпирические предсказания (TF) и меры опровержимости для частного случая n = 3, похожие на случай n = 2 (см., например, [1]). Все результаты использованы при написании программы вторым автором и апробированы на прикладной задаче при различных n. Подбор нужного значения n в конкретной задаче является частью процесса адаптации для введения расстояния и меры опровержимости для получения более тонких знаний. В случае n = 2 проведены теоретические исследования по следующим вопросам. При организации поиска логических закономерностей требуются расстояния между высказываниями экспертов и формулами в моделях в произвольный (текущий) момент времени с фиксированными знаниями. Планируем обработку сообщений экспертов в различные моменты (срезы) времени с возможностью того, что исходные гипотезы-предположения у экспертов, вообще говоря, могут изменяться. Значит, будет происходить адаптация во времени самой теории (по знаниям экспертов), и, соответственно этому, будем применять другие модели экспертов. Аппарат для обработки таких знаний подготовлен в работах Викентьева А. А., начатых со Лбовым Г. С.

и Кореневой Л. Н. Сигнал о смене класса моделей (а, значит, и теории) будет исходить либо от самих экспертов (по их изменяющимся знаниям), либо при получении неправильных результатов инженером-разработчиком Базы Знаний при использовании старой теории.

Работа выполнена при поддержке РФФИ, проект № 07-01-00331а.

Литература [1] Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики СО РАН, 1999.

[2] Кейслер Г., Чэн Ч. Ч. Теория моделей. М.: Мир, 1977.

[3] Карпенко А. С. Логики Лукасевича и простые числа М.: Наука, 2000.

Слабая вероятностная аксиоматика и надёжность эмпирических предсказаний Воронцов К. В.

voron@ccas.ru Москва, Вычислительный центр РАН Задача эмпирического предсказания является одной из центральных в прикладной статистике и машинном обучении: получив выборку данных, необходимо предсказать определённые свойств аналогичных данных, которые станут известны позже, и оценить точность предсказания. В сообщении предлагается новая формализация постановки задачи, не требующая привлечения классической вероятностной аксиоматики.

22 (TF) Воронцов К. В.

Пусть задано множество объектов X и выборка XL = (x1,..., xL) X длины L. Рассмотрим множество всех её разбиений на две подвыборки k длины и k соответственно: XL = Xn Xn, +k = L, где нижний индекс k n = 1,..., N пробегает все N = CL разбиений.

Pages:     | 1 || 3 | 4 |   ...   | 82 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.