460 likes | 596 Views
Robotics and the Q-analysis of Behaviour. Фомин А.Д., 345 группа 2008 год. Анализ поведения роботов ( multi-agent ), основанный на изучении реальных игр и абстрагировании основной модели. Построение подходящего представления сцены, учитывающего наиболее важные признаки ( features )
E N D
Robotics and the Q-analysis of Behaviour Фомин А.Д., 345 группа 2008 год
Анализ поведения роботов (multi-agent), основанный на изучении реальных игр и абстрагировании основной модели. • Построение подходящего представления сцены, учитывающего наиболее важные признаки (features) • Классификация всех сцен по их признакам • Изучение взаимосвязей между классами сцен и действиями, наиболее предпочтительными в них
Особенность метода • Q-анализ (Q-analysis) • Исследование реляционной структуры, построенной на множестве возможных признаков • Выбор важнейших признаков
Введение • Анализ поведения (Behaviour analysis) – построение модели, наблюдаемой в agent / multi-agent системе. RoboCup
Behaviour Analysis • Сцена (Scene)как взаимодействие агентов и их окружения – мгновенная картина происходящего • Сцена состоит из подсцен (sub-scenes) или конфигураций (configurations) со своими подмножествами игроков
Configurations • Конфигурация - набор исследуемых признаков: • ‘opponent to left’ • ‘ball moving fast’ • ‘close to goal’ • Классификация конфигураций, основанная на комбинации признаков • Связь классов конфигураций с действиями, которые следует предпринять агентам
Ключевые вопросы • Какие признаки «лучше всего» описывают сцену? • Как классифицировать конфигурации? • Как изучить связь между полученными классами и действиями агентов?
Какие признаки «лучше всего» описывают сцену? • Выделение признаков (feature extraction)в распознавании образов • Добавление «плохих» признаков портит воздействие «хороших» • Необходимо найти метод, отбирающий только нужные признаки
Как классифицировать конфигурации? • Нахождение подходящего критерия схожести сущностей
Как изучить связь между полученными классами и действиями агентов? • Машинное обучение • Нахождение метода обучения, основанного на результатах игр
Q-анализ – многомерное обобщение теории сетей, способное моделировать n-арные связи между признаками и конфигурациями • Обеспечивает ступенчато изменяющийся метод классификации, в зависимости от общих признаков
Отображение объектов в многомерное пространство и кластеризация их посредством введенных метрик • В отличие от этого, Q-анализ сильно чувствителен к выбираемым признакам, чем можно воспользоваться для обнаружения признаков, незначительно меняющих картину представления сцены
Классифицирование многомерных данных • Множество классифицируемых объектов A = {a1, a2, ...,am} • Множество признаков B = {b1, b2, ..., bn} • Исследование объекта ak – для каждого bl ответить на вопросы: 1) Имеет ли объект akпризнак bl? 2) Какова сила связи akс bl?
пример • Робот с батареей • + • Текущий заряд • Робот без батареи 1) - • Робот с пустой батареей 1) + 2) 0
Включение не присутствующих признаков в рассмотрение (с весом 0) приведет к «схожести» логически несовместных (по данному признаку) объектов • Невозможно использование полностью связной нейронной сети
Идея – построить классификатор, способный классифицировать объект с произвольным числом параметров (признаков)
Схожесть • В классификации часто используются геометрические модели • Сущность – точка в многомерном пространстве • Схожесть – Евклидово расстояние
Представление связей симплексами • В Q-анализе схожесть не расстояние, она основана на структурном анализе информации об объектах • Теоретико-множественный подход • Элементы множества {x1, x2, ..., xp} связаны отношением R => симплекс (simplex) {x1, x2, ..., xp, R}
Симплекс может быть представлен как многогранник в n-мерном пространстве • n = p - 1 Симплекс из p+1 вершины – p-симплекс
{x1, x2, ..., x6} – множество всех признаков (бинарных) • {c1,c2, ..., c5} - конфигурации
Многомерные симплексы могут быть разбиты на симплексы меньшей размерности – срез (face)
q-близость (q-nearness)и структурная схожесть • Определим пересечение двух симплексов: • <x1,x2,x4,x5> ∩ <x2,x3,x4,x6> = <x2,x4> Два симплекса называются q-связными (q-connected), если существует цепочка попарно p-связных симплексов между ними,p ≥ q
M·MT-1 (1 – матрица из единиц) • Размерность симплекса (на диагонали) – q-top
Пригодность структуры Q-анализа для анализа поведения • Основная гипотеза • Классы «схожих» конфигураций являются основой более общих понятий. Возможно обобщение • Т.е. анализ действий при конкретных конфигурациях (реально произошедших в игре) дает возможность оценить подходящее действие в данный момент.
пример • Анализ распасовки (passing behaviour) • Данные взяты из log-файлов финала “RoboCup 2003 Competition”
Выбор подходящих признаков • Использование этих признаков для наиболее точной классификации конфигураций • Использование полученных классов в качестве базы для дальнейшего обучения
Проблемы • Число признаков огромно • Не существует очевидного выбора подходящих признаков
Для простоты рассматривается команда из 5 игроков (вместо 11) • p – игрок, владеющий мячом • ai – союзники • bj – противники
αi, di – делятся на “very-small”, “small”, “big” и “very-big” • 11 бинарных признаков: • dvs, ds, db, dvb • αvs, αs, αb, αvb • Rneigh_own_team, Lneigh_own_team • oppcloser
Выбор признаков • Из произвольного набора признаков выбрать наиболее важные • Задача проектировщика • Метод определения подходящих признаков в перспективе ведет к автоматическому выбору признаков
{x1, ..., x11} – бинарные признаки • Считаем, что каждая конфигурация либо благоприятна для пасса, либо нет (passing / non-passing configuration)
Признаки по-разному влияют на общую информацию о конфигурации • Значительно ее расширяют • Оставляют без существенных изменений • Признаки, присущие подавляющему большинству конфигураций • Признаки, не относящиеся почти ни к одной конфигурации • В простейшем случае признак называется «отвлекающим» (distracting), если его рассмотрение дает несущественное расширение информации • Признак называется идеальным классификатором (perfect classifier), если все конфигурации одного класса имеют его, а другого - нет
Существуют наборы признаков, не являющихся ни «отвлекающими», ни «идеальными», но в сочетании друг с другом дающих подходящий классификатор
Q-анализ игр • Рассмотрен log-файл финала “RoboCup 2003” • S – множество всех удачных комбинаций пасов (оба игрока были из одной команды) • Для каждого паса строятся 21 треугольная конфигурация. Рассмотрим, очевидно, 10 из них (только игроки «своей» команды) • Из этих 10 конфигураций • 1 – pass configuration • 9 – non-pass configuration
Всего 118 pass и 1062 non-pass • <x7> - 30% pass, 11% - non-pass • <x9> - 36% pass, 42% - non-pass • <x7,x9> - 18% pass, 5% - non-pass
Star-Hub Analysis • Центр (hub) симплексов – их наибольший общий срез (пересечение) • Ищем множество симплексов с наибольшим центром для “passing” класса и наименьшим для “non-passing” • Исследуем все 128 (4*4*2*2) возможных комбинаций
Исследуя полученные результаты, важно помнить, что число испытаний недостаточно велико, тем не менее даже при таких частотах можно выделить некоторые симплексы • Несмотря на высокую размерность, <x4,x5,x9,x10,x11> относится к 5% nonpasses и почти ни одному pass • <x4,x5,x10,x11> 2% passes, 11% non-passes • <x3,x7,x9> 10% passes, 1% non-passes • <x2,x11> 25% passes, 7% non-passes • <x4> 14% passes, 69% non-passes • <x2> 38% passes, 10% non-passes
Заключение • Было изучено поведение роботов в ситуациях, когда нужно сделать пас: • Игрок, отдающий мяч, должен определить, кому из 10 игроков это следует сделать • С каждым игроком ассоциирована структура, определяемая набором признаков • Каждая такая структура классифицируется как passing или non-passing, в зависимости от результатов действия робота • В простых системах каждый значимый признак определяет, к какому классу относится конфигурация • В более сложных это не так
Перспектива • Данную классификацию можно расширить до метода, позволяющего определять поведение во время игры • Но действия, определяемые описанным образом будут основаны на статическом восприятии окружающего мира, без учета долгосрочных тактических планов • Для решения этой проблемы можно добавить характеристику «значимость паса»
Использование материалов реальных игр • Сколько наблюдений для конкретного симплекса нужно сделать, чтобы оценить его значимость? • Можно ли совмещать материалы по нескольким играм? • Можно ли совмещать результаты, полученные для разных команд? • Как меняются результаты при добавлении новых признаков?
Литература [1] P. Iravani, `Behaviour-based architecture for abstract control and learning', Proc. TAROS, 2004 [2] P. Iravani, Johnson, J.H., Rapanotti, L., `Applications of concept grounding techniques to reduce the dimen- sionality in sensorory-motor space', STAIRS, 2004 [3] Atkin, R.H., Multidimensional Man, Penguin (Har- mondsworth), 1981. [4] Johnson, J.H., `Some structures and notation of Q- analysis', Environment and Planning B, 8, 73-86, 1981. [5] Gordon, A. D., Classi¯cation, Chapman & Hall, 1999. [6] Johnson, J., H., `Stars, Maximal Rectangles, and Lat- tice: a new persepctive on Q-analysis', International Journal of Man-Machine Studies, 24, 293-299, 1986. [7] Johnson, J. H., `Visual communication in swarms of intelligent robot agents', Arti¯cal Life and Robotics, 5, 1-9, 2001. [8] P. Iravani, `An architecture for multilevel learning and robotic control base on concept generation', Ph.D. The- sis, The Open University, 2004.