400 likes | 558 Views
Міжнародний науково-навчальний центр інформаційних технологій та систем НАН України. КОМП'ЮТЕРНИЙ ЕКСПЕРИМЕНТ В ІНДУКТИВНОМУ МОДЕЛЮВАННІ. к.т.н. Єфіменко Сергій Миколайович, к.т.н. Савченко Євгенія Анатоліївна Київ, 9 квітня 2013. Аналіз задачі моделювання.
E N D
Міжнародний науково-навчальнийцентр інформаційних технологій та систем НАН України КОМП'ЮТЕРНИЙ ЕКСПЕРИМЕНТВ ІНДУКТИВНОМУ МОДЕЛЮВАННІ к.т.н. Єфіменко Сергій Миколайович, к.т.н. Савченко ЄвгеніяАнатоліївна Київ, 9 квітня 2013
Аналіз задачі моделювання Характеристика задачі моделювання на основі МГУА Задано: вибірка зnспостереженьmвхіднихx1,x2,…xm та однієї вихідноїyзмінних Потрібно:побудувати модельy=f(x1,x2,…xm ,θ), що мінімізує дисперсію помилки прогнозу, θ- невідомий вектор параметрів моделей Задача МГУА: f *= arg minΦC (f ) C (f )-критерій якості моделей Φ- множина моделей, f Φ
Зовнішні критерії Вибірка: W = (X y), X [n x m], y [n x 1] Розбиття на дві підвибірки-AтаB : Аналіз задачі моделювання Оцінювання параметрів за МНКдля моделіy =X : Критерійрегулярності : Критерійнезміщеностірішень:
Аналіз задачі моделювання COMBI GMDH= COMBInatorial algorithm (sorting-out tipe) Розглядаються всі можливі комбінації: yv = Xvθv, v =1, 2, 3, …, 2m Структурний двійковий вектор:d =(d1, d2, …, dm), dj ={0;1} Приклад: Складність s=1: yi = αi xii = 1,2,…,m Складністьs=2: yk = αkixi +αkj xj , i,j =1,2,…,m ,k=1…Сm2 Складністьs=3: Сm3 структур моделей з 3 аргументами і т.д. Загальна кількість моделей: pm = sСsm= 2m
Аналіз задачі моделювання Проаналізовано деякі часто використовувані методи структурно-параметричної ідентифікації(з метою пошуку їхніх спільних етапів):1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. - М.: Финансы и статистика, 1985. - 487с.2. Льюнг Л. Идентификация систем. Теория для пользователя. - М.: Наука, 1991.- 432с.3. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979.- 447с.4. Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980. – 456 с.5. Качала В.В., Чагоровская О.А. Алгоритм эволюционной идентификации сложных объектов // Распределенные информационно-управляющие системы. Саратов, 1988. С. 159.7. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. – Киев: Наукова думка, 1985. – 216 с.8. Современные методы идентификации систем / Под ред.П.Эйкхоффа.- М.: Мир, 1983.- 327с.9. Стрижов В.В. Поиск параметрической регрессионной модели в индуктивно заданном множестве. Журнал вычислительных технологий. 2007.- № 1.- С. 93-102.
Аналіз задачі моделювання Основні компоненти методу індуктивного моделювання Клас моделей Генератор структур моделей Метод індуктивного моделювання Метод оцінювання параметрів Критерій якості моделі 6
Аналіз задачі моделювання Огляд відомих підходів до експериментального дослідження ефективності методів моделювання 1. Cтадник М.П. Модификация критерия Мэллоуза-Акаике для подбора порядка регрессионной модели // Автоматика и телемеханика. -1989.- № 4.- C.98-108. 2. Herzberg A.M., Tsukanov A.V. The Monte-Carlo Comparison of two Criteria for the Selection of Models// J. Statist. Comput. Simul. – 1985. – Vol. 22. – P. 113-126. 3. Herzberg A.M., Tsukanov A.V. The design of Experiments for Model Selection with the Jackknife Criterion// Utilitus Mathematica – 1985. – Vol. 28. – P. 243-253. 4. Herzberg A.M., Tsukanov A.V. A note on Modifications of the Jackknife Criterion for Model Selection// Utilitus Mathematica – 1986. – Vol. 29. – P. 209-216. 5. Herzberg A.M., Tsukanov A.V. A note on the Choice of the best Selection Criterion for the Optimal Regression Model // Utilitus Mathematica – 1999. – Vol. 55. – P. 243-254. 6. Herzberg A.M., Tsukanov A.V. The design of Experiments for Model Selection: Minimization of the Expected Mean-Squared Error // Utilitus Mathematica – 1995. – Vol. 47. – P. 85-96. 7. Иванченко В.Н., Лябах Н.Н., Гуда А.Н. Исследование свойств алгоритмов идентификации сложных процессов с помощью моделирования на ЭВМ // Автоматика. – 1992. – № 3. – С. 82-88. 8. Качала В.В. Сравнительный анализ алгоритмов структурной идентификации. – Труды Межд. конф. «Идентификация систем и задачи управления» SICPRO’2000, Москва, ИПУ, 26-29 сентября 2000 г. – М.: ИПУ РАН. – 2000. – С. 133-143. 9. Степашко В.С. Конечная селекционная процедура сокращения полного перебора моделей // Автоматика.- 1983.- N 4.- С.84-88. 10. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. – Киев: Наукова думка, 1985. – 216 с. 11. Коваль В.Н., Кук Ю.В. Структурный метод моделирования сложных систем // УСиМ. - 2003. - №2. - С. 45-55. 12. Кошулько А.А., Кошулько А.И. Тестирование полигармонического алгоритма МГУА // УСиМ. - 2003. - №2. - С. 87-92. 13. Савченко Е.А. Экспресс-прогноз уровня глюкозы в крови с учетом аналоговых и временных характеристик // УСиМ. - 2003. - №2. - С. 87-92. 14. Kordik P., Saidl J., Snorek, M.: Evolutionary Search for Interesting Behavior of Neural Network Ensembles In: Proceeding of 2006 IEEE World Congress on Computational Intelligence, July 2006, Vancouver, Canada. 15. Kordik P., Snorek, M.: Deterministic Crowding Helps to Evolve Non-correlated Active Neurons In: Proceedings of the International Workshop on Inductive Modeling IWIM-2005, Academy of Sciences, Glushkov Institute, p. 21-28. Kiev, Ukraine 2005. 16. Kordik P.: Why Bagging of GAME Inductive Models Does Not Futher Improve their Accuracy? In: Proceedings of the International Workshop on Inductive Modeling IWIM-2005, Academy of Sciences, Glushkov Institute, p. 13-20. Kiev, Ukraine 2005.
Аналіз задачі моделювання Постановка задачі тестування методів моделювання Нехай K – множина класів моделей, ; G – множина генераторів структур моделей, ; М – множина методів оцінювання параметрів структур, ; CR – множина критеріїв якості моделей, . Під алгоритмом будемо розуміти певний елемент множини L: L=K×G×М×CR;
Аналіз задачі моделювання Постановка задачі тестування методів моделювання Нехай ефективність кожного алгоритму lL характеризується значенням деякого показника С(l). Тоді найкращим алгоритмом (у розумінні показника С) буде той, що визначається з умови: Можливими показниками ефективності обчислювального алгоритму визначено: – часову складність (наприклад, швидкодію алгоритму), – ресурсну складність (економію машинної пам'яті), – помилку моделі на незалежних даних, – ефективність використання отриманої моделі при прийнятті рішень тощо.
Аналіз задачі моделювання Загальна методика проведення тестових випробувань Мета проведення – за допомогою статистичного експерименту виконати порівняльне тестування класів моделей, генераторів структур моделей, методів розв’язування систем лінійних рівнянь для задачі оцінювання параметрів, критеріїв якості моделей для визначення їх ефективності та вироблення рекомендацій щодо їх використання при моделюванні за даними спостережень. Тестування класів моделей: досліджується залежність апроксимаційної або екстраполяційної здатностей моделей від рівня шуму, обраних критерію селекції та генератора структур моделей, як в істинному класі моделей, так і в класі, відмінному від істинного. Тестування генераторів структур моделей: за допомогою статистичних випробувань визначається, яким чином на критерій ефективності моделювання впливають такі параметри, як кількість аргументів, способи нарощування складності моделей, обчислювальна потужність ЕОМ та ін. Тестування методів оцінювання параметрів: визначається та порівнюється ефективність методів розв’язування систем лінійних рівнянь. Головним критерієм ефективності методів розв’язування систем рівнянь обрано швидкодію. Тестування критеріїв селекції моделей: • визначається характер зміни складності оптимальних моделей, отриманих за мінімумом заданого критерію, зі зростанням дисперсії шуму; • досліджується ефективність (точність на контрольній частині вибірки) моделей, отриманих за різними критеріями, при варіюванні кількості точок навчальної частини вибірки та рівня шуму.
Підвищення ефективності Розв’язування систем лінійних рівнянь при оцінюванні параметрів за методом найменших квадратів
Підвищення ефективності Рекурентний метод обрамлення(алгоритм Степашка)
Підвищення ефективності Особливості алгоритму обрамлення
Підвищення ефективності Рекурентна модифікація алгоритму Грама-Шмідта
Підвищення ефективності Рекурентна модифікація алгоритму Гауса
Підвищення ефективності Рекурентна модифікація алгоритму Гауса
Підвищення ефективності Трудомісткість розрахунку коефіцієнтів
Підвищення ефективності Розроблення методу довизначення як двокритеріального методу побудови моделей на основі МГУА Новийкритерій незміщеності помилок:
Підвищення ефективності Побудова моделі за комбінаторним алгоритмом МГУА з довизначенням Ідея довизначення за допомогою послідовного застосування двох критеріїв: основного (регулярності) та додаткового (незміщеності)
Програмні засоби Вимоги до комплексу інструментальних засобів Комплекс має надавати користувачу такі можливості: • самостійно конструювати алгоритми моделювання за даними спостережень; • порівнювати наявні методи за певними критеріями; • тестувати різні методи моделювання; • тестувати варіанти основних компонентів методів; • розробляти методики і планувати статистичні випробування; • розв’язувати задачі моделювання; • проводити імітаційні експерименти (екстраполяцію, прогнозування) з моделями, побудованими за різними методами моделювання; • поповнювати свої знання про методи моделювання під час роботи з імітаційним комплексом.
Програмні засоби Розроблення архітектури програмного комплексу
Програмні засоби Реалізовані засоби інструментального комплексу
Програмні засоби Інтерфейс інструментального комплексу
Чисельний аналіз ефективності Тестування класів моделейМета –дослідження екстраполяційних та апроксимаційних властивостей моделей, побудованих у різних класахМоделювання тригонометричної функції y=sin πt + ξ (рівень шуму α=10%), A B C C A B 24
Чисельний аналіз ефективності Тестування методів розв’язування систем лінійних рівнянь для задачі оцінювання параметрів Залежність часу виконання ідентифікації у класі вкладених структур від кількості регресорів Залежність часу виконання ідентифікації методом включення від кількості регресорів для трьох рекурентних алгоритмів Час, с Використовувався процесор Intel Celeron 800 МГц
Чисельний аналіз ефективності Розпаралелювання комбінаторного алгоритму(використано 1 процесор, k = 8 потоків)кількість аргументів – 22, кількість моделей – 222-1 Ефективність 26
Чисельний аналіз ефективності Порівняльна ефективність розпаралелювання операцій і рекурентного оцінювання параметрів при моделюванні з використанням комбінаторного алгоритму Використано кластер scit-3 інституту кібернетики
Чисельний аналіз ефективності Тестування критеріївМета – дослідити залежність значення критерію оптимальної моделі від її складності при різних значеннях рівня шуму Порівняльне тестування критеріївМоделювання у класі вкладених структурІстинна модель: y=10x1+9x2+8x3+7x4+6x5+ +5x6+4x7+3x8+2x9+x10+0*x11+0*x12 FPE(s)=(n+s)RSS(s)/(n-s) Cp(s)=RSS(s)+2σ2s Тестування критерію регулярності ARМоделювання у класі вкладених структурІстинна модель: y=5x1+4x2+3x3+2x4+x5
Чисельний аналіз ефективності Тестування ефективності критерію незміщеності помилок Згенеровано вибірку даних і вихідний вектор з доданням випадкового шуму. Для кожного з експериментів генерувалася своя вибірка і вихідний вектор з заданим рівнем випадкового шуму від 0% до 120% з кроком 10%. Вибірка даних містила 7 аргументів, але у істинну залежність вихідної змінної від аргументів входило тільки п’ять: Залежність критерію незміщеності помилок від складності моделі при різному рівні шуму
Прикладні задачі Приклад моделювання результатів соціально-економічного моніторингу розвитку країн світу Використано дані ООН за 2002 рік для 173 країн світу x1 – ВВП на душу населення (паритет купівельної спроможності (ПКС) в доларах США); x2 – значення індексу розвитку людського потенціалу (ІРЛП); x3 – індекс рівня освіти; x4– індекс очікуваної тривалості життя; x5– очікувана при народженні тривалість життя; x6 – рівень грамотності дорослого населення; x7 – загальний покажчик кількості осіб, що навч.; x8 – ефективність державного управління; x9 – дотримання прав людини та законів; x10 – індекс політичної стабільності; x11 – експертна оцінка тіньових доходів; x12 – дотримання законності та порядку; x13 – голосування і звітність; x14 – громадянські свободи; x15 – експертна оцінка свободи преси; x16– рейтинг ВВП на душу населення (в ПКС) мінус рейтинг ІРЛП; x17 – оцінка політичних прав людини; x18 – експертна оцінка форми правління. Моделі залежності ВВП від соціально-економічних показників для групи країн, близьких до України в просторі всіх змінних за евклідовою відстанню
Прикладні задачі Довизначення за критерієм незміщеності помилок
Прикладні задачі Виявлення залежностей взаємодії іонів з поверхнею літальних апаратів за комбінаторним алгоритмом МГУА з довизначенням Вхідні дані взаємодії іонів з поверхнею: y = x1 – коефіцієнт розпилення матеріалів, мг/К; x2– масова густина, г/см3; x3– молекулярна вага, а.о.м.; x4– температура сублімації, К; x5–теплоємність, Дж/моль/град; x6– енергія звязку, еВ. Необхідно знайти: Дані про значення коефіцієнта розпилення отримано при бомбардуванні поверхні різних матеріалів іонами ксенону з фіксованими енергією частинок 300 еВ, масі та куті падіння на поверхню.
Прикладні задачі Значення критеріїв селекції: критерію регулярності (AR)та критерію незміщеності (BS)
Прикладні задачі Оптимальна модель коефіцієнта розпилення
Прикладні задачі Моделювання процесів зміни ціни на феромолібденна світовому ринку y – поточна ціна на концентрат молібдену ($ за кг чистого молібдену); x1 – поточна чиста ціна придб. імпортованої сирої нафти, $ за барель; x2 – вартість придб. імпортованої сирої нафти нафт. заводом, $ 2004 року; x3 – нерозподілене споживання; x4 – явне споживання; x5 – виробництво в США; x6 – споживання в США; x7 – поточна ціна молібдену ($/кг); x8 – ціна молібдену ($/кг), $/1998 (у цінах 1998 року);x9 – світове виробництво. y1=–9,9Е-05x4+8,6Е-05x5+3,5Е-04x8 (FPE) y2=5Е-05x5+8,1Е-05x7+3Е-04x8(AR) y3=5,2Е-05x5+2,1Е-04x8+1,5Е-08x4x7-2,1Е-09x42-1,3Е-09x72(AR) FPE(s)=(n+s)RSS(s)/(n-s) C
Прикладні задачі Системне прогнозування динаміки показників енергетичної сфери України Розглядаємо задачу побудови прогнозу показників енергетичної сфери України за даними Міністерства економіки. Використовувалися дані за 1996 – 2005 роки (усього по 10 точок) для 11 показників: x1 – частка власних джерел в балансі паливно-енергетичних ресурсів (ПЕР); x2 – частка домінуючого паливного ресурсу у споживанні ПЕР; x3 – частка імпорту палива з однієї країни (компанії) у загальному обсязі його імпорту; x4 – знос основних виробничих фондів підприємств ПЕК; x5 – відношення інвестицій в підприємства ПЕК до ВВП; x6 – енергоємність ВВП; x7 – обсяг видобутку вугілля; x8 – транзит нафти; x9 – транзит газу; x10 – обсяг видобутку природного газу; x11 – обсяг видобутку нафти і газового конденсату з метою отримати прогнозні значення цих показників на 2006-2008 роки.
Прикладні задачі кг умовн. палива/грн % Частка домінуючого паливного ресурсу у споживанні ПЕР Енергоємність ВВП дійсне зн. модель прогноз млрд. м3 Відношення інвестицій в підприємства ПЕК до ВВП Транзит газу
Прикладні задачі % % Частка домінуючого паливного ресурсу у споживанні ПЕР Частка власних джерел в балансі ПЕР дійсне зн. прогноз на 3 кроки прогноз на 1 крок млн. тонн Відношення інвестицій в підприємства ПЕК до ВВП Обсяг видобутку вугілля
Висновки 1. Виконано аналіз задачі моделювання за даними спостережень та сучасних підходів до використання методу статистичних випробувань для вивчення ефективності методів моделювання та їх основних компонентів. 2. Виконано формальну постановку задачі тестування ефективності методів моделювання та їх компонентів як задачу мінімізації заданих критеріїв. Визначено доцільні критерії ефективності методів моделювання. 3. Розроблено загальну методику чисельного порівняльного дослідження методів моделювання за даними спостережень та їх компонентів за допомогою планованого комп’ютерного експерименту. 4. Розглянуто такі способи підвищення ефективності методів моделювання: рекурентні алгоритми розв’язування систем лінійних рівнянь для задачі оцінювання параметрів за МНК; метод довизначення з використанням критерію незміщеності помилок; розпаралелювання обчислень за допомогою кластерних систем. 5. Виконано порівняльне тестування ефективності методів моделювання та їх основних компонентів та розв’язано деякі практичні задачі моделювання.