310 likes | 429 Views
Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт". Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон
E N D
Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт" Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон Совместная работа с T. Fenner (ДИИС Биркбек), S.Nascimentoи L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010) Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластер-анализу» clustering” Научного фонда ВШЭ (2009-2010)
Cодержание 1. Постановка проблемы 2. Сущность метода «кластер-лифт» 3. Иллюстрация результатов 4. Заключение 5. Приложение: Описание метода 5.1. Сбор данных об индивидуальных работах 5.2. Кластеры сходства таксономических единиц 5.3. Подъём кластеров в ACM-CSS Taxonomy
Визуализация для оперативного контроля энергосети (Манхаттэн)
Возможна ли подобная визуализация для целей стратегического анализа и управления? • Карта местности? • Энергетическая подстанция? • Ее представление?
Визуализация для стратегического анализа и управления: • Карта местности? • Таксономия предметной области • Энергетическая подстанция? • Кластер таксономических единиц • Способ представления? • Верхние уровни таксономической иерархии
Визуализация деятельности исследовательской организации • Организация? • A Computer Science Department • Карта местности? • ACM Classification of Computer Subjects • Энергетическая подстанция? • Кластер таксономических единицразрабатываемых в департаменте • Представление? • Верхние уровни таксономической иерархии
CS B E F A C D K I J H G ACM-CCS Taxonomy – Верхний уровень, 11 категорий • G. Maths of Computing • H. Information Systems • I. Computing Methodologies • J. Computer Applications • K. Computing Milieux • A. General Literature • B. Hardware • C. Comp. Sys. Organization • D. Software • E. Data • F. Theory of Computation
ACM-CCS Taxonomy - Уровень 2, 9 категорий • I. Computing Methodologies • I.0 GENERAL • I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION • I.2 ARTIFICIAL INTELLIGENCE • I.3 COMPUTER GRAPHICS • I.4 IMAGE PROCESSING AND COMPUTER VISION • I.5 PATTERN RECOGNITION • I.6 SIMULATION AND MODELING (G.3) • I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) • I.m MISCELLANEOUS
ACM-CCS Taxonomy - Уровень 3, 7 категорий I.5 PATTERN RECOGNITION • I.5.0 General • I.5.1 Models • I.5.2 Design Methodology • I.5.3 Clustering • I.5.4 Applications • I.5.5 Implementation (C.3) - горизонтальная ссылка • I.5.m Miscellaneous
ПРОБЛЕМА ПРЕДСТАВИТЬ: • Исследовательскую деятельность департамента или центра Информатики ВЕРХНИМИ УРОВНЯМИ • ACM КлассификацииИнформатики (ACM-CCS)
ЗАЧЕМ? Объективныйцелостный портрет организации: • Позиционирование организации в ACM-CCSтаксономии • Анализ структуры тематики организации • Обозрение проблемных узлов, не вписывающихся в структуру таксономии • Обзор регионального развития (с количественными характеристиками эффективности и недо- и/или пере-оснащенности) • Планирование реорганизации и развития
Иллюстрация: Центр СЕНТРИА(Новый университет Лиссабона) в терминах среднего уровня ACM-CCS Таксономии: Разрабатывается 26 ACM-CCS тем изобщего числа 81
Традиционный подход - пометить темы в таксономии: темы есть, системынет E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8 A E G J K B I CS I1 I2 I3 I4 I5 I6 I7 C D F H
Добиться системности I: Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп Для этого: • Собрать данные о тематике каждого индивидуального проекта • Оценить сходство между темами по сходству разработчиков • Сформировать тематические (нечеткие) кластеры
Добиться системности II: Тематические кластеры представить в ACM-CCS более общими категориями в зависимости от нестыковок (лифт) Головная тема Пробел Выброс Тема из кластера Минимизировать: HГолТем+ GПробел+ OВыброс
E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8 A E B G J K Head subject Subject’s offshoot Gap I CS I1 I2 I3 I4 I5 I6 I7 C D F H C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems I. Computing Methodologies
Центр СЕНТРИА(Новый университет Лиссабона) • Структура: Шесть перекрывающихся кластеров • Позиционирование: пять Головных тем (ссоответствующимивыбросами и пробелами) • Проблемный узел:Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy
Заключение: метод кластер-лифт • Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии • Инструмент анализа и планирования • Профиль организации • Интегральное представление региональной структуры деятельности • Необходима организация сбора данных • Через опрос • Через анализ документов – проектов, статей, и пр., включая Интернет (языковый барьер) – предстоит • Работа по организации приложений
Appendix: Technical aspects • E-survey tool over ACM-CCS topics • Similarity between topics • Additive, crisp or fuzzy, clustering • Lifting of thematic clusters in ACM-CCS Taxonomy
Similarity between ACM-CCS topics • Contribution by an individual member: • (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey • A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer subjects i and j • Matrices A(i,j) summed up over all individuals weighted according to their span ranges
Similarity between ACMC subjects: example 1 ACMC subjects: i, ii, iii, iv, v, vi Chosen subject memberships for four members i .6 .2 ii .4 .2 .2 iii .2 .4 .2 iv .3 .4 .2 v .5 .2 vi 2/5 3/5 3/5 5/5 – member weights weight = number_of_subjects / max_number_of_subjects
Similarity between ACMC subjects: example 2 i .36 .24 0 0 0 0 0 0 0 0 ii .24 .16 0 0 0 0 0 0 0 0 iii 0.4 0 0 0 0 0 +0.6 0 0 .04 .06 .10 +0.6 .... = iv 0 0 0 0 0 0 0 .06 .09 .15 v 0 0 0 0 0 0 0 .10 .15 .25 1st member’s 2d member’s i 0.184 0.136 0.040 0.040 0.040 ii 0.136 0.128 0.088 0.088 0.040 iii 0.040 0.088 0.160 0.172 0.100 iv 0.040 0.088 0.172 0.190 0.130 v 0.040 0.040 0.100 0.130 0.190 not_diagonal_mean =0.0874
Clustering with no user-defined parameters • Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005) • Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009)
Additive fuzzy clustering Observed: • SimilarityB=(bij), i,jI To be found: • Cluster membership u=(ui) • Intensity > 0 Fuzzy cluster similarity A= 2uuT
Additive fuzzy clustering • Model: Similarity B summarizes: • Background cluster g (all entities) • K fuzzy clusters (K unknown) • residuals E B = Ag + A1 +A2+… +AK + E E to be least-squares minimized over unknown clusters
Method: One cluster at a time • Minu, ξt,t∈T (wtt− ξutut)2 • Equivalent to Rayleigh quotient Max uWuT/(uTu) • Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership
Natural stop-criteria • Negative eigenvalue ξ 2. Contributions T(B) =ξ12 + ξ22 +…+ ξK2+ L2 (●) having reached pre-specified proportions
CS Generalising thematic clusters over ACM-CCS: good and bad cases • Navy cluster is tight, all topics are in one ACM-CCS category (good to generalise) • Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise)
Lifting with criterion of parsimony: Minimize the total penalty • # Penalty • Head subject 1 3 • Gap 1 1 • Offshoot 2 0.5 • Total penalty: 5 = 1*H + 1G + 2O
PARENT Gap Head Offsh Not HS Gn Hn On HS Gh Hh Oh CHILD 1 Gap Head Offsh Not HS Gn1 Hn1 On1 HS Gh1 Hh1 Oh1 CHILD 2 Gap Head Offsh Not HS Gn2 Hn2 On2 HS Gh2 Hh2 Oh2 CHILD 3 Gap Head Offsh Not HS Gn3 Hn3 On3 HS Gh3 Hh3 Oh3 Cluster lifting algorithm : Bottom-up recursion