170 likes | 458 Views
Klasyfikacja województw Polski ze względu na stan środowiska naturalnego wg danych za rok 2006. Tomasz Sosnowski Koło Naukowe Metod Ilościowych Wydział Zarządzania Uniwersytet Gdański. Plan prezentacji. Cel pracy Dobór zmiennych do analizy Zastosowanie algorytmu k-średnich
E N D
Klasyfikacja województw Polski ze względu na stan środowiska naturalnego wg danych za rok 2006 Tomasz Sosnowski Koło Naukowe Metod Ilościowych Wydział Zarządzania Uniwersytet Gdański
Plan prezentacji • Cel pracy • Dobór zmiennych do analizy • Zastosowanie algorytmu k-średnich • Metody ustalania optymalnej liczby skupień • Ranking – taksonomiczny miernik rozwoju • Interpretacja wyników
Cel pracy • Uzyskanie podziału 16 województw Polski na jednorodne w sensie stanu środowiska naturalnego grupy. • Utworzenie rankingu województw ze względu na powyższe kryterium. • Zaprezentowanie wybranych metod wielowymiarowej analizy danych.
Wybrane zmienne Z.UCIĄŻLIWE – liczba zakładów szczególnie uciążliwych, DZIKIE.WYS - liczba istniejących dzikich wysypisk na terenie województwa w przeliczeniu na 1000 ha, LUD.OCZ – liczba ludności przypadająca na jedną oczyszczalnię ścieków, GAZY - emisja gazów cieplarnianych (bez CO2) z zakładów szczególnie uciążliwych, wrażona w tonach/1000 ha, T.OCHR.PRZ – procentowy udział powierzchni obszarów o szczególnych walorach przyrodniczych prawnie chronionych w całkowitej powierzchni województwa,
Wybrane zmienne ŚCIEKI.PRZEM - ścieki przemysłowe odprowadzane do wód powierzchniowych lub do ziemi, wyrażone w hm3/ 1000ha, NAKŁADY – nakłady na środki trwałe służące ochronie środowiska w przeliczeniu na jednego mieszkańca, E.ODNAW - udział energii elektrycznej wyprodukowanej ze źródeł odnawialnych tj. pochodzącej z elektrowni wodnych, wiatrowych i słonecznych w całkowitej produkcji energii elektrycznej, wyrażony w procentach.
Metoda k-średnich(k-means , J. MacQueen 1967) • Wstępny podział zbioru obiektów na zakładaną z góry liczbę k grup, • Obliczenie centrów poszczególnych skupień, • Zmiana przyporządkowania obiektów – obiekt przyporządkowujemy do tej grupy, której centrum jest dla niego najbliższe, • Powtarzanie algorytmu (od punktu 2) do momentu, w którym transformacja nie poprawia przyjętego kryterium minimalizacji śladu macierzy wariancji wewnątrzklasowej tr(S).
Global Silhouette Index(P.Rousseeuw, 1987) • Syntetyczny wskaźnik jakości grupowania, • Każdemu obiektowi przyporządkuwywana jest miara: ,gdzie
Global Silhouette Index(P.Rousseeuw, 1987) • Następnie oblicza się dla każdej z grup średnią wartość miary s(i) obiektów wchodzących w jej skład i oznacza się ją SI(c), gdzie c jest nr danej grupy. • GSI liczony jest jako średnia z tych średnich, czyli jest średnią z wartości SI(c). • Przyjmuje wartości z przedziału [-1;1].
Wskaźnik Davies’a – Bouldin’a1979 • Wskaźnik jakości wyników grupowania, • Przyjmuje wartości nieujemne, jego górna granica nie jest jednak określona, • Bazuje na stosunku pomiędzy sumą przeciętnych odległości obiektów dwóch skupień od ich centrów a odległością pomiędzy centrami tych skupień, • Dąży się do minimalizacji wartości wskaźnika – im niższy tym lepsze wyniki grupowania.
Metoda taksonomicznego wzorca rozwoju(Z. Hellwig, 1968) • Jest jedną z metod porządkowania liniowego – metod tworzenia rankingów, • Wymaga określenia charakteru każdej ze zmiennych – stymulanta, destymulanta lub nominanta, • Następnie tworzy się hipotetyczny obiekt, któremu przypisywane są najkorzystniejszez punktu widzenia analizowanego zjawiska wartości zmiennych, które zaobserwowano w analizowanej grupie - wzorzec oraz jego przeciwieństwo, któremu przypusiuje się wartości najmniej korzystne – antywzorzec, • Taksonomiczny miernik rozwoju dla i-tego obiektu przyjmuje wartość 1-d(i,w)/d(a,w), gdzie d(i,w) to odległość danego obiektu od wzorca a d(a,w) to odległość antywzorca od wzorca.
Ranking uzyskany metodą taksonomicznego wzorca rozwoju(Z. Hellwig, 1968)
Bibliografia Jajuga K., Statystyczna analiza wielowymiarowa, PWN, Warszawa 1993; Morrison D.M. ,Wielowymiarowa analiza statystyczna, PWN, Warszawa 1990; Makać W., Urbanek – Krzysztofiak D. ,Metody opisu statystycznego, Wydawnictwo UG, Gdańsk 2000; Migdał – Najman K., Ocena wyniku grupowania w oparciu o indeks silhouette, Prace i materiały Wydziału Zarządzania UG, Gdańsk 2006; Sekcja Klasyfikacji i analizy Danych, Taksonomia 14 Klasyfikacja i analiza danych - teoria i zastosowania, Wrocław 2007; Rocznik statystyczny województw 2007, Wydawnictwo GUS, Warszawa 2007.