160 likes | 312 Views
Analiza danych jako narzędzie pracy lekarza. Elżbieta Pleszczyńska , eple @ipipan.waw.pl Instytut Podstaw Informatyki PAN. Nowa twarz statystyki.
E N D
Analiza danychjako narzędzie pracy lekarza Elżbieta Pleszczyńska, eple@ipipan.waw.pl Instytut Podstaw Informatyki PAN
Nowa twarz statystyki Lekarze i studenci medycyny żyją w przeświadczeniu, że zaplanowanie badań i opracowanie ich wyników wymaga trudnej do opanowania wiedzy i specjalnych narzędzi w postaci kosztownych pakietów komputerowych. Ale to nieprawda. Wiele można osiągnąć samodzielnie analizując dane i nie ponosząc przy tym kosztów. Umożliwia to nowa twarz statystyki w zestawieniu z nowymi narzędziami informatycznymi. Ta nowa twarz to analiza danych
Statystyka matematyczna Analiza (eksploracja) danych modele i metody gradacyjne <przekształcenia gradacyjne> Kierunek zmian: od abstrakcji do konkretu
Klasyczna statystyka Klasyczna statystyka zwana matematyczną odchodzi w przeszłość lub raczej przesuwa się na stosowne miejsce w procesach podejmowania decyzji – zarezerwowane głównie dla wielkich programów międzynarodowych, w których planowanie badań i zbieranie danych podlega szczególnie ostrym rygorom. Do głównych niedostatków statystyki należy to, że dostarcza odpowiedzi w sposób bardzo pokrętny, a przy tym zwykle nie potrafi odpowiedzieć na te pytania, które naprawdę interesują lekarza. Niedostatki statystyki są powszechnie znane, ale do niedawna nie było wiadomo, jak im zaradzić posługując się teoriami opartymi na matematyce.
Współczesna analiza danych Współczesna analiza danych rozwija się na obrzeżach informatyki i rewolucyjnie zmienia statystykę. Jej nowa gałąź zwana gradacyjną analizą danych wprowadza nawet nową strukturę pojęciową, stosowną i dla analizy danych i dla statystyki. W zespole osób z Instytutu Podstaw Informatyki PAN, który tę infrastrukturę stworzył, jest dr Olaf Matyja - autor nowego programu o nazwie GradeStat, implementującego pojęcia i metody gradacyjnej analizy danych. Program ten jest już udostępniony polskiemu środowisku lekarskiemu pod adresem http://gradestat.ipipan.waw.pl
GradeStat – Eureka (wg „Przegląd EUREKA, Serwis Informacji Naukowo-Technicznej KBN, nr 5(15) 2003, str. 17): Aplikacja licząca 35000 linii kodu dotyczy mało znanej, choć dynamicznie rozwijającej się gałęzi statystyki, jaką jest gradacyjna analiza danych. Jest to metoda przetwarzania danych niezależna od wpływu nieistotnych parametrów rozkładów brzegowych. Aplikacja była stosowana m.in. przy badaniu budżetów gospodarstw domowych w Wielkiej Brytanii (Cambridge University), przy badaniu właściwości kompozytów cementu (IPPT PAN), do przetwarzania ankiet w badaniach rynkowych, do analizy wyników wyborów do Sejmu.
Kiedy GradeStat może być szczególnie przydatny Gdy mają Państwo zebrane własne dane i chcą je wstępnie rozpoznać, a nawet „zobaczyć” w postaci mapek i wykresów (line charts), zaczynając od • zlokalizowania i bezpośredniego poprawienia błędnych zapisów, • wyznaczenia głównych trendów i cech ukrytych, • wyszukania elementów odstających (outlierów), • uzupełnienia brakujących danych, • wprowadzenia do zbioru nowego obiektu (obiektów) i wizualizacji jego pozycji na tle zbioru, • dokonania uporządkowanej analizy skupień.
Wizualizacja struktury żywienia w krajach Unii Europejskiej Używki Cukier Cukier Oleje Mięso Oleje Mleko Warzywa Ziemniaki Owoce Warzywa Ziemniaki Tłuszcze zw. Tłuszcze zw. Zbożowe Zbożowe Ryby Owoce Używki Mleko Mięso Ryby Jaja Jaja Grecja Grecja Grecja Hiszpania Hiszpania Hiszpania Hiszpania Portugalia Portugalia Portugalia Włochy Włochy Polska Polska Włochy Włochy Polska Belgia i Luks. Belgia i Luks. Belgia i Luks. Belgia i Luks. Francja Francja Francja W. Brytania W. Brytania Dania Dania W. Brytania W. Brytania Niemcy Niemcy Dania Irlandia Irlandia Austria Austria Niemcy Niemcy Holandia Holandia Austria Finlandia Finlandia Irlandia Holandia Finlandia Szwecja Szwecja Szwecja
Książka „Analiza danych medycznych i demograficznych przy użyciu programu GradeStat” • Książka pisana przez czwororóżnych autorów przedstawiana praktycznych przykładachrozmaite podejścia do analizydanych medycznychi demograficznych • Wykorzystywane są pakietyExcel (lub darmowy OpenOffice)oraz darmowy GradeStat
Książka „Współczesna statystyka matematyczna w medycynie (w arkuszach kalkulacyjnych)” • Autorzy: M. Maliński, J. Szymszal • Książka dla środowiska medycznego, umożliwiająca samodzielne analizowanie danych. • Książka ta jest ukierunkowana przede wszystkim na tradycyjną statystykę w ujęciu matematycznym.
Powody skłaniające środowisko lekarskie do kultywowania tradycji • Odpowiedzialność, która przy stosowaniu tego co tradycyjne, nie spada bezpośrednio na lekarza, lecz na powszechnie stosowane (ale niekoniecznie dobre) procedury. • Trudności, jakie powoduje odejście od utartych standardów przy publikowaniu rezultatów badań w redakcjach czasopism i wydawnictw, u recenzentów, u odbiorców informacji. • Przy ujęciu tradycyjnym oprawa statystyczna wymaga od lekarza niewielkiego nakładu pracy, a w dodatku można znaleźć pomoc u profesjonalnego statystyka.
Bariery stojące przed indywidualną analizą danych Indywidualna analiza danych za pomocą takich narzędzi, jak GradeStat i Excel jest nietrudna, ale wymaga samodzielnej współpracy z programem. Wprawdzie pierwszy wizualny kontakt z danymi uzyskuje się w GradeStacie bardzo szybko i zdobywa się natychmiast ogólny obraz zbioru, ale kompletna analiza wymaga często: czyszczenia danych, sukcesywnego uzupełniania elementów brakujących, wyodrębniania elementów odstających i trudnych przypadków, znajdowanie cech ukrytych i cech o znaczeniu priorytetowym, analizy skupień etc.). To jednak owocuje głębokim wglądem w zbiór danych oraz porządkuje i syntetyzuje zdobyte informacje
Lekarz a informacja Lekarz przyszłości to lekarz wspierający stale swą wiedzę, intuicję i doświadczenie zawodowe bieżącym kontaktem z informacją medyczną. Powinien umieć skorzystać z usług infobrokera, analityka danych, analityka eksperckich sondaży informacyjnych.
Nowe specjalności • Infobroker jest dostawcą informacji, którą wyszukuje w zasobach informacyjnych. • Analityk danych wykrywa i wizualizuje trendy (oraz odstępstwa od nich) w zbiorach danych, konstruuje skupienia uporządkowanych jednorodnych obiektów, klasyfikuje dane, pomaga podejmować decyzje, diagnozować bieżący stan. • Analityk eksperckich sondaży informacyjnych projektuje ankiety i analizuje ich wyniki, klasyfikuje respondentów oraz specyfikuje, interpretuje i wizualizuje wykryte trendy.
Darmowe oprogramowanie • GradeStat do ściągnięcia: http://gradestat.ipipan.waw.pl • OpenOffice (darmowy odpowiednik Microsoft Office, w pełni z nim kompatybilny) :http://www.openoffice.pl