210 likes | 373 Views
Program przedmiotu “Opracowywanie danych w chemii”. Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki matematycznej. Podstawy analizy wyników pomiarów. Statystyczna weryfikacja hipotez. Analiza wariancji.
E N D
Program przedmiotu “Opracowywanie danych w chemii” • Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. • Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki matematycznej. • Podstawy analizy wyników pomiarów. Statystyczna weryfikacja hipotez. Analiza wariancji. • Dopasowywanie modeli • Regresja liniowa pojedyncza i wielokrotna. • Regresja nieliniowa. • Analiza konfluentna. • Porównywanie modeli. • Metoda największej entropii. • Analiza skupień: grupowanie podobnych obiektów. • Analiza czynnikowa.
Literatura • J. Czermiński i współautorzy, Metody statystyczne w doświadczalnictwie chemicznym. PWN, Warszawa. • S. Brand, Analiza danych, PWN, Warszawa. • A. Strzałkowski, A. Śliżyński, Matematyczne metody opracowywania wyników pomiarów, PWN, Warszawa. • C. R. Rao, Modele liniowe statystyki matematycznej, PWN, Warszawa. • R.G. Brereton, Chemometrics, Wiley. • Sieber,Wild, Nonlinear regression, Wiley.
Pochodzenie danych • Pomiar (np. pomiary fizykochemiczne) • Obserwacja (np. zapis zmiany liczebności populacji na określonym terenie) • Symulacja (np. symulacje dynamiki molekularnej ewolucji czasowej zespołów cząsteczek)
Metody analizy danych • Analiza statystyczna (obliczanie średnich i rozrzutu, ocena wiarygodności pomiarów, ocena istotności różnic wielkości zmierzonych w różnych miejscach) • Dopasowywanie modeli matematycznych do danych pomiarowych (np.analiza regresyjna i konfluentna) • Analiza skupień (znajdowanie skupisk obiektów o podobnych cechach) • Analiza czynnikowa (wyławianie czynników określających większość właściwości zbioru danych lub zjawiska)
Zastosowania • Analiza statystyczna wyników pomiarów: chemia analityczna, chemia medyczna, technologia chemiczna. • Dopasowywanie modeli: chemia fizyczna, chemia organiczna, krystalochemia i inne metody określania struktury cząsteczek, chemia teoretyczna, technologia chemiczna. • Analiza skupień: analiza konformacyjna, QSAR. • Analiza czynnikowa: QSAR, spektroskopia.
Rachunek prawdopodobieństwa A – zdarzenie E – przestrzeń wszystkich zdarzeń P(A) – prawdopowobieństwo zdarzenia A; liczba nieujemna określająca częstość jego występowania. P(E)=1 P(A+B)=P(A)+P(B) dla zdarzeń wykluczających się.
Prawdopodobieństwo warunkowe i niezależność zdarzeń P(A|B)=P(AB)/P(B) P(AB)=P(A|B)P(B) Zdarzenia A i B są niezależne jeżeli P(A|B)=P(A) czyli P(AB)=P(A)P(B)
Zmienne losowe i ich rozkłady Zmienna losowa: liczba przyporządkowana zdarzeniu Dystrybuanta: F(x)=P(y£x) Gęstość prawdopodobieństwa: f(x)=dP(x)/dx Funkcja zmiennej losowej jest też zmienną losową.
Dystrybuanta liczby oczek na jednej ścianie kostki dla rzutów idealnie symetryczną kostką. 1 F(x) 0.5 x 1 2 3 4 5 6
Momenty rozkładu Dla zmiennych ciągłych: Jeżeli H(x)=(x-xc)n to E{H(X)} nazywa się n-tym momentem x względem c; jeżeli c=to E jest n-tym momentem centralnym, mn({x}).
Użyteczne momenty centralne Wariancja Skrzywienie Kurtoza
Wartość najbardziej prawdopodobna (modalna): xm: f’(xm)=0, f’’(xm)<0 Mediana: x0.5: P(x<x0.5)=0.5 Wartość średnia: f(x) x
Mediana i kwantyle F(x) 1.0 0.5 0.2 x0.2 x0.5 x0.9 x mediana
Sposoby przedstawiania rozkładów zmiennych losowych: • Wykresy liniowe (rozkłady jednowymiarowe). • Wykresy „rozproszone” (scatter plots) (dwuwymiarowe) • Histogramy
Rozkład normalny U = zmienna stadardyzowana
Centralne twierdzenie graniczne Jeżeli x jest zmienną losową o wartości średniej a i wariancji b2, to zmienna Ma rozkład normalny o wartości średniej a i wariancji b2/n.