1.11k likes | 1.39k Views
Złożone modele skalowania liniowego. Podstawy statystyczne. Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej. Elementy algebry wektorów i macierzy. Wektory. Skalar = jedna liczba. np. Wektor = uporządkowany ciąg liczb. Wektor wierszowy. np. O wymiarach (1 x 3).
E N D
Złożone modele skalowania liniowego Podstawy statystyczne Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej
Wektory Skalar = jedna liczba np. Wektor = uporządkowany ciąg liczb Wektor wierszowy np. O wymiarach (1 x 3) np. Wektor kolumnowy Wymiar wektora = liczba jego elementów O wymiarach (4 x 1)
Mnożenie wektora przez skalar k Wektor o rozmiarach m x 1 Liniowa kombinacja wektorów Transpozycja wektora Iloczyn skalarny dwóch wektorów Iloczyn skalarny dwóch wektorów jest liczbą (skalarem)
Iloczyn skalarny wektora z samym sobą = suma kwadratów eelementów wektora Długość wektora, zwana jego normą Suma elementów wektora Nierówność Schwartz ‘a
Specjalne wektory Wektor jednostkowy Wektor zerowy Wektor o długości 1 Wektory względem siebie ortogonalne Układ (zestaw) wektorów ortogonalnych Układ wektoróworto-normalnych
Macierz Macierz X uporządkowany ciąg wektorów m wektorów o wymiarach (n x 1) macierz X wymiarach (n x m)
Macierze i operacje na macierzach Suma Iloczyn Przykład iloczynu macierzy A i B Transpozycja Własności transpozycji
Specjalne macierze Macierz jednostkowa Macierz zerowa Macierz diagonalna („przekątniowa”) Iloczyn macierzy diagonalnych
Wyznacznik, odwrotnośc macierzy Wyznacznik macierzyjest liczbą Macierz A bez i-tego wiersza oraz j-tej kolumny Macierz dodatnio (pozytywnie) określona ma wyznacznik dodatni Odwrotność macierzy A jest macierzą A-1 Odwrotną do siebie macierz mają tylko macierze dodatnio określone Własności odwrotności
Rząd (rank) i ślad (trace) macierzy Wektory liniowo niezależne Wektory (x1, x2, ... ,xm) są liniowo niezależne, gdy ich liniowa kombinacja jest wektorem zerowym: c1x1 + c2x2 + ... + cmxm = 0 tylko wtedy, gdy wszystkie jej współczynniki cisą równe zero Rząd macierzy Rząd macierzy to liczba jej liniowo niezależnych wektorów lub kolumn Jeśli rząd macierzy jest mniejszy niż jej rozmiar (liczba wierszy, liczba kolumn) jeden z jej wektorów (wiersz, kolumna) jest liniową kombinacją pozostałych wektorów tej macierzy Rząd macierzya jej wyznacznik Jeśli rząd macierzy jest mniejszy niż jej rozmiar, macierz ta ma wyznacznik równy zero Ślad macierzy = suma jej elementów diagonalnych a) tr(k A) = k tr(A) b) tr(A+B) = tr(A) + tr(B) c) tr(AB) = tr (BA) • d) tr(A) = rank(A) gdy AA =A (A jet idempotentna)
Rozwiązywanie układu równań liniowych Układ równań A x = c Warunki niezbędne istnienia rozwiązania powyższego układu równań Macierz A musi mieć odwrotność A-1 Wyznacznik macierzy A musi być dodatni |A|> 0 Rząd macierzy A musi być równy 3
Eigenvalue, eigenvector eigenvalue lambda and an eigenvectorx of the square matrix A ; x0 and x has length 1 Sum and product of matrix eigenvalues
wektor u oraz skalar , dla których zachodzi równość nazwywają się wektorem własnym i wartością własną macierzy R Dla R o wymiarach 2x2 Wartości własne równanie charakterystyczne ma tyle rowiązań, ile wynosi rząd macierzy R Gdy znane są wartości własne R, można wyznaczyć wektory własne u1 i u2 z równań postaci: Macierz wartości własnych Niestety, istnieje ich wiele, trzeba założyć, że mają długość 1 Macierz wektorów własnych Każda nieosobliwa kwadratowa macierz ma tyle wartości własnych i tyle wektorów własnych , ile wynosi jej rząd
Twierdzenie o rozkładzie macierzy ze względu na wektory i wartości własne Każdą odwracalną macierz kwadratową daje się przedstawić jako iloczyn trzech macierzy; takie przedstawienie nazywa się rozkładem ze względu na wektory i wartości własne (SVD) Macierz wartości własnych Macierz wektorów własnych
Twierdzenie o rozkładzie macierzy ze względu na wektory i wartości własne Każdą odwracalną macierz kwadratową daje się przedstawić jako sumę macierzy generowanych przez jej wektory i wartości własne
Własności wektorów i wartości własnych • Wektory własne są względem siebie ortogonalne - ich iloczyny skalarne są równe 0 • Wartości własne sumują się do rozmiaru oraz do śladu macierzy • Iloczyn wartości własnych kwadratowej macierzy Rjest równy wyznacznikowi tej macierzy
Dane statystyczne w ujęciu macierzowym Macierz R współczynników korelacji liniowej między zmiennymi X1 oraz X2 składa się z iloczynów skalarnych odpowiadających im wektorów x1std oraz x2stdpomnożonych przez stałą (1/n-1)
Dane statystyczne w ujęciu macierzowym - 1 Dane statystyczne w ujęciu macierzowym
Dane statystyczne w ujęciu macierzowym - 3 Wektor kolumnowy o wymiarach (n x 1) Macierz X o wymiarach (n x m) Pomnożony przez odwrotność liczebności (1/n) iloczyn trasponowanej macierzy X przez nią samą Pomnożony przez odwrotność liczebności (1/n) iloczyn trasponowanej macierzy X przez nią samą
Dane statystyczne w ujęciu macierzowym - 4 Liczba liniowo niezależnych zmiennych statystycznych Liczba liniowo niezależnych zmiennych statystycznych Suma wartości własnych macierzy korelacji R Macierzy korelacji R jest sumą macierzy korelacji generowanych przez jej wektory i warości własne
Problem głównych składowych (PC)i jego rozwiązanieSingular Value DecompositionSVD
Problem głównych składowych Znaleźć takie dwie liniowe kombinacje wektorów x1 oraz x2które tworzą zmienne C1 oraz C2 tak, aby C1 miała największa możliwie wariancję oraz była nieskorelowana liniowo z C2 ; U jest macierzą współczynników tych kombinacji
Własności rozwiązania problemu głównych składowych Macierz wektorów własnych macierzy R Rozwiązanie problemu głównych składowych Wartość własna to wariancja głównej składowej Kolejne składowe mają coraz mniejszą wariancję Każda składowa „reprezentuje” jaką część sumy wariancji wskaźników Macierz współczynników korelacji między zmiennymi daje sie wyrazić jako suma macierzy korelacji „wynikających” z jej poszczególnych głównych składowych
Przykład * -- dwie zmienne X1 X2 za: Kim, Mueller (1978) str 14 - . X1 X2
Przykład: wyznaczenie głównych składowych macierzy korelacji R
Rozkład macierzy korelacji R na sumę macierzy Macierzy korelacji między wskaźnikami daje sie wyrazic jako suma macierzy korelacji wynikającyh z poszczególnych wymiarów czynnikowych
Przykład: rozkład sumy wariancji zmiennych między główne składowe
Jak to się robi w SPSS * - dwie zmienne X1 X2 za: Kim, Mueller (1978) str 14 - . * - Współczynnik korelacji rX1X2 = 0,48 - . * - Główne składowe będą miały nazwy: PCA1 oraz PCA2 FAC /VAR X1 X2/CRI FAC(2)/EXT PC/SAVE (ALL, PCA). LIST PCA1 PCA2. * - sprawdzamy średnie i wariancje głównych składowych PCA1 PCA2 DES PCA1 PCA2/ STA SUM MEA VAR. * - sprawdzamy czy główne składowe PCA1 oraz PCA2 są względem siebie ortogonalne - . CORPCA1 PCA2. * - sprawdzamy jakimi funkcjami głównych składowych są X1, X2 - . REG /DEP X1/ENT PCA1 PCA2. REG /DEP X1/ENT PCA1 PCA2. Uwaga: SPSS standaryzuje główne składowe nieobciążonym estymatorem wariancji (n-1)
Jak to się robi w SPSS Macierz kowariancji SVD Regresja wskaźników X1, X2 na składowe PC1, PC2 Macierz kowariancji SPSS Regresja wskaźników X1, X2 na składowe PCA1, PCA2
Jeśli wyznaczyliśmy główne składowe, możemy z nich wrócić do wskaźników Jeśli rozwiążemy problem PCA, wyznaczymy C1 i C2, wskaźniki X1 i X2 możemy wyrazić jako liniową kombinację głównych składowych Parametry liniowej kombinacji głównych składowych, które tworzą zmienne obserwowalne otrzymujemy dzięki SVD
4 3 3 2 2 1 1 0 1 2 3 4 5 6 0 1 2 3 4 5 6 Geometryczna interpretacja macierzy korelacji Y Wektory rozpatrujemy zawsze w jakiejś przestrzeni. Jeśli w przestrzeni, w której rozpatrywany jest wektor określimy kartezjański układ współrzędnych prostokątnych, to położenie wektora w przestrzeni będzie wyznaczone poprzez współrzędne dwóch punktów: początku i końca wektora X Na powyższym (płaskim) rysunku, współrzędne początku wektora dane są uporządkowaną parą liczb (2,1); współrzędne końca wektora uporządkowaną parą liczb (5,2) zaś uporządkowana para punktów ((2,1), (5,2)) określa położenie wyrysowanego wyżej wektora na płaszczyźnie, czyli w przestrzeni dwuwymiarowej y x Jeśli wiadomo, że początek wektora pokrywa się z początkiem układu współrzędnych, to położenie rozpatrywanego wektora będzie wyznaczone uporządkowaną parą liczb (y,x), określającą położenie jego punktu końcowego
0 Długość wektora, iloczyn skalarny dwóch wektorów W układzie o k współrzędnychx = (x1, x2, …, xk)długość wektora jest pierwiastkiem sumy kwadratów jego współrzędnych Twierdzenie Pitagorasa Iloczynem (skalarnym) dwóch wektorów, t1 i t2, o początkach leżących w tym samym punkcie, nazywa się liczbę będącą iloczynem trzech liczb: długości wektora t1, długości wektora t2, cosinusa kąta 12między wektorami t1 i t2
0 Iloczyn skalarny dwóch wektorów - geometrycznie Y X Iloczyn skalarnym dwóch wektorów, t1 i t2 o początkach leżących w tym samym punkcie, jest równy sumie iloczynów ich współrzędnych
0 Długość wektora w czynnikowym układzie odniesienia F1 x1 b11 b21 x2 F2 b22 b12 Wariancja zmiennej wyrażona z układu czynnikowego to suma kwadratów ładunków czynnikowych zmiennej względem wszystkich czynników
0 Iloczyn skalarny dwóch wektorów – to współczynnik korelacji między nimi F1 x1 b11 F1 i F2 tworzą układ współrzędnych dla X1i X2traktowanych jako wektory b21 x2 F2 b22 b12 Współczynnik korelacji między zmiennymi X1 i X2 to suma iloczynów ich ładunków czynnikowych względem ortogonalnych czynników F1 i F2
Iloczyn skalarny dwóch wektorów - podsumowanie To iloraz kowariancji oraz odchyleń standardowych zmiennych X1, X2 Wpółczynnik korelacji liniowej zmiennych X1, X2 Pierwiastek iloczynu skalarnego dwóch wektorów to długość wektora Iloczyn skalarny wektorów-zmiennych to suma iloczynów ich współrzędnych Zmienne standaryzowane mają długość 1
Model czynnikowy Założenia X=(X1, X2, …, Xm) - dane wejściowe - R – macierz korelacji Określone w zbiorowości interwałowe zmienne są wskaźnikami cech ukrytych F1, F2, …, Fk , k < m, nazywanych czynnikami wspólnymi Każdy wskaźnik Xi jest liniową funkcją czynników wspólnych F1, F2, …, Fk , oraz jednego czynnika czynnika swoistego Ui Wszystkie czynniki swoiste U1, U2, …, Umsą ze sobą liniowo nieskorelowane Każdy z czynników swoistych U1, U2, …, Um jest liniowo nieskorelowany z każdym z czyników wspólnych F1, F2, …, Fk Problem Wyznaczyć współczynniki liniowych funkcji wiążących wkaźniki Xi z czynikami wspólnymi F1, F2, …, Fk, z których wyliczone korelacje między wskaźnikami są najbliższe zaobserwowanym
Single latent common factor F and two manifest indicators X1, X2 d1 b1 X1 U1 F b2 d2 X2 U2 Model assunptions Unique variables U1 and U2 are linearly independent and independent on common latent factor F: Consequences: Common (explained) variance of an indicator Xi with common factor F equals the square of a factor loading bi: Correlation coefficient between indicators Xi and Xj is a product of their loadings with common factor F:
Single factor F and two manifest indicators X1, X2 Factor matrix d1 0,8 X1 U1 F d2 0,6 X2 U2 Solution 1 Solution 2 Solution 3 Solution 4 0,90*0,53=0,48 0,70*0,69=0,48 0,60*0,80=0,48 0,50*0,96=0,48
Two independent factors F1, F2, two indicators X1, X2 d1 b11 X1 X1 U1 F1 b21 d2 X2 X2 U2 b12 b22 F2 Assumptions Unique factors U1 and U2 are linearly independent and independent on common factors F1 and F2: Common factors are linearly independent: Orthogonality of factors Consequences: Common (explained) variance of an indicator with a common factor is the sum of factor loadings squares, with both common factors F1 and F2: Correlation coefficient between indicators is the sum of factor loadings products
X1 0,80 0,70 F1 X2 0,60 X3 0,60 0,80 X4 F2 0,60 X5 Two orthogonal factors – five indicators
F1 Model 1 F1’ X3 Perfect reproduction of correlations between indicators can be derived from different factor models X1 F2’ X2 X4 X5 F2 Model 2
X1 0,80 0,70 F1 X2 0,60 0,40 X3 0,70 X4 F2 0,60 X5 0,50 X6 Oblique factor model algebraically
Oblique factor model geometrically • F1 • F1 • F1 • F2 • F2 X1 X2 X3 X4 X5 X6 66 • F2 Orthogonal factors Oblique factors initial rotated Factor loadings are coordinates on the factor axes