130 likes | 372 Views
LIWC2001 Linguistic Inquiry and Word Count ( James W. Pennebaker Martha E. Francis & Roger J Booth; www.liwc.net ). Anna Gabińska SWPS. LIWC – zasady działania:. Liwc został zaprojektowany do analizowania pisanego tekstu na zasadzie słowo po słowie. Przystosowany do pracy na PC i Macintosh
E N D
LIWC2001Linguistic Inquiry and Word Count(James W. Pennebaker Martha E. Francis & Roger J Booth; www.liwc.net) Anna Gabińska SWPS
LIWC – zasady działania: • Liwc został zaprojektowany do analizowania pisanego tekstu na zasadzie słowo po słowie. • Przystosowany do pracy na PC i Macintosh • Forma zapisywania wyników analiz umożliwia łatwe transportowanie ich do SPPS-a lub Excela • Analiza tekstu oparta jest o wyszukiwanie w tekście słów i rdzeni wyrazowych. mate hungr* - hungry, hungrier, hungriest * gwiazdka oznacza, że brane będą pod uwagę wszyskie litery, cyfry oraz łączniki. • Każde słowo lub rdzeń wyrazowy przypisany jest do jednej lub więcej kategorii.
LIWC2001 – zasady działania: • Umożliwia pracę z wieloma plikami tekstowymi jednocześnie. Analizuje jeden plik po drugim. • Proces analizy jednej strony z pojedynczymi odstępami zajmuje ułamek sekundy. • Słowa w tekście analizowane są jedno po drugim → przeszukiwanie słownika → zgodność słowa tekstowego ze słownikowym powoduje wzrost na skali danej kategorii. • Analiza tekstu obejmuje również strukturalne elementy: ilość słów, średnia ilość słów przypadająca na zdanie.
LIWC2001 – zasady działania: • Oblicza procent słów występujących w tekście dla każdego z 74 wymiarów lingwistycznych. • Wszystkie zmienne (oprócz [WC] – ilość słów, [WPS] średnia ilość słów w zdaniu, [Qmarks] procent zdań kończących się znakiem zapytania) odzwierciedlają procent wszystkich użytych słów. wynik 1,59 dla zaimka „I” oznacza, że 1,6% tekstu składa się z „I”.
LIWC2001 – słownik: • 2,300 słów i rdzeni wyrazowych. • Rozpoznaje około 80% słów używanych w mowie i piśmie. • 74 kategorie: • (17) język standardowy - ilość słów, przyimki, zaimki, negacje • (25) konstrukty psychologiczne - emocje, procesy poznawcze • (10) relatywność - czas, ruch, przestrzeń • (19) sprawy osobiste – praca, dom, stany fizyczne, pieniądze • (3) eksperymentalne – przekleństwa, „nonfluencies”, „fillers” • Kategorie zorganizowane są w sposób hierarchiczny. Przykładowo wszystkie słowa związane z kategorią „wściekłość” są także włączone do kategorii emocji negatywnych i słów afektywnych.
LIWC2001 – słownik: • Jeśli użytkownik chce może dodatkowo analizować numery, skróty i emotikony. • Możliwość tworzenia własnych kategorii i słowników • Ignoruje znaki większość znaków interpunkcyjnych (przecinki, dwukropki, też: @, &, + itp.. o ile nie są emotikonami)
Funkcje dodatkowe słownika: • Kategorie warunkowe – możliwość podstawowej analizy kontekstowej Like (01 23)12/69 - jeśli słowo poprzedzające „like” należy do kategorii 01 (zaimek) lub 23 (niezgodność – ‘discrepancy’) to „like” należy zaklasyfikować do kategorii 12 (afekt). W innym przypadku „like” należy przypisać do kategorii 69 (podobieństwo). Like (01 23)00/69 - „00” oznacza, że jeśli słowo poprzedzające „like” należy do kategorii 01 lub 23, to „like” nie powinno być przypisane do żadnej kategorii. W innym przypadku „like” należy zaklasyfikować do kategorii 69 (podobieństwo). Like (01 23)13 - jeśli słowo poprzedzające „like” należy do kategorii 01 (zaimek) lub 23 (niezgodność) to „like” należy zaklasyfikować do kategorii 13 (afekt). W innym przypadku „like” należy pominąć w analizie.
Funkcje dodatkowe słownika: Kind <of>20/12<of>25/13 - jeśli „of” następuje po słowie „kind” , to „kind” należy przypisać do kategorii 20 (możliwy - ‘tentative’). W innym przypadku „kind” należy przypisać do kategorii 12 (afekt). Kind <of>00/12 - „00” oznacza, że jeśli „of” następuje po słowie „kind” , to „kind” nie powinno być przypisane do żadnej kategorii. W innym przypadku „kind” należy przypisać do kategorii 12 (afekt). Kind <of>20 - jeśli „of” następuje po słowie „kind”, to „kind” powinno być zaklasyfikowane do kategorii 20. W innym przypadku „like” należy pominąć w analizie.
Przygotowanie tekstu do analizy • Plik w formacie text lub ASCII • „czyszczenie tekstu” – poprawianie literówek i nieprawidłowego użycia słów („its” a it’s”). Błędy gramatyczne, struktura zdań oraz pisownia dużymi i małymi literami nie wymaga poprawek. • skróty - Jan – January • don’t, won’t, isn’t, shouldn’t, can’t, couldn’t, I’m, I’ll, I’d, we’re, we’d, you’re, he’s, it’s etc. Sally’s shoes & Sally’s going out (→ Sally is going out)
Przygotowanie tekstu do analizy • kropki i łączniki • Jeśli nie chcemy zliczać skrótów należy je zamienić na pojedyncze słowa: U.S. →nie US (zaimek 1os. l.mn) tylko USA • 7:30 a.m. → 7:30am • Self-esteem – wyrazy połączone łącznikiem tworzą jedno słowo fraza „this-or-that” → „this – or – that”
Przygotowanie tekstu do analizy • Transkrypacje tekstów mówionych • nonfluencies: hmm, uhh, uhm, um, mm, er „The, the bo-, the boat is there” → „Uh, Uh, the boat is there” „Huh?” → „what?” • fillers: you know, I mean, like → youknow, Imean, rrlike • Tekst nie zrozumiały → xxx