130 likes | 269 Views
Textlänge in Worten. Mittlere Wort-länge. Standard-abweichung. Schiefe. Kurtosis. Mit 0-Silbern. 890. 1,8101. 0,9915. 0,9555. 0,2182. Ohne 0-Silbern. 882. 1,8265. 0,9808. 1,0029. 0,2170. Beispiel Ivan Cankar „ Hlapec Jernej in njegova pravica“ (Kap. 6).
E N D
Textlänge in Worten Mittlere Wort-länge Standard-abweichung Schiefe Kurtosis Mit 0-Silbern 890 1,8101 0,9915 0,9555 0,2182 Ohne 0-Silbern 882 1,8265 0,9808 1,0029 0,2170 Beispiel Ivan Cankar „ Hlapec Jernej in njegova pravica“ (Kap. 6)
Frage: Hat der Anteil der 0-silbigen Wörter einen signifikanten Einfluss auf die mittlere Wortlänge?
Abhängigkeit zwischen mittlerer Wortlängemit bzw. ohne 0-silbige Wörter M1KORP_m0 = Mittlere Wortlänge im Ges. Textkorpus (m.0) M1_T1_m0 = Mittlere Wortlänge - Liter. Prosa (m.0) M1_T2_o0 = Mittlere Wortlänge -Liter. Prosa (o.0) M1KORP_o0 = Mittlere Wortlänge im ges. Textkorpus (o.0) M1_T2_m0 = Mittlere Wortlänge - Poet.Texte (m.0) M1_T3_m0 = Mittlere Wortlänge - Jour. Prosa(m.0) M1_T3_o0 = Mittlere Wortlänge - Journ. Prosa(o.0) M1_T2_o0 = Mittlere Wortlänge - Poet.Texte (o.0)
Test auf Normalverteilung (Shapiro-Wilk ) : H0: „Mittlere Wortlänge von Texten mit 0-silbigen Wörtern stammt aus einer Normalverteilung“ H1: „Mittlere Wortlänge von Texten mit 0-silbigen Wörtern stammt nicht aus einer Normalverteilung“
Variablen p-Wert Literarische Prosa (m.0) 0,140 Literarische Prosa (o.0) 0,267 Poetische Texte(m.0) 0,864 Poetische Texte (o.0) 0,620 Journalistische Prosa (m.0) 0,859 Journalistische Prosa (o.0) 0,640 Shapiro-Wilk Test auf Normalverteilung: Alle Variablen sind normalverteilt
Frage:Unterscheiden sich die Mittelwerte der neugebildeten Variablen signifikant voneinander? t-Test für gepaarte Stichproben Differenz der beiden Variablen Beispiel:
t-Test auf Einstichproben-Problem (Test auf Mittelwert der Differenz Variablen )
WICHTIG!!!! Voraussetzung für t-Test Normalverteilung der Differenzvariablen Test auf Normalverteilung (Shapiro-Wilk) : • d1, d3 sind normalverteilt t-Test • d2 ist nicht normalverteilt WARUM ?
Grund für fehlende Normaverteilung: 25 Poetische Texte (ca.50%) haben keine 0-silbigen Wörter
Ergebnisse des t-Tests: • Nullhypothese verwerfen d.h. µd 0 • Beide Variablen stammen aus einer Normalverteilung mit gleichen Varianzen und unterschiedlichen Mittelwerten
Der Anteil der 0-silbigen Wörter kann eventuell für eine Textsortendifferenzierung herangezogen werden (bzw. dazu beitragen)