250 likes | 346 Views
Získavanie a určovanie správnosti odpovedí vo výučbovom systéme prostredníctvom čerpania z davu. Bc . Marek Láni Vedúci práce: Ing. Jakub Šimko, Phd. Kontext práce - otázkovač. Hodnotenie dvoj íc otázka-odpoveď študentmi Zber týchto hodnotení
E N D
Získavanie a určovanie správnosti odpovedí vo výučbovom systéme prostredníctvom čerpania z davu Bc. Marek Láni Vedúci práce: Ing. Jakub Šimko, Phd.
Kontext práce - otázkovač • Hodnoteniedvojíc otázka-odpoveď študentmi • Zber týchto hodnotení • Otázky a odpovede získané z testov na cvičeniach • Každá odpoveď ohodnotená aj učiteľom • Mierna podobnosť s CQA(Community Question Answering)
Predchádzajúci experiment „Je dav študentov schopný určiť správnosť odpovede podobne ako učiteľ ?“ • Jednoduchá interpretácia hodnotenívytvorených študentmi – skupinou jednotlivcov s rozličnou mierou vedomostí (dav) • - Vyhodnotenie na základe diskrétneho expertného hodnotenia • - Použitých 200 dvojíc otázka-odpoveď • Úspešnosť 84% (nízka výpovedná hodnota) • + Určenie minimálneho potrebného počtu hodnotení • + Greedy zobrazovací algoritmus dvojíc otázka-odpoveď
Naše ciele, prínos a motivácia • Vyťažiť z existujúcich hodnotení študentov presnejšiu agregovanú odpoveď • Zvýšiť množstvo ohodnotených odpovedí • Rozšíriť cvičenie o možnosť vkladať vlastné odpovede (nielen hodnotiť existujúce) • priblížiť sa k CQA (CommunityQuestionAnswering)
Metódy/prístupy k dosiahnutiu zlepšenia výsledkov interpretácie odpovede davu • Filtrovanie hodnotení s hodnotou 0,5 • Strojové učenie – neurónovásieť • Určovanie expertízy na základe pomerurozloženia hodnotení • Filtrovanie „deviantov“ v sporných prípadoch • Váhovanie hodnotení na základe ich rozloženia Časté áno, málokrát nie – nie musí mať silu (a naopak) • Váhovanie hodnotení na základe ich rozptylu • Využitie modelu používateľa (AIS)
Filtrovanie hodnotení s hodnotou 0,5 • Predvolená hodnota • V mnohých prípadoch spam • Kombinovanie s ostatnými metódami
Určovanie expertízy na základe rozloženia hodnotení Ak je študent expert, bude rozloženie jeho hodnotení blízke rozloženiu hodnotení v rámci zlatého štandardu • Rozdelenie intervalu na oblasti Áno/Nie • Odhadnutierozloženia hodnotení v rámci zlatého štandardu (Re) • Získanie pomeru rozloženia hodnotení pre každého študenta (Ru) • Vážený priemer hodnotení • Ak Ru< Re => váha hodnotenia = Nright/(Nwrong * Re) • Ak Ru >= Re => váha hodnotenia = (Nwrong * Re)/ Nright Áno (Odpoveď správna) Nie (Odpoveď nesprávna) t 1 0 Rozloženie hodnotení = počethodnotení Áno / počet hodnotení Nie
Využitie neurónovej siete • Vstup: zoradené hodnotenia odpovede • Výstup: odhadnutá hodnota • Filtrovanie hodnotení s hodnotou 0,5 • Nahradenie priemerom zvyšných hodnotení • Určenie vhodných hodnôt parametrov neurónovej siete pred samotným experimentovaním • Počet neurónov, miera učenia, hybnosť • 10 opakovaní pre rôzne trénovacie a overovacie množiny
Dostupné dáta pre vyhodnotenie metód • Dataset zo systému ALEF a predmetu PSI (Súbor1) • 1 012 dostatočne ohodnotených odpovedí • 16 192 hodnotení • Dataset z aplikácie CRANE a predmetu MSI (Súbor2) • 428 dostatočne ohodnotených odpovedí • 6 848 hodnotení
Spôsob overenia metód • Nový „spojitý“ zlatý štandard • Úspešnosť • Vyjadrujepercentoprípadov, v ktorých spadá interpretovaná hodnota hodnotení davu do určitého intervalu akceptácie v okolí hodnoty zlatého štandardu • Rozptyl medzi interpret. hodnotami a zlatým štandardom
Nová verzia otázkovača • Samostatná aplikácia (CRANE) • Integrácia so systémom ALEF (REST rozhranie)
Štatistikypoužívanosti aplikácie CRANE • CRANE použitý na predmetoch MSI a PSI • Štatistiky MSI (1/2 zimnéhosemestera) • Vytvorených hodnotení: 7719 • Vytvorených odpovedí: 562 • Dostatočne ohodnotených odpovedí: 430 • Používateľov: 99 • Štatistiky PSI (2/3 letného semestra) • Vytvorených hodnotení: 8424 • Vytvorených odpovedí: 708 • Dostatočne ohodnotených odpovedí: 371 • Používateľov: 163
Kvalitatívne vyhodnotenie aplikácie CRANE - proces • 5+2 účastníkov • Diskusia so 14 otázkami • 15-25 minút
Kvalitatívne vyhodnotenie aplikácie CRANE - výstupy Študenti- • pri používaní cvičenia hľadali informácie v externých zdrojoch • sa snažili vytvárať čo možno najlepšie vstupy • ocenili rozšírenú možnosť komentovania • Nedôvera v spolužiakov - odrádzajúci faktor • Dôveruj, ale preveruj
Plán ďalšej práce • Publikácia článku do vedeckého časopisu (Journal ofEducational Technology & Society) • Ďalšie experimentovanie s navrhnutými metodámi • Pripraviť CRANE na ďalšie používanie
Zhrnutie • Nové prístupy/vylepšenia intepretácie odpovede davu • Filtrovanie hodnotení s hodnotou 0,5 • Určovanie expertízy na základe rozloženia hodnotení • Strojové učenie – neurónová sieť • ... • Vytvorenie a využitie nového zlatého štandardu • Nová aplikácia na zber dát • Zavedenie možnosti tvorby odpovedí • Zjednodušenie využitia cvičenia na rôznych predmetoch • Kvalitatívne vyhodnotenie vytvorenej aplikácie
Otázka č. 1 Iné spôsoby určenia expertízy na základe miery správnosti hodnotení pri porovnaní s hodnotením davu/učiteľa. • Pozmenenie metódy „filtrovanie hodnotení deviantov” • Pozorovanie vzdialenosti hodnotení od priemeruostatnýchhodnotení (v prípadoch, že sa študenti zhodli) • Pozorovanie vzdialenosti hodnotení od hodnotení učiteľa
Filtrovanie „deviantov“ Nájdeniedeviantov v jednoznačných prípadoch a ich filtrovanie v neurčitých prípadoch. • Určenie jednoznačných prípadov • Rozptyl hodnotení < Varmax • Určenie odľahlého hodnotenia • Zmenarozptyluhodnotení pri odstránení hodn. > dVar • Vzdiaľenosť od najbližšieho hodnotenia >l • Definovanie odľahlého hodnotiteľa • Aspoň N-krátvykonané odľahlé hodnotenie • Určenie neurčitých prípadov • Rozptyl hodnotení > Varmin • Spriemerovanie s odfiltrovaním hodnotení
Otázka č. 2 Veľkosť intervalu akceptácie • Odvodenie z použitej Lickertovej škály a jej rozsahov (0,2 / 2) • Odvodenie z klasifikačnej stupnice • Veľkosť závisí aj od „prísnosti” učiteľa • Podľa nášho úsudku max. 0,2 až 0,25
Klasifikácia navrhnutých metód Čistenie a filtrovanie l • Filtrovanie hodnotení s hodnotou 0,5 • Filtrovanie „deviantov“ v sporných prípadoch Určovanie expertízy a váhovanie l • Určovanie expertízy na základe rozloženia hodnotení • Váhovaniehodnotení na základe ich rozloženia • Váhovaniehodnotení na základe ich rozptylu • Využitie modelu používateľa (AIS) Agregácia hodnotení l • Primerovanie hodnotení • Strojové učenie – neurónová sieť