350 likes | 463 Views
Arviointimenetelmien vertailu. Antti Kavonen Ke 26.4.2006 58306103 Käyttöliittymien arviointimenetelmät. Taustaa. Käyttöliittymän arviointimenetelmät (UEM) uusi tieteenala, puhumattakaan niiden vertailusta
E N D
Arviointimenetelmien vertailu Antti Kavonen Ke 26.4.2006 58306103 Käyttöliittymien arviointimenetelmät
Taustaa • Käyttöliittymän arviointimenetelmät (UEM) uusi tieteenala, puhumattakaan niiden vertailusta • 80-luvulla alettiin soveltaa laboratoriokäytettävyystestausta, jossa arvioitiin yksinkertaisesti käytettävyyden nopeutta, tarkkuutta ja virheitä • Minimoidaan service callit • Parannetaan myyntiä parantamalla tuotetta • Vähennetään riskiä • Tehdään samalla pohjatyötä tulevien tuotteiden parantamiseksi
Taustaa • 90-luvulla tarvittiin parempia tuloksia lyhyemmässä ajassa • Laboratoriotestaus suoritettiin tuotekehityksen loppuvaiheessa – nyt haluttiin aloittaa aiemmin • Asiantuntijapohjaisten menetelmien synty • Ohjeistoilla arviointi, heuristinen arviointi, kognitiivinen läpikäynti, käytettävyysläpikäynti, heuristinen läpikäynti jne.
Taustaa • Eri menetelmien vahvuudet ovat perustuneet maalaisjärjelle, erilaista käyttötilanteista saadulle kokemukselle, case-tutkimuksille ja toki eri menetelmiä vertailevalle kokeelliselle tutkimukselle • Tutkimuksia ei ole paljon
Esimerkkitutkimus: Jeffries et al. 1991 • Alan tärkeimpiä tutkimuksia • Kohteena HP-VUE, Unixin graafinen käyttöliittymä, betatestausversio • Haluttiin testata tiedostojen käsittelyä, sovellusten käynnistämistä ja sulkemista, näytön asetusten muuttamista ym. • Testatut menetelmät: • ”heuristinen arviointi” = asiantuntija-arvio • Käytettävyystestaus • ohjeistoilla arviointi • kognitiivinen läpikäynti
”Heuristinen arviointi” • Termin merkitys on muuttunut: käytännössä asiantuntija-arvio käyttöliittymäspesialistit/ohjelmiston kehittäjät • Testiryhmä: neljä käyttöliittymäspesialistia • Tutustuivat järjestelmään ja tekivät koetehtäviä omaa tahtiaan kahden viikon aikana muiden töidensä ohella
Käytettävyystestaus • Testiryhmä: HCI-ammattilainen sekä kuusi tavallista PC-käyttäjää, joille Unix ei ollut tuttu • Tutustuivat HP-VUE-järjestelmään kolme tuntia ja suorittivat heti perään kaksi tuntia koetehtäviä
Ohjeistoilla arviointi • Käyttivät 62-kohtaista HP:n sisäistä ohjeistusta, joka on sangen yleisluontoinen: voidaan käyttää monenlaisten järjestelmien arviointiin • HP-VUE-järjestelmän suunnittelijat ja toteuttajat olisivat olleet ihanteellinen testiryhmä, mutta koska he eivät olleet saatavilla, käytettiin kolmea ohjelmistoinsinööriä. Kahdella heistä oli aiempaa kokemusta HP-VUE:n käytöstä
Kognitiivinen läpikäynti • Läpikäynti suunniteltiin ennakkoon, ja koehenkilöille jaettiin valmiit tehtävät • Ohjeistojen tavoin testiryhmänä kolme ohjelmistoinsinööriä
Koe • Käytettävyysongelma: ”mikä tahansa käyttöä vaikeuttava seikka kirjoitusvirheestä järjestelmän kaatumiseen” • Koehenkilöt kirjoittivat standardimuotoisiin lomakkeisiin lyhyen kuvauksen ongelmasta sekä sen löytymisestä • Myös ”vahingossa” eli muuten kuin testatulla menetelmällä havaitut virheet kirjattiin
Tulokset • Kolme ulkopuolista tutkijaa käsitteli ja luokitteli löydetyt ongelmat • Seitsemän käyttöliittymäammattilaista antoi niille vakavuusluokituksen asteikolla 1-9
”Heuristinen arviointi” eli asiantuntija-arvio • ”Heuristinen arviointi” tuotti parhaat tulokset: löysi eniten etenkin vakavia ongelmia ja oli suhteellisen nopea toteuttaa • Menetelmä vaatii runsaasti ammattitaitoista väkeä • Löytää toisaalta myös runsaasti vähäisiä ongelmia
Vertailua aiempiin esityksiin • Aki Korpua: Käyttöliittymäkatselmus (asiantuntija-arvio) muistutti heuristista arviointia • Akin esityksessä paljon tarkkoja ongelmakuvauksia: ”Explicit communication: Ei pystynyt tietämään ’kuunteliko’ toinen chattia” • Vertailu Jeffriesin et al. tuloksiin hankalaa
Käytettävyystestaus • Myös käytettävyystestaus löysi paljon vakavia ongelmia ja jätti huomiotta useita epäolennaisia • Kulutti eniten aikaa, ja huomattava määrä vakavia ongelmia jäi myös löytämättä
Vertailua aiempiin esityksiin • Jani Hanhisalo: ”Käytettävyystesti työläs” • Jeffries et al. eivät yksityiskohtiin pureudu, joten tarkempi vertailu hankalaa
Ohjeistoilla arviointi • Ohjeistoilla arvioidessa löydettiin eniten toistuvia ja yleisluontoisia ongelmia • Hyvä ohjeisto saa arvioijat tarkastelemaan kohdetta suurena kokonaisuutena eikä pieninä nippeleinä, kuten ehkä voisi kuvitella • Ohjeistoilla ei kuitenkaan löydetty tehokkaasti etenkään vakavia ongelmia • Huomioitava, että ohjeistoja käyttivät insinöörit eivätkä käyttöliittymäasiantuntijat
Vertailua aiempiin esityksiin • Tommi Ahonen: ”Korkean abstraktiotason ohjeistus käytettävissä monen sovelluksen tai sovellusalueen suunnittelussa”
Kognitiivinen läpikäynti • Tulokset verrattavissa ohjeistoihin • Läpikäyntiä käytettiin nyt ensimmäistä kertaa monimutkaisen järjestelmän testaukseen, joten tuloksia kannattaa tarkastella kriittisesti • Käyttäjän tavoitteiden määrittely koettiin hyödylliseksi harjoitukseksi, mutta välillä liian työlääksi ja pikkutarkaksi • Läpikäynti löysi harvinaisia virheitä • Aikaa kului paljon, eikä kaikkia tehtäviä saatu suoritettua
Tutkimuksen yhteenveto • ”Heuristinen arviointi” ja käytettävyystestaus ovat päteviä menetelmiä, joiden onnistunut käyttö kuitenkin vaatii useiden rautaisten käyttöliittymäammattilaisten tietämystä ja kokemusta
Tutkimuksen kritiikkiä: Gray & Salzman 1998 • Heuristinen arviointi -termin merkitys on siis muuttunut, minkä Jeffries et al. itsekin myöhemmin totesivat. Tämä aiheuttaa väärinkäsityksiä, kun tutkimusta luetaan tutustumatta muihin artikkeleihin • Muut menetelmät vastasivat suurin piirtein standardeja
Tilastollinen pätevyys • Ryhmissä 3-6 koehenkilöä -> suuri wildcard-riski, eli yksittäisen ihmisen pienellä teolla voi olla tuloksiin suuri vaikutus • Osa koehenkilöistä toimi ryhmässä, osa yksinään • Ei tarkkoja tilastollisia analyysejä, vaan kaikki tulokset perustuvat epämuodollisiin lukumäärien ja prosenttien vertailuun
Sisäinen pätevyys • Yhden ryhmän muodostivat käyttöliittymäspesialistit, kaksi muuta taas ohjelmistoinsinöörit • Osalla ohjeistoja käyttäneistä insinööreistä oli aiempaa kokemusta HP-VUE-järjestelmän käytöstä, joten he eivät löytäneet monia ongelmia itse menetelmällä vaan olivat havainneet ne jo aiemmin
Asetelma • ”Heuristisen arvioinnin” ryhmä teki testin omaan tahtiinsa kahden viikon ajassa ja ilmeisesti omilla tietokoneillaan • Käytettävyystestausryhmälle puolestaan annettiin kolmen tunnin koulutus, ja itse testi kesti kaksi tuntia • Ilmeisesti myös ohjeistojen ja kognitiivisen läpikäynnin ryhmät suorittivat testit yhdeltä istumalta; asiasta ei ole mainintaa • Yhdenmukaisuus puuttuu
Ennakkoluulot • Kun ongelmien vakavuutta arvioitiin asteikolla 1-9, arvioijille annettiin suoraan koehenkilöiden täyttämät lomakkeet, joten arvioijat tiesivät, mitä menetelmää käyttäneen ryhmän lomake oli kyseessä • Käytettävyystestauksen ongelmat määriteltiin muita vakavammiksi, ja Jeffries et al. myöntävät mahdollisen puolueellisuuden
Rakenteellinen pätevyys • Käytettävyysongelmia vain laskettiin, eikä samantyyppisiä ongelmia pyritty mitenkään luokittelemaan tai vertailemaan – eri menetelmien välinen suora vertailu olematonta • Mitään tietoa samojen ongelmien löytämisestä ei ole, joten esim. kognitiivisen läpikäynnin tulos ”tulokset verrattavissa ohjeistoihin” on hyvin harhaanjohtava
Ulkoinen pätevyys • Tutkimuksessa käytetyt metodit, ympäristöt, arvioijat ja osin jopa UEM:t muodostavat erikoislaatuisen yhdistelmän, jonka minkäänlainen yleistäminen muihin henkilöihin, paikkoihin tai variaatioihin on täysin mahdotonta
Johtopäätösten pätevyys • Jeffriesin et al. eräs tarkoitus oli määritellä, miten ammattitaito vaikuttaa suoritukseen, ja johtopäätöksissä todetaan, että ”heuristinen arviointi vaatii onnistuakseen useita käyttöliittymäammattilaisia” • Tutkimusta ei kuitenkaan suunniteltu tutkimaan tarpeellisten ihmisten tai vaadittavan tiedon ja osaamisen määrää, joten johtopäätös on hieman epäpätevä
Tutkimuksen arvioinnin yhteenveto • Jos kyseessä olisi case-tutkimus, siitä saisi huomattavilla muokkauksilla pienen esityksen siitä, miten Hewlett-Packard suunnittelee käytettävyysanalyysejä 80-luvun lopussa • Tämän sijasta tutkimus esitettiin neljän arviointimenetelmän kokeellisena vertailuna, jossa tehtiin liian rohkeita johtopäätöksiä • Etenkin UEM:ien välinen vertailu oli heikkoa tilastollisten puutteiden ja testiryhmien välisten suurten erojen vuoksi • Eri menetelmien vahvuuksien ja heikkouksien arviointi ylitti tutkimuksen rajat ja kyvyt
Gray & Salzman: mietteitä • Jeffries et al. ei suinkaan ole ainoa puolivillainen tutkimus alalla • Yksikään UEM ei luonnollisesti ole täydellinen, eikä käyttöliittymäongelmissa aina ole absoluuttista totuutta • Jos menetelmä A väittää tapauksen x olevan ongelma, mutta menetelmä B ei, kumpi on väärässä?
Gray & Salzman: parannusehdotuksia • Pitäisi kehittää yhtenäinen ja luultavasti teoriaperustainen luokittelutapa, jolla kohdatut ongelmat olisivat vertailukelpoisia järjestelmistä ja menetelmistä riippumatta • Tämä on tosin helpommin sanottu kuin tehty ja vaatii kenties liikaa arviointimenetelmiltä
Gray & Salzman: parannusehdotuksia • Monet huonojen tutkimusten ongelmat voisi välttää helposti • Riittävän suuret ja järkevästi valitut koehenkilöryhmät • Samat koeolosuhteet kaikille • Ei yritetä testata kaikkea mahdollista yhdessä kokeessa vaan keskitytään esim. vain kahden arviointimenetelmän käyttäytymiseen tietyssä tilanteessa
Mietteitä seminaarista • Jeffriesin et al. tutkimusta pidetään katastrofaalisuudestaan huolimatta alan merkittävimpiin kuuluvana • Annetut artikkelit jo sangen iäkkäitä; mikä mahtaa olla alan kokonaiskuva nykyisin? • Alkuperäinen suunnitelma oli verrata eri menetelmiä suoraan toisiinsa, mutta se osoittautui mahdottomaksi • Olisiko jokin toinen tutkimus sopinut paremmin yhteen muiden seminaariesitysten kanssa?
Mietteitä seminaarista • Gray & Salzman – Muiden tutkimusten teilaaminen on toki helpompaa kuin pätevän tekeminen itse • Testaus ylipäätäänkin vastenmielistä – pidetäänkö käyttöliittymätestausta tietojenkäsittelyn pohjasakkana?
Lähteet • Gray W. D., Salzman M. C., Damaged Merchandise? A Review of Experiments That Compare Usability Evaluation Methods. Human-Computer Interaction, 1998, Vol. 13, No. 3, s. 203-261. • Hartson H. R., Andre T. S., Williges R. C., Criteria for Evaluating Usability Evaluation Methods. International Journal of Human-Computer Interaction, Vol. 15, No. 1, 2003, s. 145-181. • Jeffries, R., Miller, J.R., Wharton, C., and Uyeda, K.M. (1991). User Interface Evaluation in the Real World: A Comparison of Four Techniques. Proc. ACM CHI'91 Conf. (New Orleans, LA, April 28 - May 2), 119-124.