100 likes | 212 Views
Adatértelmezés I. Task 1. Forrásadatok. rec_log_train.tx t 73 209 277 értékelés 1 392 873 distinct user 4710 distinct item 7.2% elfogadás user_profile.txt 2 320 894 distinct user Year-of-birth Gender Number-of-tweet Tag-Ids. Item.txt 6095 distinct item 4 szintű hierarchia
E N D
Adatértelmezés I. Task 1
Forrásadatok rec_log_train.txt • 73 209 277 értékelés • 1 392 873 distinct user • 4710 distinct item • 7.2% elfogadás user_profile.txt • 2 320 894 distinct user • Year-of-birth • Gender • Number-of-tweet • Tag-Ids Item.txt • 6095 distinct item • 4 szintű hierarchia A többi txt feldolgozása később
A 10 leggyakoribb hierarchia szint • A rekordok 58%-a innen jön • Kisebb kategóriáknál sem megy 20% felé az elfogadás • 339 különböző kategória • A hierarchiának 4 szintje van, de nem teljes
Rekordok userenként I. • A userek felének van 18 –nál kevesebb rekordja • Jellemzően hármas rekordok • A legtöbb adat egy ügyfélről 14 456
Rekordok userenként II. • A rekordszámban a kiugrások csak a kategóriaösszevonás miatt • Nem elég, hogy kevés a megfigyelés az ügyfelek jelentős részénél, de az adat is torz
Demográfia I. A férfiak szignifikánsan nagyobb arányban fogadnak el tartalmat
Demográfia II. Születési idő • Fiatal korfa • Első pillantásra nem ez lesz a legfontosabb attribútum
„Demográfia” III. • A kiugró rekordszámok csak a diszkretizálás miatt, amúgy lecsengő • A szélsőértékek (0, 1000+) alacsonyabb hajlandóságot mutatnak