290 likes | 426 Views
Parcours sur Internet analyse des traces d’usage. Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues. Plan de la présentation. Contexte
E N D
Parcours sur Internet analyse des traces d’usage Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues
Plan de la présentation • Contexte • Points méthodologiques • Données de cadrage sur l’utilisation d’Internet • Exemple 1 : Utilisation des moteurs de recherche • Exemple 2 : Segmentation des internautes • Perspectives
1. Contexte (1) Objectif global : Développer une expertise dans l'analyse des usages d ’Internet en croisant : • Recueil et analyse du trafic Internet • Qualification des pages vues • Enquêtes auprès des internautes • Entretiens/observations in situ • // études sur la sociabilité téléphonique menées dans le laboratoire UCE • Décomposer l’activité de l’utilisateur derrière son écran pour recomposer des profils d’utilisateurs Difficultés : Recueillir le trafic : sondes sur le réseau, sur le poste de l’utilisateur, cookies…? Qualifier les contenus vus : comment faire à partir d’une simple URL ? • identifier les types de services utilisés (communication, consultation, recherche, achat…(services utilisés, types de sites consultés) • Caractériser les pages visitées en terme de forme et de contenu : de quoi parlent les pages visitées, comment en parlent-t-elles ? Tenir compte de l’ensemble des protocoles : Web, mail, messageries instantanées, FTP, NNTP…
1. Contexte (2) • Partenariat entre France Télécom R&D, NetValue et HEC en 2000-2001 • Exploitation les données du panel NetValue France en 2000 : • Une cohorte tirée d’un échantillon représentatif (pas un échantillon « maison ») • des données sur une longue période (pas une enquête ponctuelle) • des données « trafic » sur tous les protocoles Internet (pas seulement le Web) • des informations sur le client (pas une approche site centric) • Méthodes de traitement mises au point à FT R&D • Catégoriser les services (outil &CatService) pour analyser les usages • Croiser analyse des usages et profil des utilisateurs • Articuler les résultats quantitatifs avec des vagues d’entretiens quali, qui permettent de donner sens aux observations • Analyse fine des usages et comportements sur Internet (portails, moteurs de recherche, sites marchands, pages personnelles, outils de communication) pour : • Apporter des éléments de compréhension sur les usages et leur évolution
2. Points méthodologiques • L’adresse d’un site est vide de sens => donner du sens aux URL • Catégoriser les URL qui correspondent à des services (&CatServices, H. Assadi) : • Moteurs, WebMail, services des principaux portails… • Analyser les contenus des pages vues (Beaudouin, Fleury, Habert, Illouz, Licoppe, Pasquier, 2001) • Exploiter les annuaires du Web (Beauvisage, Assadi, 2002) • Créer une notion de session Internet qui intègre tous les protocoles Internet • pouvoir comparer des activités aux temporalités différentes (chat et mail) • tenter de rendre compte de l’activité de l’utilisateur Session : suite d’activités sur le réseau sans interruption de plus de 30 minutes.
2. Point méthodologique : session Internet Ce panéliste entre 12h55 et 14h43 a fait du web, a utilisé le Messager et envoyé un mail : on voit à travers ce simple exemple comment sont entrelacés les usages. => l’intégration de l’ensemble des protocoles est indispensable pour comprendre les usages. | pan_id | date | type | proto | duree | +--------+---------------------+------+----------+-------+ | 18829 | 2000-06-24 12:31:45 | Web | http | 8 | | 18829 | 2000-06-24 12:31:53 | Web | http | 12 | | | 18829 | 2000-06-24 14:43:12 | Web | http | 10 | | 18829 | 2000-06-24 14:43:22 | Web | http | 12 | | 18829 | 2000-06-24 17:32:05 | Web | http | 24 | | 18829 | 2000-06-24 17:32:29 | Web | http | 283 | | 18829 | 2000-06-24 18:32:33 | Web | http | 7 | | 18829 | 2000-06-24 18:32:58 | Web | http | 4 | | 18829 | 2000-06-24 18:49:26 | Web | http | 5 | | 18829 | 2000-06-24 18:49:31 | Web | http | 13 | | 18829 | 2000-06-24 19:07:24 | Web | http | 6 | | 18829 | 2000-06-24 19:07:30 | Web | http | 11 | | pan_id | date | type | proto | duree | +--------+---------------------+------+----------+-------+ | 18829 | 2000-06-24 12:31:45 | Web | http | 8 | | 18829 | 2000-06-24 12:31:53 | Web | http | 12 | | 18829 | 2000-06-24 12:32:25 | Autre| Messager | 4 | | 18829 | 2000-06-24 12:33:20 | Autre| Messager | 1925 | ………………………………………… | 18829 | 2000-06-24 12:55:31 | Autre| Messager | 563 | | 18829 | 2000-06-24 13:02:52 | Autre| Messager | 10 | | 18829 | 2000-06-24 13:03:57 | Autre| Messager | 6 | | 18829 | 2000-06-24 14:42:58 | Mail | sendmail | 0 | | 18829 | 2000-06-24 14:43:12 | Web | http | 10 | | 18829 | 2000-06-24 14:43:22 | Web | http | 12 | | 18829 | 2000-06-24 14:43:56 | Autre| Messager | 4 | | 18829 | 2000-06-24 17:32:05 | Web | http | 24 | | 18829 | 2000-06-24 17:32:29 | Web | http | 283 | | 18829 | 2000-06-24 17:32:46 | Autre| Messager | 3 | | 18829 | 2000-06-24 17:33:24 | Autre| Messager | 105 | | 18829 | 2000-06-24 18:32:33 | Web | http | 7 | | 18829 | 2000-06-24 18:32:58 | Web | http | 4 | | 18829 | 2000-06-24 18:33:27 | Autre| Messager | 45 | | 18829 | 2000-06-24 18:36:09 | Mail | recvmail | 0 | | 18829 | 2000-06-24 18:38:51 | Autre| Messager | 607 | | 18829 | 2000-06-24 18:39:24 | Autre| Messager | 6 | …………………………………………………… | 18829 | 2000-06-24 18:48:40 | Autre| Messager | 4 | | 18829 | 2000-06-24 18:48:49 | Autre| Messager | 5 | | 18829 | 2000-06-24 18:49:26 | Web | http | 5 | | 18829 | 2000-06-24 18:49:31 | Web | http | 13 | | 18829 | 2000-06-24 18:50:04 | Autre| Messager | 4 | | 18829 | 2000-06-24 19:06:11 | Mail | sendmail | 0 | | 18829 | 2000-06-24 19:07:24 | Web | http | 6 | | 18829 | 2000-06-24 19:07:30 | Web | http | 11 | | 18829 | 2000-06-24 19:08:01 | Autre| Messager | 4 |
Le nombre de sessions Internet est stable au cours de l’année Le nombre d’internautes actifs diminue de mois en mois De 900 à 700 Le nombre moyen de sessions pour les internautes actifs progresse 5 sessions en moyenne par semaine contre moins de 4 en début d’année 3. Données de cadrage en 2000 Une distribution très inégale des usages d’Internet • 14% des internautes font 50% des sessions Deux trajectoires opposées : • les très faibles utilisateurs voient leurs usages décroître • Les forts utilisateurs progressent
Exemple 1 : Utilisation des moteurs de recherche • Usages des moteurs de recherche : une approche centrée utilisateurs Houssem Assadi, Valérie Beaudouin Plan • Etat de l’art • Spécificité de notre démarche • Terminologie et méthode • Identité des moteurs • Typologie des utilisateurs selon les thèmes de recherche • Typologie des internautes selon leurs profils de session • Évolution : diminution des usages des moteurs et complexification des requêtes
Etude des usages des moteurs de recherche : état de l’art • Instituts de mesure d’audience : • analyse globale des portails : pas de détail sur l’utilisation des différents services, dont le moteur de recherche • analyses mensuelles : pas d’évolution • Pas d’analyse du contenu des requêtes • Etudes centrées moteur (analyse des logs de serveurs) : • Analyse des requêtes adressées au moteur • Un moteur n’est pas représentatif de tous les moteurs • Aucune donnée sur les utilisateurs du moteur • Périodes d’observation courtes • Expérimentations de type psychologie cognitive : • Permet de comprendre la logique des stratégies de recherche • Sous-échantillons très atypiques (ex : étudiants en psycho) • Situations « artificielles » de recherche d’information : tâches pré-définies par l’expérimentateur
Notre approche • Cohorte représentative de la population connectée à Internet à domicile fin 1999 ; • Suivi des usages sur une année complète : permet de mesurer les évolutions ; • Prise en compte de l’ensemble des moteurs de recherche du marché ; • Description fine du profil des utilisateurs : données socio-démographiques et informations fines sur les pratiques d’Internet (calculées sur l’ensemble des données du panel) • Croisement entre des méthodes de statistique traditionnelle (utilisation des différents moteurs) et de statistique textuelle (analyse du contenu des requêtes) => caractérisation des classes de requêtes par le profil des utilisateurs… • Croisement avec entretiens qualitatifs pour susciter et valider des hypothèses
Identification des requêtes dans l’ensemble des pages Web visitées • Définitions : • Session : séquence d’URL visitées sans interruption de plus de 30 minutes • Requête : une suite de mots-clefs adressée par un internaute à un moteur au cour d’une session Internet • Pages réponse : pages de réponses renvoyées par le moteur et consultées par l’internaute pour une requête donnée • Mot-clef : « forme » au sens de la statistique textuelle (les opérateurs booléens ne sont pas considérés comme mots-clefs) • Opérateur : opérateurs utilisés dans la requête (and, or, +, -, …) • Reconnaissance des requêtes moteur et pré-traitements (logiciel &CatService) • Identification des URL correspondant à des requêtes (règles représentées sous forme d’expressions régulières) • Transcodage, reconnaissance des mots-clefs et des opérateurs Exemple : URL de départ : http://www.euroseek.net/query?ifl=uk&query=photoshop+AND+6+AND+t%E9l%E9charger&domain=world&domain=world&domain=world&lang=fr Requête transcodée : photoshop AND 6 AND télécharger Mots-clefs : photoshop 6 télécharger Opérateurs : AND (2)
Données de cadrage sur les moteurs • 29 moteurs de recherche différents ont été utilisés par les internautes en 2000 • 100 000 requêtes sur 7,5 millions de pages vues (1,5%) en 2000 • Mais 20% de sessions Web avec requête moteur (31873 sur 161000 sessions) • 230 000 pages de réponses consultées : pour une requête, en moyenne deux accès aux pages de résultats • Intensité d’usage des moteurs corrélée à intensité d’usage d’Internet (non utilisateurs : sur-représentation des femmes, des moins de 15 ans; forts utilisateurs : sur-représentation des hommes)
Identité des moteurs de recherche Extraction des mots clefs dans les requêtes Analyse avec les outils de statistique textuelle : Alceste et Lexico • Mots les plus fréquents (fréquence >150) dans les requêtes (hors mots grammaticaux): mp3, jeu, gratuit, com, sexe, paris, photo, carte, www, fr, nu, français, crack, video, sex, location, national, emploi, vente, pokemon, musique, annuaire, the, hotel<, histoire, immobilier, telephone, free, voyage, porte-avions, download, of, port+er, femme+, plan+, resultat+, recette+, informat+16, ecole+, eroti+, air+, telecom, driver, gite, image, lyon, gay, cours, logiciel, code, electif, voiture, universit, Rom, web, achat, marine, porno, chat, vacances, cinema, club+, petit+, dvd, gif, credit, site+, sncf, annonce+, caramail, star+, meteo, cd, automobile, formation, ecran, radio, tourisme, anpe, webcam, http, centre+, ministere, recherche, football, bac, nouvel+, game, page , ville, sport, travail, internet, fnac, clipart, warez, yahoo, social, lyric, concours, telecharger, prix, midi, genealogie, education, bourse, ile, jeune, programmer, cuisine.
Altavista : requêtes en anglais ; recherches informatique, musique, sexe et jeux / hommes, anciens internautes Wanadoo : confusion entre requête et adresses de sites / femmes, internautes récents Yahoo et Voilà : profils d’usage proches mixte entre requêtes « vie pratique » et « culture Internet » (Yahoo plus de jeunes et d’anciens internautes que Voilà) Voilà et Wanadoo : même moteur, profils d’usage différents La langue est un facteur de discrimination fort des thèmes de recherche : sexe, piratage, musique… mobilisent davantage l’anglais que la vie pratique. Positionnement des moteurs
Segmentation en fonction des thèmes de recherche • Classification des internautes en fonction des mots clés qu'ils utilisent dans leurs requêtes. • Deux grandes classes émergent : • Classe "culture Internet" • Thèmes de recherche : multimédia, sexe, jeux et piratage. • Caractéristiques socio-démo : homme, < 24ans, étudiant, pas de revenus. • Usages : Web++, mail+-. • Classe "il y a une vie en dehors du Net" • Thèmes de recherche : vie pratique, tourisme, actualités. • Caractéristiques socio-démo : femme, 50-64 ans, prof. inter., ruraux • Usages : Web++, mail++. • Non utilisateurs des moteurs : • femme, moins de 15 ans, sans profession.
Segmentation en fonction des thèmes de recherche (suite) • Analyse plus fine, 5 classes intéressantes parmi les utilisateurs de moteurs : • Multimédia : homme, 15-24ans, anciens internautes, région parisienne. Utilisateurs des outils de communication (chat, Messagerie instantanée) • jeux/piratage (chanson, vidéo, jeu, mp3, crack, unreal, windows) : homme, 15-24 ans, étudiant, pas de revenus, < 15 ans. Mail+, Web++ • Sexe (nu, porno, gratuit, photo, sexe, nude) : homme, < 24ans, étudiant, pas de revenus. Mail-, Web+ • Vie pratique/idées (voyage, fiscalité, santé, marketing, beauté, humour, mort) : femme, 25-34 ans, prof. interm. Mail++, Web++ • "fourre-tout" (pratique, hobbies, ...) : 50-64 ans, retraité, ruraux. Mail++, Web++ • Actualités/politique (noms de pays, régions, institutions, événements) : aggl. de 2000-20000 habitants, 35-49 ans. Mail++
Profil des sessions avec requête moteur • 20% des sessions Web avec au moins une requête moteur, parmi celles-ci : • 43% des sessions n’ont qu’une seule requête, 30% avec 2 ou 3. • 68% de sessions monomoteurs • 32% des sessions sont multimoteurs (avec 7, 5% de sessions avec un métamoteur)
Typologie des internautes selon leur profil de sessions (1) • Utilisateurs de Wanadoo et Voilà : accès récent à internet / profil classe moyenne / sur-représentation des femmes. • Utilisateurs de Yahoo : étudiants / parisiens et plutôt anciens internautes. • Utilisateurs d’Altavista : hommes et anciens internautes. • Utilisateurs d’un seul moteur moins connu : très faibles utilisateurs des moteurs. • Multimoteurs : profil moyen • Profils mixtes : intenses utilisateurs des moteurs / surtout des hommes, des parisiens, et d’anciens internautes. 2/3 des internautes ont principalement utilisé un seul moteur 1/3 utilisent plusieurs moteurs dans leur sessions et/ou ont testé beaucoup de moteurs dans l’année. Clef de lecture : Le groupe Wanadoo, 29% des internautes, a utilisé les moteurs Wanadoo ou Voila dans plus de 85% de leurs sessions.
Typologie des internautes selon leur profil de sessions (2) • L’intensification de l’usage des moteurs passe par une diversification des moteurs utilisés • Classe « autres moteurs » : 15 requêtes en moyenne (12% du 4ème quartile) contre 32 pour la classe « profil mixte » (34% du 4ème quartile) • Croisement entre les deux typologies des internautes (en fonction des thèmes de recherche et du profil des sessions) • Les utilisateurs de Voilà/Wanadoo font plutôt des recherches « vie pratique » • Les internautes « profils mixtes » et « multimoteurs » plutôt orientés vers requêtes « culture Internet »
Contexte Diminution de l’usage des moteurs Récents internautes : deux courbes d’apprentissage Pas de « décollage » de l’usage pour les faibles utilisateurs des moteurs Apprentissage rapide : profil similaire aux anciens internautes Évolution de la complexité des requêtes (1)
Évolution de la complexité des requêtes (2) • Longueur moyenne des requêtes : 1,88 mots-clefs • 87% des requêtes sans opérateurs booléens • 20% des faibles utilisateurs des moteurs (Q1) ont utilisé des opérateurs et ils en utilisent de moins en moins … • … alors que 90% des forts utilisateurs (Q4) en utilisent et en utilisent de plus en plus • Deux trajectoires d’apprentissage opposées
Conclusion et perspectives • Meilleure connaissance sur les usages d’un des services phare d’Internet • Photographie d’une année d’utilisation des moteurs par un groupe représentatif • Chaque moteur a une identité propre • Les utilisateurs repèrent ces identités et choisissent leur moteur en fonction de leur recherche • L’utilisation avancée (=intense) des moteurs passe par l’exploration et la comparaison de l’offre et par l’utilisation des opérateurs booléens • Poursuivre sur les données NetValue 2001 l’analyse des usages • Effets de Google sur les usages (la diminution des usages des moteurs se maintient-elle ?) • Analyser les parcours avec requête moteur • Mener des entretiens qualitatifs et observation in situ pour comprendre la logique des usages
5. Exemple 2 : Segmentation des internautes • Identifier la diversité des pratiques des internautes en tenant compte de la diversité des protocoles utilisés Services retenus : • Web • Moteurs de recherche • Messagerie électronique classique ou via le Web (WebMail) • Chat • Messagerie Instantanée • Forum
Utilisation des différents services • Web et mail sont utilisés par tous les internautes. • Chat, Messagerie instantanées et forums ne sont utilisés que par un quart des internautes. • La durée des sessions varie considérablement selon service utilisés. • Le mail classique se pratique plutôt en mode déconnecté contrairement au chat qui implique une co-présence, donc connexion
Construire une typologie des internautes • Définir un ensemble de services, protocoles • Profil des sessions (présence/absence d’un service) • Profil des internautes (part des sessions avec accès au service • Analyse factorielle et classification ascendante hiérarchique Sept groupes d’internautes
46% des internautes 15% des sessions Information Communication sessions avec entrelacement de services (26% web-mail-IM) 15-24 ans Segmentation des internautes 54% des internautes, 85% des sessions WWW
Une pluralité de profils • Les faibles utilisateurs du Web vs les utilisateurs intensifs • Faibles utilisateurs ont peu de contacts, or les liens ancrent les usages d’Internet • Les internautes « chercheurs » vs les internautes « communicants » Les internautes « communicants » • Utilisateurs du mail (milieu aisé) vs utilisateurs du chat et messageries instantanée (milieu modeste) : importance de l’opposition entre les modes « conversationnel » et « connecté » (Licoppe) • 15-24 ans : habileté à entrelacer usages du Web, du mail et des messageries instantanées (26% des sessions)
Typologie et caractéristiques socio-démographiques • Trois groupes de forts utilisateurs (53% des internautes, 85% des sessions) Utilisateurs intensifs du Web Groupe “Courrier” : utilisation du mail classique ou WebMail Groupe “Conversation” : utilisation du Web, du mail et des messageries instantanées ou chat • Femmes et jeunes : fortement impliqués dans pratiques de communication, jeunes surtout dans chat et messageries instantanées • Avec l’âge : glissement de la communication vers la recherche d’information • Cadres et PIS : rejet des pratiques de conversation sur internet, au bénéfice du courrier (attachement au contenu, à la forme)
6. Prolongement : SensNet • SensNet : catégoriser les usages et les parcours sur Internet • Projet RNRT • Partenaires : FT R&D, NetValue, LIMSI, Paris III • Mettre en place d’un système de catégorisation sémantique des usages et des parcours sur Internet qui tienne compte : • de la diversité des types d’activité possibles sur Internet (communiquer, rechercher de l’information, consulter, acheter) => crucial pour des sites portails qui agrègent une grande diversité de services • de la dimension hypermédia d’internet : tenir compte de l’organisation formelle des documents, de la structure hypertextuelle, des medias autres que le texte=> l’organisation formelle des documents informe sur les contenus • de laproduction et de la réception dans l’analyse des pages vues : • la page est une composante d’un site qui révèle le projet de son concepteur • la page s’inscrit dans un parcours d’utilisateur qui révèle sa logique de navigation • Rencontrer les internautes pour comprendre la logique de leurs parcours • pour aboutir à des segmentations fines des internautes sur la base de leurs parcours