610 likes | 736 Views
Analyse statistique : pour faire de son site un hit !. données, statistiques et analyse. Diverses problématiques. Ressources différentes Environnements divers Objectifs multiples Un point en commun. Pas de recette miracle. S ’aider de méthodes éprouvées. L’intention de cet exposé.
E N D
Analyse statistique : pour faire de son site un hit ! données, statistiques et analyse
Diverses problématiques • Ressources différentes • Environnements divers • Objectifs multiples • Un point en commun
Pas de recette miracle • S ’aider de méthodes éprouvées
L’intention de cet exposé • Réduire les efforts et mesurer le succès en s’aidant des fichiers journaux (logs) • Faciliter l ’analyse
Structure de la présentation • Les fichiers journaux (logs) • Les statistiques • L'analyse
L'enregistrement de l'activité • Le serveur enregistre le tout sur un fichier (habituellement un .txt ou un .log)
Un fichier journal (log) • 206.135.203.174 - - [19/Jul/1999:00:00:04 -0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)"
206.135.203.174 - - [19/Jul/1999:00:00:04 -0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" • Le nom d’hôte du serveur distant ou son DNS • Le rfc931 (ou User Logname), soit le nom d’utilisateur du visiteur (remplacé par un – si non disponible) • Le nom d’utilisateur (ou Authenticated User) que l’internaute s’est donné lui-même (remplacé par un – si non disponible) • La date et le moment exact de la visite • La différence en rapport avec l’heure de Greenwich (GMT) • L’action exécutée (i.e Get ou Send) • Le “ URI Stern ” (Universal Ressources Identifier) soit ici l’objet associé à l’action • Les paramètres utilisés par l’objet ou le “ URI Query ”
206.135.203.174 - - [19/Jul/1999:00:00:04 -0600] "GET /studio/drives.html HTTP/1.1" 200 20607 "http://www.webdevelopers.com/" "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" • La réponse du serveur (Status Code ou Return Code) • La quantité de données transférées au serveur distant pour accomplir l’opération (en bytes) • Le référenceur ou le référant (Referrer) • La version du protocole HTML utilisée • Le fureteur utilisé • Le système d’exploitation, la plate-forme
De gros fichiers • Le fichier produit par l’enregistrement des données d’une semaine pour le site csst.qc.ca fait 75 megs environ • Des besoins en espace disque sur le serveur peuvent se faire sentir • Cela peut occasionner des frais • Sortir, faire circuler les données plutôt que de laisser les fichiers sur le serveur • Selon la configuration du serveur, les fichiers peuvent être effacés • Il ne faut pas prendre de risque, il est primordial de ne jamais perdre ces données
Automatisation des opérations • Envoyer automatiquement par le serveur un courriel avec le fichier et selon un calendrier • Une personne reçoit l’information et transfert ensuite les données vers un lieu de stockage permanent • On configure ensuite le serveur pour qu’il purge les fichiers sur son disque après un certain temps
La logistique entourant les fichiers journaux • Tout manquement, altération, perte peut avoir des conséquences importantes sur le reste des opérations • Comme d’habitude, le mois perdu est toujours le plus important
Considérer les caractéristiques du ou des systèmes • Ils ne sont pas tous configurés de la même façon • Connaître l’emplacement des fichiers journaux • Contrôler la qualité pour une approche plus précise et solide
Tirer le maximum des fichiers journaux • Obtenir des moyennes, des tableaux, des graphiques • Comparer les variables • Étendre la comparaison sur une période de temps • L ’outil statistique: une nécessité • Déterminer la fréquence de saisie
Retenir que • Le fichier journal est pratiquement la seule façon de voir ce qui se passe sur le site • Permet de faire l ’archivage et l ’historique du site • Permet de retracer un individu indésirable • Permet de comprendre un mauvais fonctionnement • Permet de planifier des développements • Permet de déterminer les activités et certaines caractéristiques des usagers
Définir le parcours des données provenant du logs • Les données sont filtrées • La réception des données par les intervenants • Le traitement des données
Description des statistiques • Prudence avec les hits
Pages populaires • Peut-être le thème le plus intéressant • Nombre de hits qu’une page reçoit • Habituellement la page d’accueil se trouve en haut de la liste
Pages (suite) • Définir page Web (HTML, HTM, XML, PHP etc.) • Quoi faire avec les autres objets • Se faire une idée générale
Pages (suite) • Ne pas sauter aux conclusions trop rapidement : • Plusieurs liens vers la page ou liens importants • Qualité de l'indexation • Regarder attentivement les raisons expliquant la popularité d’une page avant de passer aux interprétations • Deux utilisations évidentes possibles
Pages (suite) : • La page la moins populaire • Page d’entrée • Page de sortie • Page à accès unique
Code de réponse • Un message d'erreur est toujours grave • Chaque fois qu ’un visiteur se trouve devant un message d’erreur, il ne trouve pas ce qu’il veut ou il quitte le site. • Pour certains, cela signifie de l’argent en moins, pour d’autres des clients insatisfaits. • Connaître les erreurs ou les codes de réponse est facile avec un outil statistique.
Pays les plus actifs • Selon les besoins, cette information peut-être très utile • Pour connaître la visibilité internationale • Pour voir s’il y a lieu d’indexer son site dans les moteurs de recherche nationaux ou régionaux
Serveur ou hôte d’origine • Numéro IP ou DNS • Fournisseurs Internet • L'usager principal est-il humain ? • Systématisation de l'analyse de ces statistiques.
Fureteur et système d’exploitation • Le niveau “ techno ” des utilisateurs • Deux implications importantes • Vieux fureteurs • Dernières versions
Référenceurs • D’où les utilisateurs viennent • Les deux premières sources de trafic • Moteurs de recherche • Liens existant sur d’autres sites
Mots de la recherche • Quels mots les gens utilisent pour nous trouver • Utilisons-nous bien ces mots ?
Visites • Une visite par entrée sur le site • Durée X avant de compter une autre visite pour le même IP • Problèmes liés à cette statistique
Sessions • Les activités de l’utilisateur durant une seule visite • La durée et le parcours de l’utilisateur • La démonstration des qualités ou des défauts de la structure du site • Il ne s’agit pas de cookies
D'autres statistiques • Reconnaissance des robots • Erreurs du fureteur • Analyse du proxy • Analyse du Firewall
Les variations dans les statistiques • La mise en commun de statistiques peut en créer de nouvelles • Pages accédées par kilo octets • Accès simultané maximum • Moyennes par jour, par mois, par heure, etc.
Choisir un outil statistique • Les utilisateurs • Les facteurs déterminants • Quelques exemples d'outils
Marketing (utilisateurs) • Utilisation générale du site • Vendre le site • Qui vient sur le site • Sections ou pages populaires
Architecte (utilisateurs) • Pour déterminer les opérations faites par l’utilisateur sur le site et la fréquence de ces opérations
Designer (utilisateurs) • L ’utilisation spécifique du site • Circulation sur le site • Organisation de l’information • Présentation de l’information
Développeur (utilisateurs) • Performance du système • Les moyennes et les capacités du système
Ingénieur (utilisateurs) • Messages d’erreurs et avertissements
Facteurs déterminants pour le choix d'un outil • Environnement de travail • Capacité de manipuler de gros fichiers • Personnalisation • Temps pour produire un rapport • Accessibilité • Automatisation • Alarmes • Format • Facilité d’usage
Les outils statistiques • Approches • HitBox Pro • Site Server 3 • WebTrends
HitBox Pro de WebSideStory • Plus que le simple outil statistique de base • Il faut payer pour avoir la version complète • Quelques codes et HitBox s’occupe du reste • Avantages du modèle "service" • Statistiques, tableaux et aide • Peu de contrôle sur les configurations • Particularités • Une bonne alternative
Site Server 3 de Microsoft • Le haut du pavé • Innombrables fonctions • Statistiques complètes • Configuration difficile et gestion complexe au départ • Des “ DNS lookups ” de première classe • Et plus au sujet des DNS • Pas de rapport “ intelligent ” sur les erreurs • Excellent produit…
WebTrends Log Analyzer • Outil le plus connu • Puissance brute, contrôle et présentation • Interface simple et configurable • Différents formats • Aide complète • Outil par excellence
Spécificité de l’analyse statistique informatisée • Codification automatique • Calculs mathématiques automatiques • L’analyse peut débuter plus rapidement…
Le contexte • Compétences de l’équipe • Faisabilité de l’analyse • Modes • Besoins de l’organisation et de la clientèle • Intérêt de l’organisation • Familiarité avec le domaine de recherche
La problématique • En quoi la résolution de la problématique du site sera utile ? • Quelles lacunes faut-il combler et pourquoi ? • À quel besoin cela répond ? • Définir une problématique
Formuler des questions ou des hypothèses • Faire des liens entre des variables vérifiables et mesurables • Formuler des hypothèses ou des questions • Par extension, prévoir la relation entre des faits et des événements • À faire dès le début
Aperçu de l’analyse statistique de données quantitatives • La tendance centrale • L'étendue et l'écart type • La courbe de distribution • Les corrélations
La tendance centrale • Déterminer ce qui est typique dans la clientèle • Établir une médiane • Connaître le mode • Indices sur la tendance centrale de l’activité
L’étendue et l’écart type • A quel point les individus formant la clientèle du site diffèrent les uns des autres par rapport à une caractéristique donnée • Exemple portant sur la longueur des sessions
Courbe de distribution • En fonction de la variable mesurée on peut vouloir connaître le mode de distribution des individus