1 / 31

Le rôle des mesures de similarité dans l'algorithme de Google

Le rôle des mesures de similarité dans l'algorithme de Google. SEO Camp BRUXELLES du 29 novembre 2008. Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp. L'association SEO Camp.

helga
Download Presentation

Le rôle des mesures de similarité dans l'algorithme de Google

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp

  2. L'association SEO Camp • Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 • Constituée en mars 2008 • Uniquement des membres personnes physiques • 85 cotisants – 225 sympathisants

  3. L'association SEO Camp : les membres • Amateurs passionnés par le référencement • Salariés d'agences spécialisées ou d'agences horizontales • Indépendants – free lance • Webmasters • Référenceurs in house

  4. L'association SEO Camp : les activités • Organiser des rencontres conviviales • "SEO Camp", Repas, Apéros SEO Camp

  5. L'association SEO Camp : les activités • Les évènements précédemment organisés • Paris • Toulouse • Marseille • Nantes

  6. L'association SEO Camp : l'emploi et la formation Matinales de l’APEC Etude sur l’emploi dans le référencement

  7. L'association SEO Camp : promotion de la profession Interventions dans les évènements destinés aux webmasters (salons emarketing, ecommerce) Articles dans la presse économique Projet de certification et de formation SEO Campus

  8. Algorithmes de classement :Les grands principes • La pertinence : notion fondamentale • La recherche full text à l’aide des opérateurs booléens • Comment classer les pages ? • Comment mesurer le poids des termes • 5. Utilisation d’une mesure de similarité : le poids des termes • 6. L’apport et le rôle exact du pagerank • 7. Conclusion

  9. La question de la pertinence

  10. La pertinence Une notion intimement liée au jugement de l’utilisateur Il existe un « socle commun » des critères d’appréciation de La pertinence

  11. Focus sur l'indexation

  12. La recherche "full text" • RECHERCHE CLASSIQUE • DANS UN INDEX INVERSE • Chercher dans l’index inversé : “extraction” • 1 0.66611 report • 1 0.71866 algebraic • 1 1.00000 international • 1 0.86409 preliminary • 1 0.40147 language • 2 0.47467 computers • 2 0.90061 repeated • 2 0.49718 digital • 2 0.66983 roots • 2 1.00000 subtractions • 2 0.84247 extraction • 3 0.51141 techniques Trouvé ici !Document numéro 2

  13. Comment classer les pages : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3

  14. Comment classer les pages : première idée AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE <TITLE> ... <H1><H2><strong> ... <TABLE><DIV> ... Alt, title, <a href>, anchor text proximité ...

  15. Comment classer les pages : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction 100 mots Extraction Extraction Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document

  16. Comment classer les pages : première idée Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 2 110 000 000 Combien de pages contiennent le mot clé globicéphale d’après Google ? 9 530

  17. Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent

  18. Le principe du Cosinus de Salton CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT tf*idf Exemple de formule réellement utilisée

  19. Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Globicéphale 1000 mots Densité 3 pour mille Densité 1 pour mille

  20. Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages DF[internet] = 2 x 10^9 / 20 x 10^9 = 0,1 DF[globicephale] = 10^4 / 20 x 10^9 = 5 x 10^-7

  21. Exemple de calcul sans et avec tf*idf (simplifié) Internet Internet Internet 1000 mots Globicéphale 1000 mots Index de Google 20 milliards de pages (?) 10^9 pages TF*iDF[globicephale] = 0,001/5 x 10^7= 2000 ! TF*iDF[internet] = 0,003 / 0,1 = 0,03 2000 >>>> 0,03

  22. Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable

  23. Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la qualité d’un moteur

  24. La recherche booléenne et ses défauts

  25. Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire

  26. Le principe du Cosinus de Salton • Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index

  27. Le principe du Cosinus de Salton • Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton

  28. Le principe du Cosinus de Salton • Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…

  29. Le principe du Cosinus de Salton

  30. Le principe du Cosinus de Salton En réalité, il y’a autant de dimensions que de “termes” C’est un espace à n dimensions

  31. Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête

More Related