1 / 32

theses.fr tutoriel

theses.fr tutoriel. Isabelle Mauger Perez et Aurélien Charot , ABES. theses.fr : des données, une interface, des services. Une application en production depuis le 11 juillet 2011. Que trouve-t-on aujourd’hui dans theses.fr ?. Toutes les données validées dans STAR

sonja
Download Presentation

theses.fr tutoriel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. theses.frtutoriel Isabelle Mauger Perez et Aurélien Charot, ABES Journées ABES – 20 juin 2012

  2. theses.fr : des données, une interface, des services Une application en production depuis le 11 juillet 2011

  3. Que trouve-t-on aujourd’huidans theses.fr ? • Toutes les données validées dans STAR • Description de 11 397 thèses soutenues à partir de 2006 • Indexation du texte intégral • Accès au texte intégral dans 70% des cas (8 019 thèses) • Toutes les données de STEP lorsqu’une certaine finesse de description est atteinte • Description de 64 812 thèses en préparation depuis 2002 • 131 335 personnes • Une base de données de personnes qualifiées par les thèses qui leur sont liées • Exemple : jazz Brésil

  4. Les pages « finales » • Les pages de thèses soutenues • Les pages de thèses en préparation • sous réserve d’un lien IdRef-autorités Sudoc, • Les pages de personnes • Les pages d’organismes

  5. Les pages « finales » • Les pages de thèses soutenues • Les pages de thèses en préparation • sous réserve d’un lien IdRef-autorités Sudoc, • Les pages de personnes • Les pages d’organismes http://www.theses.fr/2011REN20056

  6. Les pages « finales » http://www.theses.fr/s57810 • Les pages de thèses soutenues • Les pages de thèses en préparation • sous réserve d’un lien IdRef-autorités Sudoc, • Les pages de personnes • Les pages d’organismes http://www.theses.fr/2011REN20056

  7. Les pages « finales » http://www.theses.fr/s57810 • Les pages de thèses soutenues • Les pages de thèses en préparation • sous réserve d’un lien IdRef-autorités Sudoc, • Les pages de personnes • Les pages d’organismes http://www.theses.fr/2011REN20056 http://www.theses.fr/154887528

  8. http://www.theses.fr/ 079486304

  9. Les trois onglets de recherche • Toutes les thèses • Deux restrictions possibles : • uniquement les thèses soutenues • uniquement les thèses soutenues accessibles en ligne • Thèses en préparation • Restriction possible : uniquement les thèses en préparation dont la soutenance est prévue dans les 6 prochains mois • Personnes : docteurs, directeurs de thèse, membres du jury • Restriction possible : uniquement les personnes en lien avec une thèse soutenue ou en préparation depuis moins de 5 ans

  10. Au choix de l’utilisateur • Consultation par l’encart de recherche • Requête sur les métadonnées et le texte intégral • Consultation par l’encart de recherche puis raffinement par utilisation des facettes date de soutenance, établissement discipline, école doctorale, langue de la thèse, directeur de thèse, domaine • Consultation par navigation pure via les facettes

  11. Page d’accueil : www.theses.fr

  12. Page de résultats obtenue après utilisation de l’encart de recherche

  13. Page de résultats obtenue après raffinement par la facette Etablissement

  14. Page de la thèse soutenue obtenue en cliquant sur le titre

  15. Page d’un organisme obtenue en cliquant sur le nom de l’organisme

  16. Page de la thèse en préparation obtenue en cliquant sur le titre

  17. Page d’une personne obtenue en cliquant sur le nom de la personne

  18. Les services • Rebonds vers des applications du web 2.0 via AddThis • Recommandations • des flux ATOM par défaut • thèses soutenues récemment, • soutenues récemment accessibles en ligne, • nouvelles thèses en préparation, • annonces de soutenance • et des flux personnalisables : flux de recherche • Zotero • format txt • format csv • formats « machines »

  19. Un service particulier : • Rendre possible un cercle vertueux : l’utilisateur entre en contact avec le producteur pour signaler une erreur • Depuis avril 2012 • Mailau correspondant STEP ou au correspondant STAR

  20. Les données brutes • Ouvertes, réutilisables via une API. • pour une liste de résultats : ajouter &format=xmlou &format=jsonou &format=atomou &format=csv ou &format=txten paramètre de l’url de recherche • pour une page finale : ajouter .xml(ou .rdf) à l’url de la page • Ce principe permet d’ajouter autant de formats que nécessaire. • Exemple : récupérer la description de la thèse 2010MON30067 • dans l’interface • en rdf/xml • Exemple : récupérer la liste de toutes les thèses soutenues à Toulouse 2 et accessibles en ligne dans l’ED Science du langage. • dans l’interface • en xml (solr) • en json

  21. theses.fr et Google • Description de toutes les pages de theses.fr dans un fichier sitemap pour faciliter l’indexation des robots • 77% du trafic provient des moteurs de recherche

  22. Quelques chiffres

  23. Plus de détails • Le cercle vertueux de theses.fr : mise en relation de l’utilisateur et du producteur de données, Punktokomo, 10 avril 2012 • theses.fr : comment fonctionne l’onglet « personnes » ?, Punktokomo ,19 janvier 2012 • theses.fr : l’API XML de recherche, Punktokomo, 22 juillet 2011 • theses.fr : l’API XML des personnes, Punktokomo, 12 juillet 2011 • theses.fr : l’API XML des thèses, Punktokomo , 12 juillet 2011 • theses.fr : les technologies utilisées, Punktokomo, 12 juillet 2011

  24. theses.fr : les prochains développements Un projet dotÉ de moyens spécifiques jusqu’a fin 2012

  25. Quelles fonctionnalités demain dans theses.fr ? (1) • Une interface en trois langues • Français, anglais, italien • Un module de recherche avancée • exclure la recherche dans le texte intégral • ne pas tenir compte de la pertinence définie par défaut (pondération des index) • faciliter la recherche exacte • Calendrier : fin septembre 2012

  26. Quelles fonctionnalités demain dans theses.fr ? (2) • Des services accessibles sur authentification • paniers • alerte mail • … • Des services spécifiques pour les personnes reconnues comme étant l’auteur d’une thèse • mise en relation : être contacté via theses.fr • accès aux statistiques de sa page de thèse • … • Impossibilité d’offrir de tels services pour les directeurs de thèse • Calendrier : fin 2012

  27. Que trouvera-t-on demaindans theses.fr ? (1) • Toutes les données du Sudocrelatives aux thèses de doctorat françaises soutenues depuis 1985 • Toutes ? Non. Celles qui passent avec succès l’algorithme de chargement qui a pour but de les « FRBriser ». • Regroupement des notices Sudoc en familles composées de : • la notice mère (la notice de la thèse originelle telle que validée par le jury : zone 105$m) • Éventuellement, les notices enfants (les notices de reproduction : zone 105$bv) • Chaque famille aura une page propre : www.theses.fr/NNT • Conséquence pour theses.fr : recherche de l’exhaustivité depuis 1985. • Calendrier : fin septembre 2012.

  28. Que trouvera-t-on demaindans theses.fr ? (2) • Toutes les données de TEL et l’indexation du texte intégral sous réserve que le lien à la thèse originelle ait été trouvé. • Principe : chargement de toutes les données de TEL dans le Sudoc par moissonnage oai-pmh de TEL. • Création de notices probablement assez pauvres (pas de liens IdRef) mais avec l’accès au texte intégral. • Algorithme « FRBrisateur » de chargement dans theses.fr • Si la notice mère est trouvée, ajout dans theses.fr de l’accès au texte intégral • Conséquence pour theses.fr : faciliter l’accès au texte intégral sur le web • Calendrier : fin 2012

  29. Que trouvera-t-on demaindans theses.fr ? (3) • Des liens vers le catalogue des « thèses à la carte » de l’ANRT de Lille • Principe : envoi régulier (mensuel ?) de la liste de NNT disponibles dans « thèses à la carte ». • Conséquence pour theses.fr : faciliter l’accès au texte intégral avec la possibilité de commander un fac-similé de la thèse. • Calendrier : soumis aux contraintes de l’ANRT, sans doute fin 2012.

  30. Que trouvera-t-on demaindans theses.fr ? (4) • Les données de Thésapour les thèses en préparation au sein d’établissements relevant de la CGE et non utilisateurs de STEP. • Principe : envoi régulier (mensuel ?) des données par l’INIST. • Conséquence pour theses.fr : recenser toutes les thèses en préparation • Calendrier : soumis aux contraintes de l’INIST, sans doute fin 2012.

  31. Que trouvera-t-on demaindans theses.fr ? (5) • Des liens vers les données non-documentaires issus des partenaires associatifs du projet : Intelli’Agence-ABG par exemple. • Cvthèque • Offres d’emploi • … • Conséquence pour theses.fr : servir les docteurs et les doctorants au-delà de leur travail académique • Calendrier : soumis aux contraintes de l’ Intelli’Agence-ABG, sans doute fin 2012.

  32. Journées ABES – 20 juin 2012

More Related