1 / 72

Les trois applications du projet portail des thèses

Les trois applications du projet portail des thèses. Equipe Portail des thèses - ABES. Le projet Portail des thèses. Rapport du comité Information Scientifique et Technique présidé par Jean Salençon (mai 2008)

starbuck
Download Presentation

Les trois applications du projet portail des thèses

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les trois applications du projet portail des thèses Equipe Portail des thèses - ABES Journées ABES - 17 mai 2011

  2. Le projet Portail des thèses • Rapport du comité Information Scientifique et Technique présidé par Jean Salençon (mai 2008) • Rapport final du groupe de travail FutuRIS Entreprise et recherche publique : développer les synergies, « Adéquation public - privé », Avril 2008 présidé par Germain Sanz (avril 2008) • L’accès aux thèses françaises, en cours et soutenues, est très difficile. L’absence de guichet unique nuit : • au monde académique • et au monde économique • Fin 2008, commande du Ministère (MISTRD) à l’ABES Journées ABES - 17 mai 2011

  3. Les principes directeurs • Exhaustivité: toutes les thèses françaises de doctorat • Validation: des données validées par l’établissement de soutenance • Actualité : des données à jour • Utilité : des services autour des données • Réutilisation : des données ouvertes • Ubiquité : des données pour le web Journées ABES - 17 mai 2011

  4. La structure du projet • Un comité de pilotage qui réunit des acteurs des thèses en France • administration centrale ( MISTRD, DGESIP, DGRI) • Conférence des Présidents d’Université et Conférence des Grandes Ecoles • représentants des formations doctorales dans les établissements habilités • représentants de la recherche privée et du monde économique • opérateurs documentaires nationaux des thèses (CNRS-INIST, Atelier national de reproduction des thèses, CINES) • des représentants d’associations : Intelli’agence (ex-Association Bernard Gregory), ADBU, AURA. Toutes les décisions du comité de pilotage ont fait l’objet de compte-rendus sur le blog de l’ABES : Fil ABES, thème Portail des thèses Journées ABES - 17 mai 2011

  5. Le périmètre du projet • Toutes les thèses de doctorat(mais uniquement les thèses de doctorat) • En préparation en France • Soutenues en France • Quel que soit le type de dépôt • Quel que soit le support matériel • Toutes les personnes et tous les organismes liés à ces thèses Journées ABES - 17 mai 2011

  6. Calendrier du projet • 2010 : • Hébergement du Fichier central des thèses • Refonte de STAR • 2011 : • Une application professionnelle pour les thèses en préparation • Un moteur de recherche pour les thèses de STAR • Le chargement des données de Thésa • Un moteur de recherche pour les thèses en préparation • « FRBrisation » et moteur de recherche pour les thèses du Sudoc • 2012 : • Amélioration du moteur de recherche • Lien vers les thèses en ligne externes : TEL et archives institutionnelles • Lien vers les données des partenaires : Intelli’Agence, ANRT..

  7. Les applications relatives aux thèses et gérées par l’ABES de 2000 à 2006 PUBLIC Interface de consultation PROFESIONNEL Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses

  8. Les applications relatives aux thèses et gérées par l’ABES fin 2006 PUBLIC Interface de consultation PROFESIONNEL Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Gestion professionnelle des thèses soutenues sur support électronique

  9. Les applications relatives aux thèses et gérées par l’ABES en 2010 PUBLIC Interface de consultation des thèses en préparation Interface de consultation PROFESIONNEL Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Gestion professionnelle des thèses en préparation Gestion professionnelle des thèses soutenues sur support électronique

  10. Les applications relatives aux thèses et gérées par l’ABES courant 2011 PUBLIC Moteur de recherche pour toutes les thèses françaises Interface de consultation PROFESIONNEL Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses Gestion professionnelle des thèses en préparation Gestion professionnelle des thèses soutenues sur support électronique

  11. Les trois applications du projet Portail des thèses Moteur de recherche pour toutes les thèses françaises Gestion professionnelle des thèses soutenues sur support électronique Gestion professionnelle des thèses en préparation

  12. I. Les thèses en préparation Journées ABES - 17 mai 2011

  13. Plan • Le FCT aujourd’hui • Les remplaçants du FCT : STEP et theses.fr • Le workflow de STEP • Les flux des données de STEP • La structure et la migration des données du FCT vers STEP • Le calendrier Journées ABES - 17 mai 2011

  14. 1. Deux fichiers nationaux de thèses en cours • Le Fichier Central des Thèses (FCT) géré par l’ABES depuis le 1er janvier 2010 • Constitué selon un axe disciplinaire, il concerne les thèses de lettres, de sciences humaines et sociales • Thésa, le portail des Thèses de doctorat en cours dans les Grandes Ecoles de la CGE, géré par l’INIST et la CGE • Fédère les thèses des établissements d’un type particulier : les Grandes Ecoles Journées ABES - 17 mai 2011

  15. 1. Le réseau FCT • En 2010, 92 établissements sont des partenaires actifs du FCT • 165 personnes, travaillant au sein des services de scolarité et les écoles doctorales, saisissent et mettent à jour les données relatives aux thèses en cours de leur établissement Journées ABES - 17 mai 2011

  16. 1. Les statistiques en 2010 • En 2010, 8671 sujets de thèses en cours ont été signalés et 11498 mis à jour • Aujourd’hui, environ 73 000 thèses sont signalées comme en cours dans le Fichier Central des Thèses (2001-2011) Journées ABES - 17 mai 2011

  17. 2. Deux nouvelles applications pour le signalement des thèses en cours • L’interface actuelle du Fichier Central des Thèses va disparaître. • Une application professionnelle va le remplacer -> STEP (signalement des thèses en préparation) • Le périmètre va être étendu à toutes les disciplines • Une interface publique va permettre la visualisation des thèses en préparation issues de STEP -> theses.fr (périmètre des thèses en préparation) • Les données de Thésa y seront accessibles Journées ABES - 17 mai 2011

  18. 2. Zoom sur STEP STEP signalement des thèses en préparation http://step.theses.fr Une application jumelle de STAR pour : • Saisir les métadonnées de description des thèses en préparation • Importer ces métadonnées depuis les applications locales de gestion des doctorants • Exporter ces métadonnées Journées ABES - 17 mai 2011

  19. 3. Le workflow dans l’éditeur de métadonnées de STEP Créé la fiche • Doit saisir : • l’identité du doctorant • la date d’inscription dans l’établissement Etablissement de soutenance Initialisation du workflow par l’établissement

  20. Doctorant • Doit saisir : • le directeur de thèse • le titre du projet • l’école doctorale • Peut saisir plus Visible dans Thèses en préparation Doit compléter la fiche • Peut saisir : • la description du projet • les mots-clés Peut compléter la fiche Etablissement de soutenance Visibilité selon la complétude des métadonnées

  21. Peut saisir un indicateur d’invisibilité Visible dans Thèses en préparation Peut mettre à jour Etablissement de soutenance Rendre invisible

  22. Doit saisir : La date de soutenance Visible dans Toutes les thèses Doit mettre à jour Etablissement de soutenance Fin du workflow : la soutenance

  23. Doctorant • Doit saisir : • La date d’abandon Doit mettre à jour • Peut saisir : • La date d’abandon Peut mettre à jour Etablissement de soutenance Fin du workflow : l’abandon

  24. 4. STEP : les flux de données en amont • En amont, STEP pourra être alimenté par les établissements par export des données présentes dans leur logiciel de gestion administrative des doctorants. • Le cas APOGEE : partenariat avec l’AMUE pour que le module Thèses d’APOGEE (2012) soit nativement interconnecté avec STEP. Processus de création dans STEP

  25. 4. STEP : les flux de données en aval • Les données de STEP seront visibles dans le périmètre « thèses en préparation » de theses.fr • STEP sera connecté à STAR • STEP interrogera régulièrement le Sudoc pour vérifier qu’une thèse en préparation n’est pas soutenue Journées ABES - 17 mai 2011

  26. Si l’établissement est en production dans STAR, Lorsque la date de soutenance est saisie dans STEP : - push vers STAR en cycle dépôt national statut « à traiter », - statut soutenu dans STEP. Périmètre « thèses en préparation » Processus d’alimentation de STAR

  27. Lorsque la thèse soutenue est traitée dans STAR - alerte de STAR : statut thèse dans STEP - visibilité dans les thèses de theses.fr. Périmètre « thèses en préparation » Puis périmètre « toutes les thèses » Processus de mise à jour de STEP par interrogation de STAR et d’alimentation de theses.fr par STAR

  28. Si l’établissement n’est pas en production dans STAR, lorsque la date de soutenance est saisie dans STEP , requête régulière du Sudoc pour savoir si la thèse soutenue existe dans le Sudoc. Si oui, - visibilité dans les thèses de theses.fr - et statut thèse dans STEP. Périmètre « thèses en préparation » Puis périmètre « toutes les thèses » Processus de mise à jour de STEP par interrogation du Sudoc

  29. 5. Transformer et enrichir les données du FCT • Les données du FCT sont aujourd’hui stockées dans une base relationnelle traditionnelle. • Chaque thèse sera convertie en un fichier XML fortement inspiré du modèle de données TEF. • Les données issues du FCT vont être enrichies avant la migration dans STEP : • Lien entre les directeurs de thèses en préparation et les autorités personnes physiques (PPN) via le WS d'IdRef • Lien entre les établissement du FCT et les autorités collectivités (PPN) • Attribution à chaque thèse en préparation d’un code de domaine basé sur la classification Dewey (« oaiset », déjà utilisé dans STAR) Journées ABES - 17 mai 2011

  30. 5. Migration des données • Seules les thèses en préparation depuis moins de 10 ans seront migrées dans STEP (décision du comité de pilotage du Portail des Thèses) • A l’avenir, les thèses en préparation depuis plus de 10 ans seront automatiquement supprimées de STEP • Pour les 70 000 thèses en préparation (2001-2011) à migrer, la qualité des données a été expertisée et est en cours d’amélioration : • Traitement des doublons en collaboration avec les établissements • Comparaison entre les thèses en préparation du FCT et les thèses soutenues signalées dans le SUDOC • Subsiste le problème des thèses abandonnées pour lesquelles seul l’établissement possède l’information Journées ABES - 17 mai 2011

  31. 6. Calendrier du sous-projet • Septembre 2011 : • arrêt de l’interface professionnelle du FCT • Migration des données dans STEP et dans theses.fr • Arrêt de l’interface publique du FCT • Ouverture du périmètre « thèses en préparation » dans theses.fr • Fin septembre 2011 : ouverture de STEP Journées ABES - 17 mai 2011

  32. II. Un moteur de recherche pour les thèses françaises Journées ABES - 17 mai 2011

  33. Plan • Présentation de l’application et démonstration • Point technique • L’application • Les données • L’indexation et la recherche • Les principaux problèmes rencontrés • La plateforme de production • Les données disponibles à l’ouverture de theses.fr Journées ABES - 17 mai 2011

  34. 1. Les quatre périmètres • Toutes les thèses : une page par thèse • Les thèses soutenues et les thèses en préparation • Deux restrictions possibles : • uniquement les thèses soutenues • uniquement les thèses soutenues accessibles en ligne • Thèses en préparation : une page par thèse en préparation • Personnes : docteurs, directeurs de thèse, membres du jury • Organismes : établissement de soutenance, de co-tutelle, écoles doctorales, partenaires de recherche Journées ABES - 17 mai 2011

  35. 1. Au choix de l’utilisateur • Consultation par l’encart de recherche • Consultation par l’encart de recherche puis raffinement par utilisation des facettes • Consultation par navigation pure via les facettes Journées ABES - 17 mai 2011

  36. 1. L’encart de recherche • Moteur de recherche présent sur toutes les pages • Périmètre toutes les thèses : métadonnées et texte intégral. • Affichage d’un extrait du texte intégral contenant le mot recherché (highlight = surlignage) • Autres périmètres : métadonnées • Autocomplétion de deux types : personne ou sujet

  37. 1. La recherche par facettes • Sept facettes disponibles pour le périmètre Toutes les thèses • Multisélection possible au sein d’une facette (OU) et croisement entre facettes (ET). • Deux affichages possibles des facettes : • liste courte • ou surimpression

  38. 1. La page de la thèse • Une page par thèse: • www.theses.fr/NNT pour les thèses soutenues • www.theses.fr/sXXX pour les thèses en préparation saisies dans STEP • www.theses.fr/tXXX pour les thèses en préparation saisies dans Thésa • Eventuellement, accès au texte intégral Journées ABES - 17 mai 2011

  39. 1. La page d’une personne • Docteurs, directeurs de thèse, président du jury, rapporteurs, autres membres du jury • Une page par personne : www.theses.fr/PPN sous réserve que les personnes soient identifiées par leur notice d’autorité dans le Sudoc • Rôle de la personne et affichage d’un extrait des thèses liées • Nuage de mots construit à partir de l’indexation de toutes les thèses liées Journées ABES - 17 mai 2011

  40. 1. La page d’un organisme • Etablissement de soutenance, de cotutelle, écoles doctorales, partenaires de recherche (laboratoire, entreprise…) • Une page par organisme : www.theses.fr/PPN sous réserve que les organismes soient identifiés par leur notice d’autorité dans le Sudoc • Affichage d’un extrait des thèses liées • Nuage de mots construit à partir de l’indexation de toutes les thèses liées Journées ABES - 17 mai 2011

  41. 1. Les services proposés par l’interface • Panier de requêtes ou panier de notices • Exporter les résultats ou une notice : format bureautique (CSV, text) mais aussi format des logiciels de références bibliographiques • S’abonner par fil RSS ou par courriel à tout changement dans une requête ou dans une page • Partager (delicious..) Journées ABES - 17 mai 2011

  42. 1. L’authentification sur theses.fr • Disposer d’un compte sur theses.fr permettra de bénéficier de certains services précités. • Deux modalités techniques : • création ex nihilo d’un compte • utilisation d’un compte existant (Gmail, twitter, facebook…) reconnu via janrain • Si une personne est reconnue comme étant l’auteur d’une thèse, elle disposera de droits supplémentaires sur la page de sa thèse : • Accès aux statistiques de consultation de la page de sa thèse • autorisation d’être contacté par d’autres utilisateurs de theses.fr • … Journées ABES - 17 mai 2011

  43. Page d’accueil : www.theses.fr

  44. Page de résultats obtenue après utilisation de l’encart de recherche

  45. Page de résultats obtenue après raffinement par la facette Etablissement

  46. Page de la thèse obtenue en cliquant sur le titre

  47. Page d’une personne obtenue en cliquant sur le nom de la personne

  48. Page d’un organisme obtenue en cliquant sur le nom de l’organisme

  49. 2.1. L’application • Application web développée en Java : • Réécriture d’URL : Apache • Conteneur de servlet : Tomcat • Langage Java : JSP / Servlet • Librairies utilisées : Saxon / JDOM / SolrJ / JSON … • Application web, donc : • HTML • CSS (charte graphique réalisée par Oxynel) • Javascript : JQuery • Pour les widgets : autocompleter / slider / checkers … Journées ABES - 17 mai 2011

  50. 2.1. D’autres moyens d’accès aux données • Pas seulement une interface HTML • Les servlets peuvent aussi délivrer le contenu sous d’autres formats : • Fils RSS • Alertes mail • API REST XML qui peut être utilisée par d’autres sites : pour la recherche/résultat et le détail • TEF, RDF, Marc XML, Dublin Core, etc. Journées ABES – 17 mai 2011

More Related