1 / 25

Rapport d’expérimentations

Rapport d’expérimentations. ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004. Plan. Rappel sur les travaux précédents Descriptions et UCDs Analyse de la distributions d’UCDs Passage à l’échelle : Division de Corpus Performance Observations

henry-roman
Download Presentation

Rapport d’expérimentations

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Rapport d’expérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004

  2. Plan • Rappel sur les travaux précédents • Descriptions et UCDs • Analyse de la distributions d’UCDs • Passage à l’échelle : Division de Corpus • Performance • Observations • Distribution de performance • Conclusion

  3. Rappel sur les travaux précédents(1) • Corpus • 4904 descriptions:3371 pour l’apprentissage (70%) et 1533 pour le test (30%) • 98 UCDs: au moins 30 descriptions. • 3228 termes • Connaissances pour l’apprentissage • Label, unit, descriptions • Algorithmes évalués: • k-NN et Naive Bayes: ont échoué • Rocchio: a réussit

  4. Rappel sur les travaux précédents(2) • Performance par Rocchio • Pour un UCD, • rappel=Nbr de descriptions associées trouvées/nbr de descriptions associées

  5. Passage à l’échelle : Descriptions et UCDs • Au total: • 124,096 descriptions • 1,183 UCDs • Moyenne 105 descriptions / UCD • Certains UCDs sont très fréquents; et d’autres beaucoup moins • Ex. • 10,687 pour l’UCD ‘ERROR’. • 1 pour 145 UCDs

  6. Analyse de la distributions d’UCDs

  7. Division du corpus • Ont été retirés tous les UCD associés à moins de 4 descriptions : 305 • Corpus est composé des • 873 UCDs • 123,518 descriptions • Le corpus est divisé en deux parties : • Apprentissage (70%):85951 • Test (30%): 37567 • 26114 termes

  8. Performance Rocchio

  9. Observations • Rappels = 0 pour 37 UCDs • Rappels très faibles pour 127 UCDs • Rappels assez forts pour 119 UCDs • Rappels très forts pour 519 UCDs

  10. UCD nbr de desc AT_DATA 4 INST_PLATE_DIST 4 PHOT_DDO_48-51 4 PHOT_MAG_K 4 PHOT_PHG_R-I 4 PHOT_HST_F850LP 4 PHOT_COUNT-RATE_GAMMA 4 PHOT_SB_LIMIT 4 PHOT_UV_1900 4 POS_RADIUS 4 PHOT_UV_2500 4 PHOT_DDO_35-38 5 PHOT_IR_K-10 5 PHOT_HST_CI_B-V 5 PHOT_UV_COLOR 5 PHOT_DDO_38-41 5 OBS_SLIT_ORIENT 6 SPECT_PECUL 6 UCD nbr de desc STAT_STDEV 6 PHOT_STR_U-V 6 INST_DET_MISC 7 INST_TYPE 8 ID_PARAM 9 PHOT_FLUX_RADIO_850M 9 MODEL_POP-SYNTHESIS 11 PHOT_FLUX_DENSITY 11 PHOT_FLUX_RADIO_180G 11 PHOT_UV_1500 12 INST_WAVELENGTH_COVERAGE 13 PHOT_HST_V 14 PHOT_COUNTS_MISC 15 POS_ANG_DIST_REL 19 PHOT_HST_CI_V-I 20 STAT_PROP 20 PHOT_SPHOT_INDEX 23 PHYS_DENSITY_SURFACE 37 CLASS_STRUCT 56 Rappels = 0 pour 37 UCDs (1)

  11. Hétérogénéité entre ses descriptions pour apprentissage et pour test AT_DATA test Fraction of cascade contribution from the first series Fraction of cascade contribution from the second series apprentissage Fe XVI dielectronic satellite atomic data Fe XVI dielectronic satellite atomic data SPECT_PECUL test Spectral-luminosity peculiarities Spectral peculiarities apprentissage [yn] Emission line found in spectrum? (3) [Be] Be: Be star [ABE] Spectral characteristics (1) Spectrum Rappels = 0 pour certain UCDs (2)

  12. Rappels très faibles pour certains UCDs (1) • Rappels (0, 0.50] pour 127 UCDs • Certains UCDs sont fréquents • Exemples UCD rappel nbr de desc • REMARKS ,391 605 • CODE_MISC ,389 666 • ID_ALTERNATIVE ,414 981 • ID_MAIN ,405 1743 • Concepts très étendus

  13. Rappels très faibles pour certains UCDs (2)

  14. Rappels très faibles pour certains UCDs (3) Spécialisation de définition d’UCDs

  15. Error Error POS_EQ_RA_MAIN_ERROR PHOT_FLUX_RADIO_5G_ERROR Rappels assez forts pour certains UCDs • Rappels [0.70, 0.90) pour 119 UCDs • Pour améliorer les performances: • Spécialisation de définition d’UCDs • Conversion d’unités: 4850 MHz=>4.85 Ghz • Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G • PHOT_FLUX_RADIO_5G retourné si 4850 MHz=>4.85 Ghz • PHOT_FLUX_RADIO_110M retourné sinon

  16. Rappels très forts pour certains UCDs(1) • Rappels (9.0,1.0] pour 519 UCDs • 271 UCDs un peu fréquents (<20 ) ucd rappel nbr de desc • AT_ENERGY_FORMATION 1 4 • AT_FREQUENCY_ROTAT 1 4 • AT_LIFETIME 1 4 • INST_ANG_PHASE 1 4 • AT_TRANS_TYPE 1 4 • INST_BASELINE 1 4 • MODEL_FLUX 1 4 • PHOT_CLASS 1 4 • PHOT_DDO_M48 1 4

  17. Rappels très forts pour certains UCDs(2) • Vecteurs conceptuels bien concentrés • TIME_EXPTIME => Exposure Time => time 0.35,exposure 0.319,exptime 0.16, exp 0.121,exposition 0.064, integration 0.039, total 0.033,texp 0.03, live 0.025,… • Descriptions homogènes entre apprentissage et test

  18. Rappels très forts pour certains UCDs(3)

  19. Distribution de performance Nbr de UCD Rappel Rappel et Pourcentage d’UCD

  20. Conclusion • Bonne perfomance globale d’assignation UCD par Rocchio: • 58% UCD dont les rappels>90% • 71% UCD dont les rappels>70% • Les définitions de certains UCDs restent à être spécialsés • Mauvaise performance d’assignation UCD • Concepts très étendus • 31% UCDs très peu utilisés • Rapport d’utilisation des connaissances de domaine pour améliorer les perfomances.

  21. Pour le future • Installer notre maquette à Strasbourg • Rédiger des documents expliquant la structure des programmes, des données et comment maintenir le système

  22. Merci

  23. Vecteurs conceptuels étendus • ID_ALTERNATIVE => Alternative identification => name 0.171,other 0.099,hd 0.047,identification 0.043,designation 0.04,number 0.039,catalog 0.039,cat 0.033,star 0.026,alternate 0.023,iras 0.021,hr 0.018,… • ID_MAIN => Main Identifier of a Celestial Object => name 0.222,star 0.096,number 0.062,identification 0.054,id 0.052,designation 0.04,source 0.04,galaxy 0.036,object 0.035,hd 0.03,cluster 0.023,catalog 0.019,… • CODE_MISC => Miscellaneous Codes or Flags => f 0.098,flag 0.07,code 0.033,indicate 0.026,band 0.018,source 0.017,reliable 0.014,cluster 0.013,measurement 0.012,confusion 0.012,note 0.012,type 0.012, …

  24. Vecteurs conceptuals concentrés • PHOT_JHN_V-I => Johnson color index V-I (JHN) => v-i 0.74,v 0.403,index 0.175,color 0.149,colour 0.147,dereddenned 0.021,v-ic 0.019,ic 0.016,johnson 0.014,… • AT_OSC_STRENGTH => Oscillator Strength => oscillate 0.41,strength 0.335,gf 0.295,log 0.219,loggf 0.132,fv 0.046,fl 0.044,length 0.039,gf-value 0.037,j 0.032,absorption 0.031,statistical … • PHOT_JHN_H-K => Johnson color index H-K (JHN) => h-k 0.658,k 0.427,h 0.362,color 0.13,index 0.095,colour 0.075,h-ks 0.035,ks 0.025,observe 0.024,cit 0.014,k-h 0.014,2mass 0.013,… • PHOT_FLUX_IR_25 => Flux density (IRAS) at 25 microns => flux 0.246,mu 0.19,density 0.185,f25 0.132,25um 0.123,m 0.122,um 0.108,s25um 0.103,f25um 0.101,25micron 0.088,iras 0.083,s25 0.077,micron 0.066,… • PHYS_TEMP_EFFEC => Effective Temperature => effective 0.354,temperature 0.354,teff 0.335,log 0.157,logte 0.137,logtu 0.086,uncorrected 0.083,wr 0.082,star 0.045,logteff 0.045,logarithm 0.027,…

  25. Analysis de distributions d’UCDs ERROR 10687 RECORD 9485 ID_MAIN 5811 NOTE 4797 POS_EQ_RA_MAIN 3716 POS_EQ_DEC_MAIN 3697 ID_ALTERNATIVE 3282 PHYS_ABUND_MISC 3019 CODE_ERROR 2468 NUMBER 2440 REFER_CODE 2286 CODE_MISC 2216 REMARKS 2019 CODE_LIMIT 1979 TIME_DATE 1975 SPECT_EQ-WIDTH 1854 VELOC_HC 1343 PHOT_JHN_V 1262 PHOT_DIFF_MAG 1240 FIT_PARAM_VALUE 1239 ID_NUMBER 1125

More Related