250 likes | 328 Views
Rapport d’expérimentations. ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004. Plan. Rappel sur les travaux précédents Descriptions et UCDs Analyse de la distributions d’UCDs Passage à l’échelle : Division de Corpus Performance Observations
E N D
Rapport d’expérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004
Plan • Rappel sur les travaux précédents • Descriptions et UCDs • Analyse de la distributions d’UCDs • Passage à l’échelle : Division de Corpus • Performance • Observations • Distribution de performance • Conclusion
Rappel sur les travaux précédents(1) • Corpus • 4904 descriptions:3371 pour l’apprentissage (70%) et 1533 pour le test (30%) • 98 UCDs: au moins 30 descriptions. • 3228 termes • Connaissances pour l’apprentissage • Label, unit, descriptions • Algorithmes évalués: • k-NN et Naive Bayes: ont échoué • Rocchio: a réussit
Rappel sur les travaux précédents(2) • Performance par Rocchio • Pour un UCD, • rappel=Nbr de descriptions associées trouvées/nbr de descriptions associées
Passage à l’échelle : Descriptions et UCDs • Au total: • 124,096 descriptions • 1,183 UCDs • Moyenne 105 descriptions / UCD • Certains UCDs sont très fréquents; et d’autres beaucoup moins • Ex. • 10,687 pour l’UCD ‘ERROR’. • 1 pour 145 UCDs
Division du corpus • Ont été retirés tous les UCD associés à moins de 4 descriptions : 305 • Corpus est composé des • 873 UCDs • 123,518 descriptions • Le corpus est divisé en deux parties : • Apprentissage (70%):85951 • Test (30%): 37567 • 26114 termes
Performance Rocchio
Observations • Rappels = 0 pour 37 UCDs • Rappels très faibles pour 127 UCDs • Rappels assez forts pour 119 UCDs • Rappels très forts pour 519 UCDs
UCD nbr de desc AT_DATA 4 INST_PLATE_DIST 4 PHOT_DDO_48-51 4 PHOT_MAG_K 4 PHOT_PHG_R-I 4 PHOT_HST_F850LP 4 PHOT_COUNT-RATE_GAMMA 4 PHOT_SB_LIMIT 4 PHOT_UV_1900 4 POS_RADIUS 4 PHOT_UV_2500 4 PHOT_DDO_35-38 5 PHOT_IR_K-10 5 PHOT_HST_CI_B-V 5 PHOT_UV_COLOR 5 PHOT_DDO_38-41 5 OBS_SLIT_ORIENT 6 SPECT_PECUL 6 UCD nbr de desc STAT_STDEV 6 PHOT_STR_U-V 6 INST_DET_MISC 7 INST_TYPE 8 ID_PARAM 9 PHOT_FLUX_RADIO_850M 9 MODEL_POP-SYNTHESIS 11 PHOT_FLUX_DENSITY 11 PHOT_FLUX_RADIO_180G 11 PHOT_UV_1500 12 INST_WAVELENGTH_COVERAGE 13 PHOT_HST_V 14 PHOT_COUNTS_MISC 15 POS_ANG_DIST_REL 19 PHOT_HST_CI_V-I 20 STAT_PROP 20 PHOT_SPHOT_INDEX 23 PHYS_DENSITY_SURFACE 37 CLASS_STRUCT 56 Rappels = 0 pour 37 UCDs (1)
Hétérogénéité entre ses descriptions pour apprentissage et pour test AT_DATA test Fraction of cascade contribution from the first series Fraction of cascade contribution from the second series apprentissage Fe XVI dielectronic satellite atomic data Fe XVI dielectronic satellite atomic data SPECT_PECUL test Spectral-luminosity peculiarities Spectral peculiarities apprentissage [yn] Emission line found in spectrum? (3) [Be] Be: Be star [ABE] Spectral characteristics (1) Spectrum Rappels = 0 pour certain UCDs (2)
Rappels très faibles pour certains UCDs (1) • Rappels (0, 0.50] pour 127 UCDs • Certains UCDs sont fréquents • Exemples UCD rappel nbr de desc • REMARKS ,391 605 • CODE_MISC ,389 666 • ID_ALTERNATIVE ,414 981 • ID_MAIN ,405 1743 • Concepts très étendus
Rappels très faibles pour certains UCDs (3) Spécialisation de définition d’UCDs
Error Error POS_EQ_RA_MAIN_ERROR PHOT_FLUX_RADIO_5G_ERROR Rappels assez forts pour certains UCDs • Rappels [0.70, 0.90) pour 119 UCDs • Pour améliorer les performances: • Spécialisation de définition d’UCDs • Conversion d’unités: 4850 MHz=>4.85 Ghz • Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G • PHOT_FLUX_RADIO_5G retourné si 4850 MHz=>4.85 Ghz • PHOT_FLUX_RADIO_110M retourné sinon
Rappels très forts pour certains UCDs(1) • Rappels (9.0,1.0] pour 519 UCDs • 271 UCDs un peu fréquents (<20 ) ucd rappel nbr de desc • AT_ENERGY_FORMATION 1 4 • AT_FREQUENCY_ROTAT 1 4 • AT_LIFETIME 1 4 • INST_ANG_PHASE 1 4 • AT_TRANS_TYPE 1 4 • INST_BASELINE 1 4 • MODEL_FLUX 1 4 • PHOT_CLASS 1 4 • PHOT_DDO_M48 1 4
Rappels très forts pour certains UCDs(2) • Vecteurs conceptuels bien concentrés • TIME_EXPTIME => Exposure Time => time 0.35,exposure 0.319,exptime 0.16, exp 0.121,exposition 0.064, integration 0.039, total 0.033,texp 0.03, live 0.025,… • Descriptions homogènes entre apprentissage et test
Distribution de performance Nbr de UCD Rappel Rappel et Pourcentage d’UCD
Conclusion • Bonne perfomance globale d’assignation UCD par Rocchio: • 58% UCD dont les rappels>90% • 71% UCD dont les rappels>70% • Les définitions de certains UCDs restent à être spécialsés • Mauvaise performance d’assignation UCD • Concepts très étendus • 31% UCDs très peu utilisés • Rapport d’utilisation des connaissances de domaine pour améliorer les perfomances.
Pour le future • Installer notre maquette à Strasbourg • Rédiger des documents expliquant la structure des programmes, des données et comment maintenir le système
Vecteurs conceptuels étendus • ID_ALTERNATIVE => Alternative identification => name 0.171,other 0.099,hd 0.047,identification 0.043,designation 0.04,number 0.039,catalog 0.039,cat 0.033,star 0.026,alternate 0.023,iras 0.021,hr 0.018,… • ID_MAIN => Main Identifier of a Celestial Object => name 0.222,star 0.096,number 0.062,identification 0.054,id 0.052,designation 0.04,source 0.04,galaxy 0.036,object 0.035,hd 0.03,cluster 0.023,catalog 0.019,… • CODE_MISC => Miscellaneous Codes or Flags => f 0.098,flag 0.07,code 0.033,indicate 0.026,band 0.018,source 0.017,reliable 0.014,cluster 0.013,measurement 0.012,confusion 0.012,note 0.012,type 0.012, …
Vecteurs conceptuals concentrés • PHOT_JHN_V-I => Johnson color index V-I (JHN) => v-i 0.74,v 0.403,index 0.175,color 0.149,colour 0.147,dereddenned 0.021,v-ic 0.019,ic 0.016,johnson 0.014,… • AT_OSC_STRENGTH => Oscillator Strength => oscillate 0.41,strength 0.335,gf 0.295,log 0.219,loggf 0.132,fv 0.046,fl 0.044,length 0.039,gf-value 0.037,j 0.032,absorption 0.031,statistical … • PHOT_JHN_H-K => Johnson color index H-K (JHN) => h-k 0.658,k 0.427,h 0.362,color 0.13,index 0.095,colour 0.075,h-ks 0.035,ks 0.025,observe 0.024,cit 0.014,k-h 0.014,2mass 0.013,… • PHOT_FLUX_IR_25 => Flux density (IRAS) at 25 microns => flux 0.246,mu 0.19,density 0.185,f25 0.132,25um 0.123,m 0.122,um 0.108,s25um 0.103,f25um 0.101,25micron 0.088,iras 0.083,s25 0.077,micron 0.066,… • PHYS_TEMP_EFFEC => Effective Temperature => effective 0.354,temperature 0.354,teff 0.335,log 0.157,logte 0.137,logtu 0.086,uncorrected 0.083,wr 0.082,star 0.045,logteff 0.045,logarithm 0.027,…
Analysis de distributions d’UCDs ERROR 10687 RECORD 9485 ID_MAIN 5811 NOTE 4797 POS_EQ_RA_MAIN 3716 POS_EQ_DEC_MAIN 3697 ID_ALTERNATIVE 3282 PHYS_ABUND_MISC 3019 CODE_ERROR 2468 NUMBER 2440 REFER_CODE 2286 CODE_MISC 2216 REMARKS 2019 CODE_LIMIT 1979 TIME_DATE 1975 SPECT_EQ-WIDTH 1854 VELOC_HC 1343 PHOT_JHN_V 1262 PHOT_DIFF_MAG 1240 FIT_PARAM_VALUE 1239 ID_NUMBER 1125