340 likes | 516 Views
PRIMJENA KEMOMETRIJSKIH METODA U KLASIFIKACIJI BILJNIH ULJA. Modeliranje, optimiranje i projektiranje procesa ( prof . dr . sc . Ž. Kurtanjek ) Mr . sc . Mirella Žanetić. Definicija kemometrije. Kemometrija pokušava izgraditi most između metoda i njihovih primjena u kemiji.
E N D
PRIMJENA KEMOMETRIJSKIH METODA U KLASIFIKACIJI BILJNIH ULJA Modeliranje, optimiranje i projektiranje procesa (prof.dr.sc. Ž. Kurtanjek) Mr.sc. Mirella Žanetić
Definicija kemometrije • Kemometrija pokušava izgraditi most između metoda i njihovih primjena u kemiji. • Kemometrija se definira kao 'kemijska disciplina koja koristi matematičke i statističke metode za oblikovanje ili odabiranje optimalnog mjeriteljskog postupka ili eksperimenta i omogući dobivanje maksimalnog broja informacija analizom dobivenih podataka’
Područja primjene mogu se podijeliti • 1. grupa metoda čiji postupak omogućava prikupljanje valjanih podataka • 2. grupa koju čine metode odabira vrijednih informacija iz valjanih podataka • 3. grupa metoda čine metode analize spektroskopskih podataka i metode usporedbe, čiji značaj postupno raste • 4. grupa metode umjetne inteligencije
Statističke metode • analiza glavnih komponenata (principal components analysis; PCA) • kanonička korelacijska analiza (canonical correlation analysis; CCA) • analiza zajedničkih komponenata i određene težine (common components and specific weight analysis; CCSWA) • faktorska diskriminacijska analiza (factorial discriminant analysis; FDA) • regresija glavnih komponenata (principal component regression; PCR) • metoda parcijalnih najmanjih kvadrata (partial least squares; PLS)
Analiza glavnih komponenata (principal components analysis; PCA) • statistička metoda - najviše se koristi kod obrade podataka s više varijabli • svrha metode - analiza korelacija unutar jednog skupa varijabli i posljedične redukcije dimenzionalnosti prostora, kako bi se što veći broj varijabli objasnio pomoću što manjeg broja varijabli • PCA metoda se ne koristi ukoliko varijable nisu u korelaciji • kod složenosti istraživanja PCA metoda se koristi da bi se pojednostavili signali i «pripremili» za obradu, a temelji se na statistici drugog reda
Kanonička korelacijska analiza (canonical correlation analysis; CCA) • Ispituje odnosi između dva niza varijabli • jedan niz mogu sačinjavati nezavisne varijable, a drugi zavisne • CCA metoda omogućava analizu rezultata istraživanja u kojima se neka veličina mjeri na dva niza varijabli, a informacija koja se želi dobiti je odnos ta dva niza • kod ovakve multivarijantne analize postoji više nizova nezavisnih i zavisnih varijabli koji su međusobno povezani sustavom strukturnih jednadžbi • kombinacija varijabli, s jedne strane jednadžbe, u najvećoj je mogućoj korelaciji s drugom stranom i to preko tzv. latentnih dimenzija ili kanoničkih varijanta • kanoničke varijante su linearne kombinacije nezavisne varijable s jedne strane niza, dok su s druge strane linearne kombinacije zavisnih varijabli - u takvom sustavu mora postojati najmanje jedan par kanoničkih varijanti koji je u najvećoj mogućoj korelaciji, a naziva se kanonička korelacija
Analiza zajedničkih komponenata i određene težine (common components and specific weight analysis; CCSWA) • svrha je opisati nekoliko grupa podataka promatranih na istim uzorcima uzimajući u obzir maksimalnu inerciju svakog od njih • obuhvatiti otkrivanje reprezentativnog prostora za sve grupe podataka • svaka grupa podataka ima svoju određenu težinu povezanu s prostorom • na ovaj način omogućena je cjelokupna povezanost između različitih grupa podataka
Faktorska diskriminacijska analiza (factorial discriminant analysis; FDA) • utemeljena na ideji utvrđivanja varijabli koje uzrokuju najveću razliku između uspoređenih grupa entiteta • obuhvaća grupu od nekoliko entiteta opisanih nizom varijabli, a zatim te varijable konstruiraju nove varijable (njih treba biti manje nego polaznih) koje opisuju razlike među grupama -te nove varijable nazivaju se diskriminacijskim varijablama (ili funkcijama) • dobivaju se kao linearne kombinacije izvornih varijabli • Glavni zadaci FDA su: • određivanje diskriminacijskih varijabli, tj. varijabli na kojima se grupe međusobno što je moguće više razlikuju; • redukcija broja diskriminacijskih varijabli, tj. zadržavanje samo onih varijabli na kojima se centroidi pojedinih grupa značajno razlikuju; • interpretacija diskriminacijskih varijabli pomoću originalnih; • postoji više različitih algoritama za diskriminacijsku analizu-neki od tih algoritama na temelju diskriminacijskih varijabli prognoziraju pripadnost pojedinih entiteta pojedinim grupama
Regresija glavnih komponenata (principal component regression; PCR) • primjenom PCR metode rješava se problem višestruke regresije: sastoji se u tome što korelacije između nezavisnih varijabli mogu dovesti do matematičkih problema i nerealne procjene zavisne varijable • PCR metoda je korisna samo ukoliko broj osnovnih komponenata prelazi broj kalibracijskih pokazatelja • broj osnovnih komponenata se može reducirati koristeći nekolicinu nezavisnih varijabli, u odnosu na redukciju • metoda daje zadovoljavajuće rezultate, što omogućava uzimanje u obzir većine varijacija između glavnih komponenata i predviđanje zavisne varijable • često se koristikod više varijabilnih kalibracija
Metoda parcijalnih najmanjih kvadrata (partial least squares; PLS) • traži linearnu kombinaciju zavisnih varijabli, a onim varijablama koje pokazuju visoku korelaciju daje posebnu težinu • najdjelotvornija kod predviđanja • ovim načinom ostvaruje se visoka korelacija između nezavisnih i zavisnih varijabli • razlika ovisi o situacijama kad odgovor ovisi o pojedinačnim varijablama (PLS1) i kad odgovor ima više varijabli (PLS2) • PLS metoda se obično koristi kod kalibracije kad je spektar linearno proporcionalan koncentraciji ispitivane tvari
Umjetna neuronska mreža – ANN (ArtificialNeuralNetwork) • sustav obrade informacija koji je nadahnut biološkim živčanim sustavom • karakteristika ovog sustava je međusobna povezanost ključnih elemenata – neurona koji jedinstveno rade na rješavanju određenog problema
Modeli rada • model učenja (treniranja) Kad je neuron u fazi treniranja uči ga se da podraži, odnosno odašilje signal na temelju ulaznih podataka, odnosno njegovog podraživanja • model rada (korištenja) U fazi rada kada su ulazni podaci detektirani i podudaraju se sa zadanim onda umjetni neuron podraži slijedeći. Ako ulazni podaci nisu kao zadani onda umjetni neuron odlučuje da li će podražiti slijedeći neuron.
Struktura ANN • ulazne jedinice (input unit) koja pomoću raznih senzora prikuplja ulazne podatke • skrivene jedinice (hidden unit) koja na temelju dobivenih podataka odlučuje o odgovoru • izlazne jedinice (output unit) koja podražuje daljnje neurone ako tako odluči skrivena jedinica
Opća topološka struktura ANN (ulazne, skrivene i izlazne jedinice)
Ponašanje ANN • ovisi o vrijednostima ulaza i izlaza, kao i o njihovom omjeru tj. funkciji prijenosa (transfer function) • Na temelju funkcije prijenosa postoje tri vrste jedinica: • linearne jedinice - gdje je aktivnost izlaza proporcionalna ukupnoj vrijednosti ulaza • jedinice sa pragom podražaja - gdje izlaz ovisi da li je ukupni ulaz veći ili manji od praga podražaja • sigmoidalne jedinice - gdje se na temelju ulaza izlaz stalno mijenja ali ne linearno
Primjena ANN • Danas se ANN koriste za razna istraživanja u medicini, biotehnologiji, prehrambenoj tehnologiji, ekonomiji • U novije vrijeme ANN se primjenjuje u prehrambenoj tehnologiji za: • klasifikaciju proizvoda (npr. žitarice, voće, povrće, meso) • predviđanje kvalitete proizvoda (npr. meso) • segmentaciju uz pomoć slika hrane (npr. pekarski proizvodi)
Umjetne neuronske mreže primijenjene u odabranom radu • Brodnjak-Vončina, D., CenčićKodba, Z., Novič, M. (2005) Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids, Chemometr. Intell. Lab. Syst.75, 31-43.
Prikaz problematike • predložena nova metoda za brzo i djelotvorno određivanje klasa maslinovog ulja prilikom rutinske analize koja se provodi u laboratorijima za kontrolu hrane. • parametri kvalitete maslinovog ulja (kiselost i peroksidni broj) mogu se analizirati samo u opremljenim laboratorijima ali ne i u uljarama • kontrolu kvalitete maslinovih ulja u uljarama se provodi na osnovu iskustva u proizvodnji što je jako teško zbog velike varijabilnosti šarži • neki agronomski i tehnološki parametri se mjere u uljarama svakodnevno
Rješenje problema • javila se potreba za brzim i pouzdanim načinom kontrole ekstrakcijskog procesa bez provođenja dugotrajnih kemijskih analiza • u tu svrhu razvijen je softver koji je modeliran tako da uzima u obzir sastav masnih kiselina (palmitinska, stearinska, oleinska, linolna, linolenska, eikosanska, eikosenska)
Postupak rada • Sastav masnih kiselina odabranih uzoraka ulja određen plinskom kromatografijom • Ukupni sadržaj masnih kiselina određen je u odnosu na prethodno upotrebljeni standard (FAME) - izračunavanjem postotka površine ispod odgovarajućeg pika
Obrada podataka • 132 uzoraka biljnog ulja karakterizirana su sastav sedam masnih kiselina, i to palmitinske, stearinske, oleinske, linolne, linolenska, eikosanske i eikosenske kiseline. Razina udjela (izražena postotkom) sedam masnih kiselina predstavljaju sedam varijabli, komponente vektora zastupljenosti svakog uzorka, dalje se koristi u kemometrijskoj analizi • Analiza osnovnih komponenti PCA i 'samoorganizirajuća' umjetna neuronska mreža su primjenjivane za grupiranje uzoraka ulja po mjeri sastava masnih kiselina. Kohonenova 'samoorganizirajuća' neuronska mreža je najprikladnija za grupiranje, dok je 'counterpropagation' umjetna neuronske mreže (CPANNs) korištena kao modelirajuća i klasifikacija metoda Svi izračuni i dijagrami su napravljeni u Teach Me softwaru
Metoda Razvoj softvera zasniva se na realizaciji par osnovnih koraka: • Skupljanje podataka i kreiranje baze podataka • Razvoj ANN softvera • Rafiniranje procjene
Rezultati i diskusija • međusobna korelacija se tražila za sve izmjerene varijable, tj. za razine udjela (postotke) masnih kiselina • matricom unakrsnih korelacija je izračunata količina metilnog estera palmitinske, stearinske, oleinske, linolne, linolenske, eikosanske i eikosenske kiselina • aksimalni negativni koeficijent korelacije (- 0,97) pronađen je između količine oleinske i linolne kiseline • već na osnovu jedne od tih dviju masnih kiselina, razlikujemo skupine različite vrste ulja
Analiza osnovnih komponenti PCA - Analiza osnovnih komponenti je provedena kako bi se dobio ukupni dojam o korelaciji 132 uzoraka ulja opisanih sastavom masnih kiselina. PCA je primijenjena na matrica sastavljenoj od 132 x 7 elemenata. U 132 retka uzoraka komercijalnih jestiva biljna ulja – predstavljeni su sa sedam varijable. Većina informacija od 132 uzoraka ulja se okupilo u prve dvije glavne komponente
Fig. 1. Relationship between percentage levels of oleic (18:1) and linoleic (18:2) acid in 132 oil samples. Individual samples are indicated by the class numbers
- prva komponenta, PC1, povezana je s varijablama 3 i 4, oleinske i linolne kiseline - druga komponenta, PC2, predstavlja uglavnom linolensku i, u manjoj mjeri, palmitinske kiseline (varijable br. 5 i 1, uglavnom) - vidljivo je da su formirani klasteri, odgovarajući na sedam različitih klasa ulja - uzorci miješanog ili nepoznatog tipa ulja označeni s ''0'' raspoređeni u sedam razreda, osim za tri uzorka (vidi strelice na parceli) koji su odvojeni od svih ostalih
Fig. 2. Biplot (scores and loadings) of 132 samples and 7 variables in the PC1 -PC2 co-ordinate system for oil samples labeled with class numbers, Loadings, i.e. seven fatty acids, are printed in bold.
Kohonenova neuronska mreža - KOH-NN svojom arhitekturom i strategijom učenja imitira strukturu mozga, tzv biološke neuronske mreže - KOH-NN se temelji na jednom sloju neurona uređenom u dvodimenzionalnoj ravnini koja ima dobro definiran topologije neurona sa definiranom strukturom susjedstva - današnja istraživanja Koh-NN koriste strukturu 8 susjeda N2 neuroni proizvode dvodimenzionalne top-karte dimenzija NxN - svi neuroni imaju isti višedimenzionalni input (ulaz) - odgovor je lokaliziran na malom broju neurona u području topološkog susjedstva - ovaj tzv. lokalni feed-back čini KOH-NN sličnim biološkoj neuronskoj mreži - obuka KOH-NN temelji se na konkurentskom učenju, na strategiji ''dobitnik-uzima-sve'‘ -o znači da se ulaz predstavio mreži i aktivirao samo jedan neuron iz cijele mreže neurona koji se potom stimulira odgovarajućom korekcijom težine. Neuroni su natječu jedni s drugima da se dobije stimulaciju.
Fig. 3. Seven levels of Koh-NN. Each of the seven maps (a-g) represents the distribution of weights corresponding to one of the seven variables (percentage level of a fatty acid, see Table 1); (a) var. 1, palmitic acid; (b) var. 2, stearic acid; (c) var. 3, oleic acid; (d) var. 4, linoleic acid; (e) var. 5, linolenic acid; (f) var. 6, eicosanoic acid; (g) var. 7, eicosenoic acid.
CP ANNN • Među 132 uzoraka koji su analizirani na sastav masnih kiselina, 95 uzoraka poznatog porijekla su razvrstani u sedam glavnih razreda biljnog ulja. Sa 95 uzoraka poznatog porijekla izrađen je model 'counterpropagation' umjetne neuronske mreže (CP ANNNs). Sedam dimenzionalni neuroni su smješteni u N x N mrežu. Dimenzija N varirala je od 10-20. CP ANNs su obučeni za 200 epoha, što je bilo dovoljno za zadovoljavajući prepoznavanje uzoraka treninga. Sedam komponenti svakog uzorka je vektor reprezentacije su sastav masnih kiselina opisan u eksperimentu. Maksimalne i minimalne korekcije faktora u postupku modeliranja su bili 0.5 i 0.01.
Kontrolna metoda • Da bi usporedili klasifikacijske rezultate dobivenim CP ANN, primijenjena je alternativna metoda, Linearna diskriminacijska analiza (LDA) na 95 uzoraka od poznatih razreda (klasa) biljnog ulja. LDA model je razvijen na diskriminaciju između sedam razreda s pet predvidljivih varijabli. Pet diskriminirajućih funkcije sa P-vrijednosti manje od 0,05 bili su statistički značajne na razini 95% pouzdanosti. Ispravna predviđanja dobivena su za 92 uzoraka ulja, odnosno 96,84%. Sa 98,95% ispravnih predviđanja, klasifikacija CP ANN modelom - izabrana je za daljnje rutinske analize.
Zaključci • Cilj istraživanja je bio prikazati razvoj i primjenu automatiziranih metoda za klasifikaciju uzoraka ulja u rutinskim laboratorijima kontrole hrane. Rezultirajući model je temeljen na pronađenoj korelaciji između vrsta ulja (klase) i sastava masnih kiselina. Analiza osnovnih komponenti PCA je korištena za prikazivanje podataka. Pokazano je da je potrebno koristiti znači ''mean centering'' varijabli. Iz rezultata, zaključeno je da PCA metoda dovoljno diskriminirajuća. 97.8% varijance je opisano u prve dvije osnovne komponente. Analiza je pokazala da varijable s najvećom diskriminirajućom snagom su razine udjela (postotak) oleinske i linolne kiseline. Visoka korelacija između tih dviju varijabli je pronađena za sve uzorke ulja
Zaključci • Kohonen umjetna neuronska mreža je implementirana kao metoda za klastering uzoraka ulja. Za predviđanje vrste ulje, korištena je ''counterpropagacija'' neuronska mreža, koja nudi mogućnost za automatsku klasifikaciju,. CP ANN model, baziran na iskustvu, je izgrađen korištenjem uzoraka ulja za koje je poznato porijeklo. Statistička evaluacija rezultata klasifikacije bila je zadovoljavajuća. Prema konstruiranom modelu, razvrstana su miješana ulja i ulja nepoznatog porijekla. Model donosi kategorizaciju jednog uzorka u više klasa sa različitom vjerojatnosti, koja omogućuje predviđanje sastava smjesa. Dobivena predviđanja dobro koreliraju s raspoloživim informacijama uzoraka miješanih ulja. Pregled predviđajućih rezultata ukazuje na to da je predloženi model od značajne vrijednosti za određivanje nepoznatih uzorka ulja i može implementirati kao brza i učinkovita metoda u rutinskoj analizi