210 likes | 397 Views
Wykład 3 Sparametryzowane rodziny funkcji.
E N D
Na poprzednim wykładzie mówiłam, że istnieją funkcje tworzone przez przyrodę. Istnieją one w takim samym sensie w jakim istnieją populacje nieskończone złożone z osobników istniejących i tych które mogłyby zaistnieć w danych warunkach środowiska. Jest to takie same istnienie jak istnienie punktu materialnego poruszającego się swobodnie w próżni, punktu o zerowych wymiarach czy nieskończonej płaszczyzny o zerowej grubości. Mierzalne cechy środowiska dają przedział liczbowy (każda z tych liczb określa jakieś warunki środowiska), a każdej z tych liczb przyporządkowany jest rozkład cechy populacji, jaka w takich warunkach środowiska mogłyby zaistnieć. Z rozkładem tym wiążemy jedna wartość charakteryzująca w określony sposób rozkład i uzyskujemy funkcję. Takie patrzenie na przyrodę pozwala na badanie wpływu określonych warunków środowiska (wiadomo, że nie jesteśmy w stanie określić wszystkich warunków, a co więcej próba określenia wszystkich cech środowiska niczemu by nie służyła) i traktowanie żyjącej populacji jako jednej z wielu, które mogłyby w określonych warunkach zaistnieć. Jest to tworzenie wiedzy, która poprzez swoją ogólność może mieć zastosowanie w różnych środowiskach dla różnych populacji. Jakie są funkcje tworzone przez przyrodę? Dla danych warunków środowiska określonych liczbami (np. stężeniem azotu w glebie) populacja tam żyjąca mogłaby się cechować określonym rozkładem jakiejś cechy (np. długościami pędów, które tworzyłyby określony rozrzut wokół pewnej wartości średniej). Małe zmiany warunków środowiska dawałyby minimalne zmiany rozkładu określonej cechy populacji, a zatem i określone charakterystyki rozkładu niewiele różniłyby się od siebie. Funkcja przyporządkowująca cechom środowiska określona charakterystykę rozkładu (np. średnią długość pędu) po pierwsze istnieje, po drugie jest tworzona przez warunki środowiska i zakodowaną w genach osobników odpowiedź populacji na te warunki, po trzecie byłaby ciągła i różniczkowalna. Funkcje tworzone przez przyrodę Warunki środowiska Cechy populacji Rozkład cechy populacji cecha środowiska Charakterystyka rozkładu cechy populacji cecha środowiska
Sparametryzowane rodziny funkcji rzeczywistych Funkcje liniowe: f(x)=ax+b Rodzina funkcji określona dla wszystkich par liczb (a,b)ℝ2 Funkcje tworzone przez przyrodę nie muszą wyrażać się jakimkolwiek wzorem matematycznym, ale można je przybliżać funkcjami wyrażanymi określonymi wzorami, co wynika z twierdzenia Weierstrassa. Posługujemy się wtedy sparametryzowanymi rodzinami funkcji, które są niczym innym jak zbiorem wszystkich funkcji o określonym wzorze, w którym występują parametry zastępujące pewne liczby. Typowe rodziny funkcji pokazane wyświetlone na tablicy są dobrze wam znane z lekcji matematyki. Sparametryzowane rodziny funkcji mogą być mniej lub bardziej obszerne, w tym sensie, że te mniej obszerne zawierają się w tych bardziej obszernych. Funkcje liniowe zawierają się w rodzinie wielomianów, a wielomiany zawierają się w rodzinie funkcji wymiernych. Czasem w pracy posługujemy się jakąś rodziną funkcji nie mającą ogólnie przyjętej nazwy. Rozważanie szczególnej rodziny funkcji wymaga jej zdefiniowania w pracy – wystarczy podanie wzoru z parametrami. Przy poszukiwaniu funkcji „tworzonych przez przyrodę” posługujemy się rodzinami funkcji w których jest możliwie mało parametrów – najczęściej jeden lub dwa. Zrobimy przegląd różnych najczęściej spotykanych rodzin funkcji w pracach biologicznych. Wielomiany: f(x)=anxn+an-1xn-1+...+a1x+a0 Rodzina funkcji określona dla wszystkich nℕ i ciągów (an,an-1,...,,a1,a0) ℝn+1 Funkcje wymierne: Rodzina funkcji określona dla wszystkich nℕ i ciągów (an,an-1,...,,a1,a0) ℝn+1 Rodzina paraboli: f(x)=ax2 określona dla wszystkich aℝ Rodzina hiperboli: f(x)=a/xokreślona dla wszystkich aℝ
Funkcje potęgowe i pierwiastkowe f(x)=xm Potęgi znane są wszystkim ze szkoły. Najlepiej znane jest podnoszenie do potęgi wyrażającej się liczbą naturalną j jest to mnożenie przez siebie liczby z tyle razy na ile wskazuje to potęga. Możemy to robić dla dowolnych liczb rzeczywistych x, ujemnych i dodatnich. Potęga wyrażająca się ułamkiem m/n (gdzie m i n są liczbami naturalnymi) – to pierwiastek stopnia n z liczby x podniesionej do m-tej potęgi. Symbol pierwiastkowania zastąpić zawsze można symbolem potęgi (w pracach biologicznych stosuje się symbol pierwiastka w zasadzie tylko dla pierwiastków kwadratowych, pisanych bez 2). Pierwiastkować można liczby dodatnie i 0. Można rozważać potęgowanie do liczb ujemnych i pokazana na dole formuła jest często stosowana w biologii, przykładowo przy zapisie jednostek (coś na sekundę pisze się mnożąc jednostkę tego „coś” przez s-1, coś na m2 pisze się mnożąc przez m-2). Czasami posługując się funkcjami potęgowymi biolog musi je przekształcać. Służą do tego wzory podane na tablicy. Dziedziną funkcji jest zbiór liczb rzeczywistych dodatnich ℝ+
f(x)=axm dla aℝ i mℝ Dziedziną funkcji jest ℝ+Zbiorem wartości funkcji jest ℝ+ (dla a>0) albo ℝ- (dla a<0) Rodzina funkcji potęgowych • Rodzina funkcji potęgowych wyraża się podanym wzorem. Są tu dwa parametry rzeczywiste, które dają funkcje podobne do hiperbolicznych (gdy liczba jest ujemna) lub funkcje rosnące od 0 w różnym tempie (co pokazano na poprzedniej tablicy). • Funkcje potęgowe używane są do przybliżania przebiegu takich procesów, które: • rozpoczynają się od 0 a potem rosną zmieniając tempo wzrostu • rozpoczynają się od , a potem maleją do zera • Funkcje rosnące gdy a>0 i m>0 • rosnące szybciej od y=x gdy m>1 • rosnące wolniej od y=x gdy m<1 Funkcje malejące gdy a>0 i m<0 Podobne do funkcji hiperbolicznych. Gdy a<0 mamy zwierciadlane odbicie funkcji f(x)=-axm względem osi 0X
Funkcje wykładnicze i logarytmiczne f(x)=mx f(x)=logmx określone dla m>0określone dla m >0 i m0 Funkcja logarytmiczna jest odwrotnością funkcji wykładniczej, logm(mx)=x Funkcje wykładnicze są dość podobne do funkcji potęgowych, tyle że należy zamienić miejscami parametr z argumentem. Funkcje logarytmiczne są odwrotne do potęgowych. Funkcje wykładnicze są rosnące dla >1 i malejące dla 0<<1. Dla =1 jest to funkcja stała. Są to funkcje przyjmujące wyłącznie wartości dodatnie Funkcje logarytmiczne są rosnące dla >1 i malejące dla 0<<1. Dla =1 funkcja logarytmiczna nie istnieje. Są to funkcje określone dla zbioru liczb dodatnich. Dziedziną funkcji wykładniczej jest cały zbiór liczb rzeczywistych, z zbiorem wartości zbiór liczb rzeczywistych dodatnich. Dziedziną funkcji logarytmicznej jest zbiór liczb rzeczywistych dodatnich a zbiorem wartości zbiór liczb rzeczywistych
Wzory dla funkcji wykładniczych i logarytmicznych • Choć przekształcanie wzorów matematycznych nie jest w biologii standardem, zdarza się, że biolog w swojej pracy musi przekształcić jakieś wzory z potęgami i logarytmami. Napisane tu podstawowe zależności nie wyczerpują wszystkich twierdzeń dotyczących tych funkcji, ale są tymi, które zdarzyło się mnie osobiście wykonywać w różnych pracach. Ważne jest też aby zapamiętać, że nie ma wzoru ułatwiającego potęgowanie i logarytmowanie sumy dwóch liczb lub wyrażeń. • Dość istotny jest wzór pokazujący, że logarytm o pewnej podstawie można przekształcić przez pomnożenie przez pewną stałą na logarytm o innej podstawie. Można zatem posługiwać się logarytmami o ustalonych z góry podstawach. W naukach przyrodniczych przyjęły się następujące logarytmy: • o podstawie 2: log2x • o podstawie równej stałej e=2.71828... , tzw. logarytm naturalny: ln(x) • o podstawie równej 10: log10x lub log(x) Dla funkcji wykładniczych Dla funkcji logarytmicznych Związek między funkcjami wykładniczymi i logarytmicznymi
Rodzina funkcji wykładniczych f(x)=ambxdla aℝ, bℝ i mℝ+ Dziedziną funkcji jest ℝZbiorem wartości jest ℝ+ Rodzina funkcji wykładniczych pozornie zawiera trzy różne parametry. Ale ponieważ m=elnm to ambx=ae(blnm)x. Liczby blnm przebiegają cały zbiór liczb rzeczywistych i można je zastąpić jednym parametrem o tej własności. Rodzina funkcji wykładniczych jest zatem dwuparametrowa. Stosowanie stałej e jako uniwersalnej podstawy funkcji logarytmicznych jest standardem w biologii i inne podstawy używane są znacznie rzadziej (pojawia się czasem 2x, częściej 10x). Czasem też funkcje wykładnicze nazywa się exponentialnymi. W pracach anglosaskich stosowana jest nazwa funkcji exp(x), co oznacza po prostu ex i należy to zapamiętać. Nazwa exp jest uniwersalna, pojawia się w programach komputerowych, tekstach naukowych, czasem w prasie. Funkcje wykładnicze są monotoniczne (rosnące dla a>0, malejące dla a<0, stałe dla a=0), dla x=0 przyjmują wartość równą b. Przybliżają procesy, które są określone dla wartości ujemnych i dodatnich, ale mają zawsze wartości dodatnie oraz takie, które są określone wprawdzie tylko dla wartości dodatnich ale rozpoczynają się dla określonej różnej od zera wartości (np. procent osobników przeżywających dany czas – zaczyna się od 100 a wraz z upływem czasu maleje do 0). Wystarczy rozpatrywać rodzinę dwuparametrową: f(x)=aebxdla aℝ, bℝ UWAGA!!! ex=exp(x) f(x)=a.exp(bx)dla aℝ, bℝ
Rodzina funkcji logarytmicznych f(x)=aln(x)+bdla aℝ, bℝ Dziedziną funkcji jest ℝ+Zbiorem wartości jest ℝ • Rodzina funkcji logarytmicznych przypomina rodzinę funkcji liniowych, z tym tylko, że parametr x jest tu logarytmowany. Powoduje to, że funkcje te zmieniają tempo wzrostu (spadku) na wolniejsze (zwalniają). • Stosowane są w biologii dla procesów: • przyjmujących wartości dodatnie i malejące do 0 albo rosnące od 0 dla pewnego większego od 0 argumentu • przyjmujących dowolne wartości rzeczywiste, których wzrost (spadek) przebiega początkowo szybko, a potem zwalnia.
Rodzina funkcji logistycznych f(x)=1/(1+exp(-(ax+b)))dla aℝ, bℝ Dziedziną funkcji jest ℝZbiorem wartości przedział (0,1) Funkcje logistyczne należą do grupy funkcji o kształcie „esowatym” i stosowane są wszędzie tam, gdy zbór wartości funkcji jest ograniczony ze względu na swoją definicję (np. są nimi prawdopodobieństwa). Wydawałoby się, że wstawiony znak - w mianowniku przy potędze liczby e, jest niepotrzebny. Nie mniej taka notacja powoduje, że przebieg funkcji logistycznej f(x) można kojarzyć z przebiegiem funkcji liniowej y=ax+b. Gdy a>0 to funkcja liniowa y=ax+b oraz funkcja logistyczna rosną. Gdy a<0 obie te funkcje maleją. Rodzina funkcji logistycznych ma szereg uogólnień związany z rozważaniem trzeciego parametru A>0, tak aby wartości funkcji mieściły się od 0 do A. Często tez rozważa się funkcje dane takim samym wzorem, jak funkcje logistyczne, ale nie koniecznie obustronnie ograniczone. Uzyskuje się je, gdy funkcja logistyczna zapisana jest w postaci f(x)=A/(1+b.exp(-ax))) i rozważany będzie parametr b<0. Ciekawym uogólnieniem funkcji logistycznych jest czteroparametrowa rodzina funkcji Richardsa: f(x)=1/(1+b.exp(-ax))m obejmująca większość „esowatych” funkcji rozważanych dla opisu wzrostu (długości, objętości, masy) osobników: funkcji Bertalanfy’ego (m=2/3) i Gompertza (m0). Uogólnienia:f(x)=A/(1+exp(-(ax+b)))dla A ℝ+, aℝ, bℝf(x)=A/(1+b.exp(-ax)) dla A ℝ+, aℝ, bℝf(x)=A/(1+b.exp(-ax))m dla A ℝ+, aℝ, bℝ, mℝ
Rodzina funkcji normalnych dla mℝ, sℝ+ Dziedziną funkcji jest ℝ Zbiorem wartości przedział Funkcje normalne są chyba najczęściej używane w biologii, choć czasem ich użytkownicy nie zdają sobie z tego sprawy. Przybliżają one gęstości rozkładu większości zmiennych „pomiarowych” np. długości jakiś organów, masy, objętości, stężeń pierwiastków i związków niezbędnych do budowy materii żywej (tzw. fizjologicznych) i szeregu innych. Zmienne te obok tego, że mają wartości rzeczywiste (mowa o wielkościach bez błędu pomiarowego) to jeszcze charakteryzują się pewną średnią wartością, najczęstszą wartością wokół której można spodziewać się pewnego rozrzutu. Używanie funkcji normalnych związane jest ze stosowaniem w pracach testów parametrycznych. Przypominam, że testy służą do wyliczania stopnia istotności p służącego do oceny zdań pojawiających się w wynikach pracy. Testy parametryczne będą przerabiane na statystyce, jako że pojawiają się bardzo często w pracach biologicznych. Należy przy tym pamiętać, że wiąże się to z określonym patrzeniem na przyrodę. Funkcje normalne pojawiają się w probabilistyce jako gęstości rozkładów granicznych dla innych rozkładów, przy wyliczaniu gęstości rozkładu błędu przypadkowego, w prawach wielkich liczb i innych twierdzeniach, o których będzie jeszcze mowa. Uzasadnia to patrzenie na rozkłady wielu wielkości pomiarowych, jako na rozkłady normalne, nawet wtedy gdy przybliżamy nimi wielkości zawsze dodatnie, podczas gdy rozkład normalny określony jest dla wszystkich liczb rzeczywistych . Pole powierzchni obszaru między wykresem, a osią 0X jest zawsze równe 1 !!!
Rodziny funkcji trygonometrycznych f(x)=bcos(ax)=bsin(ax-p/2) dla aℝ, bℝ Dziedziną funkcji jest ℝ Zbiorem wartości przedział [-b,b] Funkcje trygonometryczne pojawiające się w biologii – to przede wszystkim funkcje sinus i cosinus służące do przybliżania procesów zmieniających się cyklicznie (wielkości zmieniających się w cyklu dobowym lub rocznym). Bardzo rzadko używa się funkcji tangens i cotangens. Warto jednak zapamiętać, że tangens po angielsku to tangent (tak samo jak styczna) i w krajach angielskojęzycznych stosowany jest czasem skrót tan. Funkcje odwrotne do trygonometrycznych (tzw. funkcje cyklometryczne) to arcussinus (arcsin), arcuscosinus (arccos), arcustangens (arctg, atan) i arcuscotangens (arcctg, acotan). Funkcji arctg używa się czasem tak, jak funkcji logistycznych – do przybliżania procesów o ograniczonym zbiorze wartości, których wykres wygląda jak rozciągnięte S. f(x)=tg(ax+b)=ctg(ax+b-p/2) dla aℝ, bℝ+ Dziedziną funkcji jest przedział Zbiorem wartości jest ℝ
Inne rodziny funkcji Rodzina funkcji lognormalnych Bardzo wiele różnych rodzin funkcji danych mniej lub bardziej złożonymi wzorami definiuje się dla gęstości rozkładów zmiennych ciągłych. Jedną z nich jest rodzina funkcji logarytmiczno-normalnych określona tylko dla wartości dodatnich. Inne powstają poprzez wyliczanie rozkładu zmiennych o znanym rozkładzie (np. normalnym) przekształconych w odpowiedni sposób. W modelowaniu procesów biologicznych pojawiają się jeszcze inne rodziny funkcji. Przykładowo jednym z mechanizmów regulacyjnych populacji jest zmniejszenie się średniej liczby jednorazowo rodzonych potomków przez samicę przy zmniejszeniu się zasobów w środowisku przypadających na jednego osobnika populacji. Zmniejszenie to jest liniowe, ale nie może być mniejsze od zera. Dla opisania tego procesu używam rodziny funkcji danych podanym wzorem. Są to funkcje prawie liniowe, ale przy dochodzenia do 0 zaginają się i zmierzają do 0. Wykonany przegląd najbardziej typowych rodzin funkcji nie wyczerpuje wszystkich funkcji pojawiających się w biologii. Zawsze też można zdefiniować swoją własną rodzinę, np. cos2(1+exp(ax)) albo ln(10+a.cos(x)), itd. Sparametryzowanych rodzin funkcji jest nieskończenie wiele. Jest ich nieskończenie wiele nawet wtedy gdy ograniczymy się do rodzin mających jeden parametr. Rodzina funkcji o wzorze:
Stosowanie rodzin funkcji danych wzorami w biologii 1. Wybór funkcji z wybranej rodziny do zobrazowania zależności między zmiennymi Funkcje dane wzorami pojawiają się w biologii często i zawsze są to przedstawiciele jakiejś arbitralnie wybranej rodziny funkcji, których parametry zostały w odpowiedni sposób wyliczone. Pokazanie funkcyjnej zależności pewnej charakterystyki zmiennej od innych zmiennych (tzw. czynnikowych) umożliwia wyliczanie wartości tej charakterystyki dla zadanych wartości zmiennych czynnikowych. W praktyce jest to robione dość rzadko. Najczęściej odpowiedni wzór jest traktowany jako wynik badań. Teoretycznie może on być wykorzystany w innych pracach, ale częściej jest weryfikowany lub uzupełniany. W niektórych pracach pojawiają wzory opisujące zależność zmiennych od siebie wyposażone w parametry, którym nadaje się pewna wartość biologiczną. Zastosowanie takich wzorów umożliwia wyliczenie wzorów funkcji opisującej przebieg zależności pokrewnych. Większej liczby przekształceń należy dokonać przy tworzeniu modeli procesów biologicznych. Zawsze jednak punktem wyjściowym są funkcyjne opisy jakiejś zależności zmiennych od siebie i najczęściej są to wybory jakiś rodzin funkcji. Relacja miedzy X i Y uzyskana na podstawie badań Funkcja pokazująca jak średnie (lub inna zbiorcze charakterystyki) rozkładów Y zależy od X 2. Do zobrazowania przebiegu zależności wynikającej z przekształcenia wyznaczonej wcześniej funkcji z parametrami (np. tempa wzrostu/spadku zależności między zmiennymi) 3. Do utworzenia modelu funkcjonowania zjawisk biologicznych
Stosowanie w biologii rodzin funkcji danych wzorami Wybór sparametryzowanej rodziny funkcji do opisu jakiejś zależności Operowanie wzorami w biologii zawsze rozpoczyna się od założenia, że pewien proces przebiega zgodnie z pewną funkcja wybraną z góry założonej sparametryzowanej rodziny funkcji. Czasem podpieramy się przy tym literaturą (ktoś po prostu wcześniej używał takiej rodziny funkcji). Jest to taki etap analizy przyrody, w którym dokonuje się pewnych założeń. Nie ma sposobu by dowieść, że założenia te są słuszne. Całe więc dalsze rozumowanie polegające na dopasowaniu danych do któregoś przedstawiciela wybranej rodziny funkcji, albo przekształcanie funkcji tak by wyprowadzić wzory dla innych zmiennych, ma charakter logicznej implikacji: Jeżeli założymy, że dany proces przebiega zgodnie z funkcjami ...., to ..... Przekształcenie funkcji i wyznaczenie nowej zależności Wielokrotne przekształcenia sparametryzowanych funkcji i utworzenie modelu funkcjonowania jakiegoś procesu Dopasowanie funkcji do danych (wyznaczenie wartości parametrów tak aby uzyskać funkcje najlepiej dopasowana do danych) czasami
Zobrazowanie zależności zmiennych od siebie 1. Wybór sparametryzowanej rodziny funkcji 2. Określenie kryterium najlepszego dopasowania Jednym z elementów pracy biologa jest dopasowanie danych do jakiejś funkcji wybranej z arbitralnie określonej rodziny. Co to znaczy? Dane w postaci wyników pomiarów dwóch zmiennych X i Y tworzą na wykresie jakąś chmurę punktów. Funkcje z wybranej rodziny cechują się jakąś zmiennością kształtu i niektóre są lepiej, inne gorzej dopasowane do danych. Czasami widać, że niektóre rodziny funkcji nie zupełnie odpowiadają rozkładowi punktów na wykresie, ale wiele z rodzin funkcji ma przedstawicieli przebiegających bardzo podobnie o wykresach wręcz nakładających się na przedstawicieli rodzin innych funkcji. Jaką rodzinę funkcji wybrać? Kolejna rzecz, która wpływa na ostateczny wynik – to kryterium najlepszego dopasowania funkcji do danych. Można ich wymyślić bardzo wiele, ale na szczęście przyjęło się tylko jedno. 3. Wyznaczenie parametrów, dla których funkcje z zadanej rodziny spełniają kryterium najlepszego dopasowania
Przy wyborze sparametryzowanej rodziny funkcji kierujemy się fizycznymi własnościami analizowanych zmiennych. Większość zmiennych fizycznych (takich jak masa ciała, długość, temperatura, prawdopodobieństwo) ma ograniczony zbiór wartości. Gdy uzależniamy zmiany wartości takich zmiennych od wartości innej zmiennej – najlepiej jest wybrać rodzinę funkcji mających zawsze wartości mieszczące się w odpowiednim przedziale. Często też wiemy, że zależność jednej zmiennej od drugiej ma charakter monotoniczny. Ograniczamy się wtedy do takiej rodziny funkcji, które są monotoniczne. W najlepszej sytuacji są ci, którzy operują rodziną funkcji wynikającą z modelu funkcjonowania jakiegoś zjawiska. Jest to jednak dość rzadkie. Innego typu kryteria - to mała liczba parametrów lub ich fizyczna interpretowalność. Wymóg ten stoi najczęściej w sprzeczności z trzema pierwszymi kryteriami. Najłatwiej interpretować parametry funkcji liniowych, ale funkcje liniowe są nieograniczone. W praktyce zatem stosuje się głównie kryterium 6. Robi się dokładnie to, co zrobili już inni, co zostało opublikowane w pracach naukowych, a wiec zaakceptowane przez recenzentów i redakcję pisma naukowego. Oczywiście takie postępowanie nie jest obowiązkowe. Wszelkie nowe pomysły, na lepszy od stosowanego do tej pory opis zależności zmiennych od siebie, są w pracach studentów jak najbardziej wskazane. Szybkość współczesnych komputerów powoduje, że często można wyznaczyć najlepiej dopasowane funkcje pochodzące z różnych rodzin. Wydaje się zatem, że wybranie rodziny funkcji której przedstawiciel najlepiej pasuje do danych, jest jakimś kryterium wyboru sparametryzowanej rodziny funkcji. Nie jest to żadne kryterium. Po pierwsze, nie jesteśmy wstanie wykryć w ten sposób prawdziwej funkcji stosowanej przez przyrodę. Po drugie, nie ma możliwości przejrzenia wszystkich sparametryzowanych rodzin funkcji – bo jest ich nieskończenie wiele. W dodatku dla każdej wybranej rodziny funkcji można zdefiniować inną rodzinę, której przedstawiciele są jeszcze lepiej dopasowani do danych. Kryteria wyboru sparametryzowanej rodziny funkcji do opisu zależności zmiennych od siebie • Zgodność z fizycznymi własnościami zmiennych (jeżeli zmienne mogą przyjmować tylko wartości dodatnie nie używamy funkcji przyjmujących wartości ujemne) • Zgodność z fizyczną własnością zależności zmiennych od siebie (jeżeli jedna zmienna może powodować tylko wzrost/spadek wartości drugiej zmiennej - stosujemy funkcje monotoniczne) • Zgodność z modelem funkcjonowania jakiegoś zjawiska • Mała liczba parametrów • Taki charakter parametrów, aby można im było nadać interpretację biologiczną (np. przy stosowaniu rodziny funkcji liniowych y=ax+b parametr a jest tempem wzrostu/spadku zależności jednej zmiennej od drugiej) • Rodziny funkcji, które były stosowane przez innych badaczy w opublikowanych pracach • Przejrzenie kilku rodzin funkcji i wybranie takiej, dla której uzyskuje się najlepsze dopasowanie wg. przyjętego kryterium
osiąga minimum miara dopasowania Kryteria najlepszego dopasowania Kryteria najlepszego dopasowania powinny byś oparte o odległości punktów od wykresu funkcji i być określone taka formułą (funkcja wieloczynnikową F), która względem pojedynczego argumentu (przy ustalonych wartościach pozostałych) jest funkcja rosnącą. Funkcji takich jest bardzo dużo. Kolejny problem polega na określeniu co rozumiemy przez odległość punktu od wykresu funkcji. Najprostsze stwierdzenie, że jest to minimalna odległość punktu od tego wykresu – daje dość skomplikowaną procedurę obliczeniową. Odległości można wyznaczać biorąc pod uwagę rzuty pionowe lub poziome punktów na wykres funkcji. Każda z funkcji F oraz przyjęty rodzaj wyliczania odległości daje nieco inne funkcje wybrane z ustalonej rodziny jako spełniające warunek najlepszego dopasowania. W naukach przyrodniczych przyjęło się określanie odległości jako długość rzutów pionowych punktów na wykres funkcji i funkcja F równa sumie kwadratów tych odległości. Ten sposób wyznaczania parametrów funkcji z danej rodziny najlepiej dopasowana do danych nazywa się metodą najmniejszych kwadratów. Jej stosowanie ma swoje statystyczne uzasadnienie (wyznaczone w ten sposób funkcje są najlepszym przybliżeniem tzw. regresji i dlatego nazywane są często regresjami). Z metodą najmniejszych kwadratów wiąże się także wskaźnik dopasowania funkcji do danych nazywany wsp. determinacji lub kwadratem wsp. korelacji. Dla najlepiej dopasowanej funkcji z danej rodziny jest od maksymalny. Metoda ta stosowana jest przy wyliczaniu tzw. trendów w Excelu. Suma odległości danych wyrażonych w postaci punktów od wykresu funkcji była jak najmniejsza Suma kwadratów odległości danych wyrażonych w postaci punktów od wykresu funkcji była jak najmniejsza Inne definicje w oparciu o funkcje F(r1,...,rn) rosnące przy wzroście każdej odległości r1,...,rn Różne sposoby definiowania odległości punktów od wykresu funkcji osiąga minimum miara dopasowania
Kość skokowa u ptaków wróblowatych rośnie tylko w pierwszych dwóch-trzech tygodniach życia i zależy od warunków panujących w okresie pisklęcym ptaków. Mierząc w okresie zimowym długość kości skokowej i ciężar całego ptaka możemy pokazać jak okres pisklęcy istotnie wpływa na ciężar dorosłych osobników. Na wykresach pokazane są wyniki ważeń i pomiarów 76 mazurków (Passer montanus) złowionych w czasie noclegów w budkach w okresie od grudnia do lutego. Chce za pomocą funkcji pokazać jak długość kości skokowej wiąże się ze średnim ciężarem ptaków. Nie mam żadnej gwarancji, że jest to funkcja liniowa. Zastosowanie wielomianów stopnia szóstego daje mi funkcję cechującą się lepszym dopasowaniem. Ale wahania tej funkcji nie potrafiłabym w żaden sposób uzasadnić. Funkcja liniowa pozwala mi na stwierdzenie, że przy zmianie długości kości skokowej o 1mm zimowy ciężar ptaków wzrośnie średnio o 0.6g. Interpretacja przebiegu wielomianu byłaby bardzo skomplikowana i nie wzbudzałaby wiarygodności (w końcu mamy tylko trochę zbadanych ptaków i pomiary z dokładnością do 0.5mm i 0.01g, a wyciągamy wnioski dla całej populacji i dokładnych wartości). Zastosowanie innych kryteriów najlepszego dopasowania dla funkcji liniowych daje funkcje znacznie różniące się od siebie. Różowym kolorem zaznaczono prostą uzyskaną przy warunku, że suma kwadratów odległości poziomych od wykresu funkcji ma mieć wartość minimalną. Przy stosowaniu takiego kryterium twierdziłabym, że wzrost długości skoku o 1mm wiąże się ze wzrostem ciężaru zimowego mazurków o 1,6g. Przykład 1 Różne rodziny funkcji i metoda najmniejszych kwadratów Rodziny funkcji liniowych i różne kryteria dobrego dopasowania funkcji
osiąga minimum osiąga minimum Na wykresie przedstawiono masę materii organicznej opadającą w ciągu roku na ziemię w lasach sosnowych występujących od górnej granicy występowania sosen (w Finlandii) po rejony Polski. Ponieważ wiadomo z literatury, że tempo opadu materii organicznej wzrasta z północy na południe, do opisania zależności między masą materii organicznej spadającej na ziemię, a szerokością geograficzną zastosowano rodzinę funkcji wykładniczych: y=b.exp(ax). Rodzina funkcji wykładniczych ma te własność, że ln(y)=ln(b.exp(ax))=ln(b)+ln(exp(ax))=ln(b)+ax=ax+ln(b) Zależność między zlogarytmowanymi wartościami masy materii organicznej, a szerokością geograficzną jest liniowa. Możemy wyliczyć współczynniki regresji liniowej między tymi wielkościami. Współczynnik a jest równy współczynnikowi nachylenia regresji, a współczynnik b wyliczymy za pomocą funkcji exp od wyrazu wolnego tej regresji. Rzecz w tym, że takie postępowanie nie jest stosowaniem metody najmniejszych kwadratów. Funkcja wyliczona właściwą metodą najmniejszych kwadratów ma inne wartości parametrów. W programach takich jak Excel czy arkusz kalkulacyjny Open-Office przy wyliczaniu trendów na wykresach stosowane są różne przekształcenia zmiennych, tak aby stosowana rodzina funkcji stała się liniowa i dopiero dla takich zmiennych wyliczana jest regresja. Należy pamiętać, że nie jest to to samo, co metoda najmniejszych kwadratów zastosowana dla nieliniowych rodzin funkcji. Przykład 2 Różne kryteria dopasowania
Na koniec pozostaje wyjaśnienie jak wyliczamy regresje. Przede wszystkim należy pogodzić się z tym, że w biologii nie jest ważna znajomość wzorów i sposobów ich wyprowadzania dla określonych wielkości i charakterystyk, ale poprawność ich wyliczania. Mamy teraz do dyspozycji komputery i obowiązuje was umiejętność wyliczania regresji zarówno liniowych jak i nieliniowych za pomocą odpowiednich programów. Liniowe regresje wyliczyć jest najłatwiej – są wyprowadzone wzory dla parametrów a i b. Wzory istnieją także dla regresji wielomianowych i są to już wszystkie funkcje o tej własności. Parametry wszystkich pozostałych regresji nieliniowych wyznacza się metodami numerycznymi. Oznacza to, że po przyjęciu jakiś wartości początkowych dla parametrów za pomocą odpowiedniego algorytmu wylicza się kolejne parametry tak aby suma kwadratów odchyleń danych od funkcji była mniejsza, dla nich znowu kolejne parametry itd. Postępuje się tak dotąd, dokąd suma kwadratów odchyleń danych od funkcji przestaje się zmniejszać. Istnieje kilka algorytmów wyliczania parametrów, przy czym metoda Gaussa-Newtona jest poprawionym algorytmem największego spadku, metoda Levenberga-Marquardta jest poprawionym algorytmem Gaussa-Newtona. Poprawki te polegały tylko i wyłącznie na zwiększeniu szybkości uzyskiwania wyniku, ale jego wartość pozostawała taka sama. Uwaga, metody te polegają na wyliczaniu minimum lokalnego, zależą zatem od wartości początkowych wprowadzonych parametrów. Bywa, że trzeba rozważyć kilka zestawów wartości początkowych aby wykryć rzeczywiste minimum. Są też takie złośliwe rodziny funkcji (tzw. K-funkcje), dla których suma kwadratów odchyleń danych od funkcji ma nieskończenie wiele minimów lokalnych. Wynik stosowania opisanych metod jest inny za każdym wprowadzeniem parametrów początkowych. Wtedy pozostaje już tylko wyliczanie sumy kwadratów odchyleń danych od funkcji przy krokowych zmianach wartości parametrów i wybieranie takiego zestawu parametrów dla której suma ta była najmniejsza. Robi się to oczywiście za pomocą programów komputerowych. Metody wyliczania regresji Regresja liniowa (wzory) Regresja nieliniowa (metody numeryczne) 1. Metoda największego spadku 2. Metoda Gaussa-Newtona 3. Metoda Levenberga-Marquardta Uwaga!!! Należy znaleźć przybliżone wartości parametrów!!! Wszystkie te metody dają ten sam wynik!!!