1 / 17

UMR 7619 Sisyphe 17-19 Avril 2012

Le langage . une introduction pragmatique . Description des données, analyse statistique. UMR 7619 Sisyphe 17-19 Avril 2012. Alexandre Pryet. Description des données et analyse statistique : programme. Description des données Cross-plot, régressions

armina
Download Presentation

UMR 7619 Sisyphe 17-19 Avril 2012

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le langage une introduction pragmatique Description des données, analyse statistique UMR 7619 Sisyphe 17-19 Avril 2012 Alexandre Pryet

  2. Description des données et analyse statistique : programme • Description des données • Cross-plot, régressions • Test de Student, Wilcoxon Signed Rank Test

  3. Description des données : analyse quantitative R dispose d'une série de fonction pour décrire la distribution d'une ou plusieurs variable aléatoire Charger le fichier forest_data.csv, créer une nouvelle colonne misfit pour calculer l'écart entre Thfall.obs et Thfall.mod Décrire ce vecteur avec les fonctions ci-dessus.

  4. Analyse de données : méthodes graphiques R dispose d'une série de méthodes graphiques pour décrire la distribution des variables : histogrammes, box plot et courbe de distribution

  5. Analyse de données : histogrammes hist(forest$misfit, breaks=seq(min,max,step),xlim=c(min.graph,max.graph), … ) ou :breaks=10 Le paramètre breaks gère l'intervalle et le pas de l'histogramme, mais ne contrôle pas l'affichage du graphique, qui est géré par xlim. Ne pas les confondre ! Note : il est tout à fait possible de diriger le résultat de hist() ver une variable ou une fonction, puis en extraire les données : misfit.hist<-hist(forest$misfit) ; str(misfit.hist) ; plot(misfit.hist)

  6. Analyse de données : boxplots par(mar=c(2,4,4,2)) boxplot(forest$misfit,range=10,outline=F,…) Note : vous pouvez bien sûr faire plusieurs boxplot dans le même graphique avec l'option add=TRUE

  7. Analyse de données, exercice 1 : histogramme + boxplot Fonctions utiles : hist() ; boxplot(…,add=TRUE)

  8. Analyse de données, exercice 1 : histogramme + boxplot Quelques éléments pour réaliser le graphique précédent : hist(forest$misfit,breaks=…, xlim=…, ylim=…, xlab='…', main='…') boxplot(forest$misfit,range=…,at=…,boxwex=…,cex=…, horizontal=TRUE,add=TRUE,axes=FALSE,outline=FALSE) mtext(bquote(paste( bar(mu)==.(round(mean(na.omit(forest$misfit)),2)), " ", sigma==.(round(sd(na.omit(forest$misfit)),2)) ))) axis(1)

  9. Analyse de données : méthodes graphiques plot(ecdf(forest$misfit),do.points=FALSE, verticals=TRUE, lwd=2,xlab="…",main="…") axis(1)

  10. Régressions linéaires • La base, avant de faire une régression linéaire c'est : • faire un graphique de type cross-plot • vérifier la présence effective de l'alignement tant espéré • si alignement il y a, de combien de points ? • La régression se fait ensuite avec la fonction lm() • # régression de type y=c1+c2*x • model <- lm(y~x) • # régression de type y=c*x • model <- lm(y~0+x)

  11. Régressions linéaires • # régression de type y=c1+c2*x • model <- lm(y~x)

  12. Régressions linéaires : exercice Importer les données du fichierprecipitations_cum.csv, puis faire le graphique ci-dessous. Il s'agit de la pluie nette cumulée (TFcum, en ordonnées) et de la pluie cumulée (Pcum , en abscisse). On peut montrer que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Avec p [-]le coefficient d'ouverture et S[mm] le coefficient de stockage du couvert végétal, que l'on cherche à déterminer

  13. Régressions linéaires : exercice Excercice : déterminer p et S par régression linéaire, sachant que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Fonctions utiles : lm() plot() abline() summary() legend()

  14. Tests La moyenne d'un échantillon dont la distribution est normale suit la loi de Student.

  15. La loi de student Loi de Student (distribution de la moyenne), d'une variable suivant une loi normale centrée réduite (μ=0, σ=1) Fonctions utiles : qt (1-α/2,df)

  16. Le test t • Hypothèse : la variable misfit suit une distribution normale • La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : t.test > t.test(forest$misfit,conf.level=0.95) One Sample t-test data: forest$misfit t = -3.8399, df = 307, p-value = 0.0001495 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.013333085 -0.004298107 sample estimates: mean of x -0.008815596

  17. Le Wilcoxon signed rank test • Hypothèse : la variable misfit suit une distribution normale • La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : wilcox.test() > wilcox.test(forest$misfit) Wilcoxon signed rank test with continuity correction data: forest$misfit V = 12346, p-value = 9.928e-05 alternative hypothesis: true location is not equal to 0

More Related