170 likes | 322 Vues
Le langage . une introduction pragmatique . Description des données, analyse statistique. UMR 7619 Sisyphe 17-19 Avril 2012. Alexandre Pryet. Description des données et analyse statistique : programme. Description des données Cross-plot, régressions
E N D
Le langage une introduction pragmatique Description des données, analyse statistique UMR 7619 Sisyphe 17-19 Avril 2012 Alexandre Pryet
Description des données et analyse statistique : programme • Description des données • Cross-plot, régressions • Test de Student, Wilcoxon Signed Rank Test
Description des données : analyse quantitative R dispose d'une série de fonction pour décrire la distribution d'une ou plusieurs variable aléatoire Charger le fichier forest_data.csv, créer une nouvelle colonne misfit pour calculer l'écart entre Thfall.obs et Thfall.mod Décrire ce vecteur avec les fonctions ci-dessus.
Analyse de données : méthodes graphiques R dispose d'une série de méthodes graphiques pour décrire la distribution des variables : histogrammes, box plot et courbe de distribution
Analyse de données : histogrammes hist(forest$misfit, breaks=seq(min,max,step),xlim=c(min.graph,max.graph), … ) ou :breaks=10 Le paramètre breaks gère l'intervalle et le pas de l'histogramme, mais ne contrôle pas l'affichage du graphique, qui est géré par xlim. Ne pas les confondre ! Note : il est tout à fait possible de diriger le résultat de hist() ver une variable ou une fonction, puis en extraire les données : misfit.hist<-hist(forest$misfit) ; str(misfit.hist) ; plot(misfit.hist)
Analyse de données : boxplots par(mar=c(2,4,4,2)) boxplot(forest$misfit,range=10,outline=F,…) Note : vous pouvez bien sûr faire plusieurs boxplot dans le même graphique avec l'option add=TRUE
Analyse de données, exercice 1 : histogramme + boxplot Fonctions utiles : hist() ; boxplot(…,add=TRUE)
Analyse de données, exercice 1 : histogramme + boxplot Quelques éléments pour réaliser le graphique précédent : hist(forest$misfit,breaks=…, xlim=…, ylim=…, xlab='…', main='…') boxplot(forest$misfit,range=…,at=…,boxwex=…,cex=…, horizontal=TRUE,add=TRUE,axes=FALSE,outline=FALSE) mtext(bquote(paste( bar(mu)==.(round(mean(na.omit(forest$misfit)),2)), " ", sigma==.(round(sd(na.omit(forest$misfit)),2)) ))) axis(1)
Analyse de données : méthodes graphiques plot(ecdf(forest$misfit),do.points=FALSE, verticals=TRUE, lwd=2,xlab="…",main="…") axis(1)
Régressions linéaires • La base, avant de faire une régression linéaire c'est : • faire un graphique de type cross-plot • vérifier la présence effective de l'alignement tant espéré • si alignement il y a, de combien de points ? • La régression se fait ensuite avec la fonction lm() • # régression de type y=c1+c2*x • model <- lm(y~x) • # régression de type y=c*x • model <- lm(y~0+x)
Régressions linéaires • # régression de type y=c1+c2*x • model <- lm(y~x)
Régressions linéaires : exercice Importer les données du fichierprecipitations_cum.csv, puis faire le graphique ci-dessous. Il s'agit de la pluie nette cumulée (TFcum, en ordonnées) et de la pluie cumulée (Pcum , en abscisse). On peut montrer que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Avec p [-]le coefficient d'ouverture et S[mm] le coefficient de stockage du couvert végétal, que l'on cherche à déterminer
Régressions linéaires : exercice Excercice : déterminer p et S par régression linéaire, sachant que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Fonctions utiles : lm() plot() abline() summary() legend()
Tests La moyenne d'un échantillon dont la distribution est normale suit la loi de Student.
La loi de student Loi de Student (distribution de la moyenne), d'une variable suivant une loi normale centrée réduite (μ=0, σ=1) Fonctions utiles : qt (1-α/2,df)
Le test t • Hypothèse : la variable misfit suit une distribution normale • La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : t.test > t.test(forest$misfit,conf.level=0.95) One Sample t-test data: forest$misfit t = -3.8399, df = 307, p-value = 0.0001495 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.013333085 -0.004298107 sample estimates: mean of x -0.008815596
Le Wilcoxon signed rank test • Hypothèse : la variable misfit suit une distribution normale • La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : wilcox.test() > wilcox.test(forest$misfit) Wilcoxon signed rank test with continuity correction data: forest$misfit V = 12346, p-value = 9.928e-05 alternative hypothesis: true location is not equal to 0