Herve Aide Memoire Que
Herve Aide Memoire Que
Herve Aide Memoire Que
Avant-propos
Lors de mon stage de Master 2, jai ralis une chose importante : en biologie, les statistiques sont essentielles. Jai aussi ralis une autre chose importante : je ny connaissais rien. Et par dessus tout, jen avais horreur. Mais tant oblig den passer par l, je my suis mis. Et jai alors ralis une chose encore plus importante : il ny a pas besoin dtre statisticien pour analyser ses donnes. Il faut simplement savoir se poser un peu, rchir ltude quon a men (ou mieux, ltude quon va mener), et tre rigoureux. Pour le reste, tout est disponible dans les livres ou sur internet. Jai donc dcid de me former dans mon coin la statistique applique la biologie. Je me suis alors confront un problme qui ma fait perdre beaucoup de temps, un temps que la plupart des stagiaires nont pas : il existe de trs nombreux et trs bons documents sur le sujet, mais trs peu qui regroupent les analyses de base, celles que lon rencontre le plus souvent. An de ne pas oublier tout ce que javais appris par - ci, par - l, jai donc voulu me rdiger un petit document de synthse. Finalement, jai dcid den faire un vritable aide - mmoire et de le mettre la disposition des autres tudiants. Lobjectif (ambitieux) de cet ouvrage est donc dtre pour vous le guide que jaurais aim avoir lors de mon stage. Utiliser cet aide - mmoire ne demande que trs peu de connaissances en statistiques. Savoir ce que sont une moyenne, une variance, une mdiane ou un intervalle de conance est susant. Par contre, il exige une chose : si vous voulez quil vous prenne par la main, il faut que vous en ayez envie. Jentends par l quil est indispensable de se poser des questions : quelle question mon tude doit - elle rpondre ? Quel dispositif vais - je mettre en place pour y rpondre ? Que vais - je contrler, que vais - je observer dans ltude ? Comment vais - je utiliser mes rsultats ? Si lon prend le temps de se poser ces questions, et surtout le temps dy apporter une rponse, analyser ses donnes nest pas compliqu. Vous verrez mme quil est trs agrable de comprendre ce que lon fait, et pourquoi on le fait. Peut - tre mme que comme moi, vous prendrez got aux statistiques. Mais si par contre vous ne vous voulez pas prendre le temps de rchir votre travail, malgr toute la bonne volont que jai mise crire cet ouvrage le plus simplement possible, je ne peux rien pour vous. Pour raliser lanalyse des rsultats, jai choisi dutiliser R, qui est la fois un langage informatique et un logiciel. Jai fait ce choix car il est gratuit et libre, ce qui vous permet de lutiliser absolument partout. De plus, il est extrmement puissant et son caractre libre fait que de nombreux utilisateurs sinvestissent pour lamliorer et lenrichir en permanence. Enn, pass le dgot ventuel davoir crire soi - mme des lignes de commande, vous verrez que R est simple utiliser et que mieux, il permet (car il loblige) de comprendre ce que lon fait.
Comme pour la thorie statistique, utiliser cet aide - mmoire nexige que trs peu de connaissances sur R. Il ncessite seulement de savoir crer les objets de base du langage (vecteur, tableau, matrice) et de savoir eectuer des manipulations simples sur ces objets. Si ces bases ne sont pas acquises, vous pouvez vous rfrer certains documents dintroduction R cits dans la bibliographie. Noubliez pas galement qu chaque fonction dans R est associe une page daide, que lon appelle par la syntaxe ?fonction. Il est trs important pour moi dtre en contact avec les utilisateurs de cet aide - mmoire, car cest grce cela que je peux lamliorer. Je remercie donc toutes les personnes qui mcrivent pour me poser des questions ou pour rectier des erreurs. Ce sont elles qui me donnent envie de le clarier, de lenrichir et de le corriger. Je vous invite donc sincrement menvoyer un e - mail (mx.herve@gmail.com) si vous trouvez quun point nest pas clair, quun autre mriterait dtre ajout ou approfondi, ou encore quil subsiste des erreurs dans le document. Certaines des fonctions prsentes dans cet ouvrage ncessitent dinstaller des packages qui ne sont pas fournis avec la distribution de base de R. Parmi ceux - ci se trouve le package RVAideMemoire, qui contient des fonctions que jai crites spcialement pour accompagner cet aide - mmoire. Son dveloppement est donc intimement li celui de ce document, et l encore je vous encourage me faire part de vos remarques, suggestions, critiques et / ou corrections. Pour nir, mme si vous navez rien dire je vous invite menvoyer un petit mail quand mme. Cela me permettra de crer une liste de diusion an dinformer un maximum dutilisateurs de la sortie de nouvelles versions de laide - mmoire et/ou du package RVAideMemoire. Jespre sincrement que ce livre comblera vos attentes et quil vous permettra de rpondre vos questions.
Sommaire
Louvrage est divis en quatre parties : La prparation de ltude : souvent trop peu dimportance y est attache. Pourtant, cette phase est au moins aussi cruciale que lanalyse des rsultats puisquelle dtermine la faon dont ceux - ci vont pouvoir tre analyss. Une tude bien prpare facilite grandement lexploitation des rsultats, tandis quune tude mal prpare entrane gnralement des complications au moment de lanalyse et de linterprtation. La prparation et limportation des donnes : cette tape apparemment simple peut poser problme par manque dexprience. Elle est pourtant cruciale, puisque des donnes mal structures ou mal importes dans R peuvent conduire une analyse compltement fausse. Lanalyse descriptive des rsultats : ce type danalyse est toujours indispensable, et selon lobjectif de ltude il peut tre susant. Lanalyse descriptive est souvent nglige pour foncer sur les tests , ce qui conduit oublier la ralit des donnes (et par consquent compliquer voire fausser linterprtation des rsultats). Lanalyse infrentielle des rsultats : ce type danalyse regroupe la dtermination des intervalles de conance et la ralisation des tests statistiques. Lanalyse infrentielle est la seule phase de ltude qui est facultative. Dans tous les cas elle doit passer aprs lanalyse descriptive.
1. 1. 2. 3. 4. 2. 5. 6. 7. 8.
PREPARATION DE LETUDE Les dirents types de variable Le plan dchantillonnage Le plan dexprience La dtermination de la taille de lchantillon PREPARATION ET IMPORTATION DES DONNEES Construction du tableau de donnes Importation du tableau de donnes dans R i Installer et charger un package i Citer R et ses packages
3. ANALYSE DESCRIPTIVE DES RESULTATS 3.1. Statistique univarie 9. Graphiques de dispersion : la fonction stripchart() 10. Histogrammes : la fonction hist() 11. Botes moustaches : la fonction boxplot() 12. La rduction des donnes une dimension
3.2. Statistique bivarie 13. Nuages de points : la fonction plot() 14. La rduction des donnes deux dimensions 3.3. Statistique multivarie Choisir son analyse multivarie Ce choix dpend de la nature des variables tudies : toutes quantitatives : ACP toutes qualitatives : deux variables : AFC plus de deux variables : ACM la fois quantitatives et qualitatives : Analyse mixte.
en Composantes Principales (ACP) Factorielle des Correspondances (AFC) des Correspondances Multiples (ACM) mixte de Hill et Smith
4. ANALYSE INFERENTIELLE DES RESULTATS 4.1. Quelques bases thoriques 4.1.1. Lois de probabilit 4.1.1.1. Lois de probabilit discontinues 19. Lois de probabilit discontinues gnralits 20. La loi binomiale 21. La loi de Poisson 22. La loi binomiale ngative 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 4.1.1.2. Lois de probabilit continues Lois de probabilit continues gnralits La loi normale La loi exponentielle La loi de 2 La loi de Fisher - Snedecor La loi de Student 4.1.2. Risques et puissance associs aux tests statistiques Principe des tests statistiques et risques associs la conclusion Le risque ou seuil de rejet La correction du seuil de rejet Le risque et la puissance du test
4.2. Identication des donnes aberrantes 33. Lidentication des donnes aberrantes 4.3. Intervalles de conance et erreur standard 34. Intervalle de conance et erreur standard 35. i Tracer un diagramme en barres avec barres derreur 4.4. Tests dhypothses 36. Les dirents types de test statistique 4.4.1. Conditions pralables lutilisation des tests Ces conditions ne sont pas toujours remplir, cela dpend du test que lon souhaite utiliser. 37. Caractre alatoire et simple dune srie de donnes 38. Ajustement une distribution thorique 39. Egalit des variances de plusieurs sries de donnes 40. Les transformations de variable 4.4.2. Ralisation des tests Souvent, plusieurs tests peuvent tre utiliss pour rpondre la mme question. Les conditions de leur emploi sont cependant plus ou moins restrictives, et leur puissance plus ou moins grande (un test plus restrictif tant gnralement plus puissant). Lorsque plusieurs tests sont disponibles ils sont prsents du plus au moins restrictif, du plus pointu au plus passe - partout . 4.4.2.1. Statistique univarie Tests sur des probabilits de rponse (variables binaires 0 / 1) Le test de conformit dune ou de plusieurs probabilit(s) de rponse avec une ou plusieurs valeur(s) thorique(s) est une dmarche identique celle du test de conformit de proportion(s). 41. Comparaison de plusieurs probabilits de rponse un facteur 42. Comparaison de plusieurs probabilits de rponse deux facteurs Tests sur des eectifs 43. Conformit de plusieurs eectifs avec des valeurs thoriques 44. Comparaison de plusieurs eectifs sans facteur (eectifs bruts) 45. Comparaison de plusieurs eectifs un facteur 46. Comparaison de plusieurs eectifs deux facteurs Tests sur des proportions 47. Conformit dune proportion avec une valeur thorique 48. Conformit de plusieurs proportions avec des valeurs thoriques 49. Comparaison de deux proportions sans rptition
50. Comparaison de plusieurs proportions sans rptition 51. Comparaison de plusieurs proportions avec rptitions et un facteur 52. Comparaison de plusieurs proportions avec rptitions et deux facteurs Rgression, analyse de variance / dviance ou analyse de la covariance ? Dans tous les cas la variable expliquer est unique et quantitative. Le choix dpend de la nature des variables explicatives : toutes quantitatives : rgression toutes qualitatives : analyse de variance / dviance la fois quantitatives et qualitatives : analyse de la covariance. Le cas des variables expliquer qualitatives nest abord ici que pour des variables binaires.
Tests sur des moyennes 53. Conformit dune moyenne avec une valeur thorique 54. Comparaison de deux moyennes 55. Comparaison de plusieurs moyennes un facteur 56. Comparaison de plusieurs moyennes deux facteurs Tests sur des temps de survie Ces tests sont traditionnellement utiliss pour comparer des temps de survie, mais ils peuvent tre appliqus nimporte quelle variable reprsentant un temps avant la survenue dun vnement. 57. Comparaison de plusieurs temps de survie 58. i Tracer des courbes de survie 4.4.2.2. Statistique bivarie Tests autour de la liaison entre deux variables 59. Indpendance de deux variables qualitatives 60. Corrlation entre deux variables 61. Conformit dun coecient de corrlation linaire avec une valeur thorique 62. Comparaison de plusieurs coecients de corrlation linaire Tests autour de la rgression 63. La rgression linaire simple au sens des moindres carrs 64. La rgression linaire simple au sens des moindres rectangles 65. Comparaison de plusieurs droites de rgression linaire simple 66. La rgression logistique binaire simple 67. La rgression non linaire simple 68. i Tracer une droite ou une courbe de rgression simple
Analyse de la covariance 69. Lanalyse de la covariance un facteur 4.4.2.3. Statistique multivarie 70. La rgression linaire multiple 71. 72. 73. 74. 4.4.3. Outils pour lutilisation des modles statistiques Construction de la formule dun modle Slection de modle Vrication de la validit dun modle La mthode des contrastes
ANNEXES Index des packages externes Bibliographie et ouvrages / documents / liens recommands
apparies. Le cas le plus simple est celui o plusieurs mesures sont ralises sur un mme individu (par exemple avant et aprs un traitement). Mais dautres cas plus subtils peuvent se prsenter : si des mesures sont ralises sur des individus apparents (ces mesures ne sont pas indpendantes car il existe une corrlation dorigine gntique entre elles), si des sries de mesures sont ralises des localisations direntes (ces mesures ne sont pas indpendantes car chaque srie est inuence par lenvironnement local) ou encore si des sries de mesures sont ralises des temps dirents (ces mesures ne sont pas indpendantes car chaque srie est inuence par ce quil a pu se passer avant). Il est trs important didentier les sries apparies lorsquelles existent, car ce ne sont pas les mmes analyses statistiques qui doivent alors tre utilises. Dans les modles statistiques, les sries apparies sont identies par lintroduction dun facteur alatoire. Pour les exemples prcdents, on a donc respectivement un facteur individu , un facteur famille , un facteur localisation et un facteur moment .
2. Le plan dchantillonnage
On utilise un plan dchantillonnage lorsque lon ralise une tude par enqute, i.e. lorsque lon collecte des informations sur un groupe dindividus dans leur milieu habituel, mais que tous les individus ne sont pas accessibles (par choix ou par contrainte). Les principales mthodes dchantillonnage peuvent tre regroupes en deux ensembles : 1. lchantillonnage alatoire : tous les individus (au sens statistique) ont la mme probabilit dtre choisis, et le choix de lun ninuence pas celui des autres. Direntes mthodes dchantillonnage alatoire existent : lchantillonnage alatoire et simple : le choix se fait parmi tous les individus de la population (au sens statistique), qui ne forme quun grand ensemble lchantillonnage strati : si la population est trs htrogne, elle peut tre divise en sous - ensembles exclusifs (ou strates). Au sein de ces strates lchantillonnage est ensuite alatoire et simple lchantillonnage en grappes : si les strates sont trs nombreuses, on en choisit certaines au hasard (les grappes). Au sein de ces grappes lchantillonnage est ensuite alatoire et simple lchantillonnage par degrs : il est une gnralisation de lchantillonnage en grappes (qui est en fait un chantillonnage du premier degr). Au sein de la population on choisit des grappes primaires , puis lintrieur de celles-ci des grappes secondaires (toujours au hasard), et ainsi du suite. . . Au dernier niveau lchantillonnage est alatoire et simple 2. lchantillonnage systmatique : un premier individu est choisi alatoirement, puis les autres sont choisis de faon rgulire partir du prcdent (dans le temps ou lespace). Lanalyse de ce type dchantillonnage, qui fait appel la statistique spatiale ou lanalyse des sries chronologiques, nest pas aborde dans cet ouvrage. Il est important didentier la mthode mise en uvre car les analyses statistiques doivent tre adaptes. Seule lanalyse de plans dchantillonnage alatoires est aborde dans cet ouvrage.
3. Le plan dexprience
On utilise un plan dexprience lorsque lon raliste une tude par exprimentation, i.e. lorsque lon provoque volontairement les faits tudier. Le plan dexprience comprend notamment le(s) facteur(s) faire varier, le nombre de rptitions raliser et le dispositif exprimental mettre en place. Lassociation des classes de plusieurs facteurs constitue un traitement. Il existe de nombreux types de dispositif exprimental, dont les principaux sont : le plan dexprience compltement alatoire : chaque individu (au sens statistique) est aect un traitement alatoirement le plan dexprience en blocs alatoires complets : sil y a (ou sil peut y avoir) une grande htrognit entre les individus, ils sont runis en groupes aussi homognes que possibles (ou blocs). Au sein de ces blocs chaque individu est ensuite aect alatoirement un traitement, de manire ce que tous les traitements soient prsents dans chacun des blocs le plan dexprience en blocs alatoires incomplets : dans ce cas tous les traitements ne sont pas prsents dans chacun des blocs le plan dexprience en split - plot : le principe du split - plot est le plus souvent associ celui des blocs alatoires complets. Dans ce cas, dans chacun des blocs sont crs autant de sous - blocs quil y a de classes au premier facteur tudi. A chacun de ces sous - blocs est associe une classe. Puis chaque sous - bloc est divis en autant dunits quil y a de classes au second facteur tudi. A chacun de ces sous - sous - blocs est associe une classe. Pour plus de deux facteurs, la situation est plus complexe. Quelle que soit la mthode employe, elle doit tre clairement dnie car elle doit tre prise en compte dans les analyses statistiques.
Comparaison de plus de deux moyennes (ANOVA) power.anova.test(groups,n,between.var,within.var,sig.level,power) avec : groups : nombre de modalits comparer between.var : variance intergroupe minimale dtecter within.var : variance intragroupe (identique pour toutes les modalits). La fonction ne gre pas les sries apparies. pwr.anova.test(k,n,f,sig.level,power) avec : k : nombre de modalits comparer f : taille minimale de leet dtecter. La fonction ne gre pas les sries apparies. Comparaison de deux proportions power.prop.test(n,p1,p2,sig.level,power) avec p1, p2 : proportion observe dans chaque chantillon. pwr.2p.test(h,n,sig.level,power) avec h : taille minimale de leet dtecter (en proportion). Utiliser pwr.2p2n.test(h,n1,n2,sig.level,power) pour deux chantillons de taille dirente. Corrlation linaire entre deux sries de donnes pwr.r.test(n,r,sig.level,power) avec r : coecient de corrlation linaire de Pearson minimum mettre en vidence.
Pour visualiser la corrlation entre chaque variable et une composante principale : score.pca(acp,xax=num) o num est le numro de laxe choisi. Le diagnostic de lACP se fait grce la fonction inertia.dudi(acp), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie de chaque composante principale (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant largument col.inertia=TRUE la fonction on obtient trois tableaux supplmentaires : $col.abs : donne la contribution linertie de chaque variable du tableau de dpart, i.e. leur importance respective dans la construction des axes (ce qui aide linterprtation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est gale 100 $col.rel : donne la part dinformation apporte par chaque axe pour chaque variable (diviser la valeur absolue par 100 pour obtenir les pourcentages). Ne pas tenir compte de la 3me colonne $col.cum : valeurs absolues de $col.rel cumules (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dinformation apporte par tous les axes retenus pour chaque variable, autrement dit la qualit de la reprsentation de chaque variable. Ajouter largument row.inertia=TRUE la fonction inertia.dudi() pour obtenir le diagnostic pour chaque individu ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement les relations entre : les individus : s.label(acp$li), le tableau $li de lACP donnant les coordonnes des individus dans les dirents plans factoriels. Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lACP). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. Des individus loigns sur le graphe le sont dans le tableau initial (mais faire attention aux contributions relatives $row.rel du diagnostic). Pour ajouter comme information supplmentaire une variable qualitative dnissant des groupes dindividus, utiliser s.class(dfxy=acp$li,fac= facteur) o facteur est un vecteur contenant la modalit de chaque individu (dans le mme ordre que les autres variables). Pour donner une couleur chaque groupe ajouter largument col=couleur o couleur est un vecteur contenant la couleur de chaque modalit, dans lordre alphabtique des modalits. Prciser le plan factoriel grce aux arguments xax et yax les variables : ACP rduite : s.corcircle(acp$co) trace le cercle des corrlations (le tableau $co de lACP donne les coordonnes des variables dans les dirents plans factoriels), o la longueur des ches indique la part de leur information reprsente par les deux axes (contributions
relatives cumules $col.cum du diagnostic). Langle entre deux ches reprsente la corrlation qui les lie : angle aigu = positive ; angle droit = nulle ; angle obtus = ngative ACP non rduite : s.arrow(acp$co) o la longueur des ches reprsente la contribution linertie de chaque variable (contributions absolues $col.abs du diagnostic). Les relations entre variables sinterprtent de la mme faon que pour lACP rduite, mais cette fois en terme de covariances et non de corrlations. Pour reprsenter la fois les individus et les variables dans un plan factoriel, utiliser scatter(acp). Pour ajouter comme information supplmentaire une variable qualitative dnissant des groupes dindividus, utiliser la procdure suivante : > scatter(acp,clab.row=0,posieig="none") > s.class(dfxy=acp$li,fac=facteur,col=couleur,add.plot=TRUE) Prciser le plan factoriel grce aux arguments xax et yax. Lchelle des ches sur la double reprsentation individus - variables est arbitraire, elle peut tre change sans que cela ne change linterprtation. Pour linterprtation, nutiliser que les individus les plus loigns du centre du nuage de points et les ches les plus longues pour les variables, car ce sont eux qui sont le mieux reprsents par les axes. Un 1er axe trs corrl de faon positive avec toutes les variables est souvent le signe dun eet taille . Il convient dans ce cas de se placer dans des plans factoriels ne comprenant pas le 1er axe pour linterprtation.
Ce tableau est obtenu de la manire suivante : tableau<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour la chaque variable (dans le mme ordre). LAFC est sensible aux eectifs faibles, aussi regrouper les classes quand cela est ncessaire. Commencer par calculer la valeur du 2 du test dindpendance des deux variables (voir che 59), ralis partir du tableau initial : chisq.test(tableau)$statistic. LAFC est ralise grce la fonction dudi.coa() du package ade4. Lorsque la commande afc<-dudi.coa(tableau) est passe, R renvoie le graphe des valeurs propres (ou pouvoirs de synthse) associes chaque variable de synthse (ou axe) et demande le nombre daxes slectionner. La part de linertie (ou information totale contenue dans le tableau initial) explique par chaque axe se calcule simplement par : valeur propre eectif total 2 On peut choisir le nombre daxes expliquant ensemble x % de linertie, x tant choisi lavance, ou un nombre daxes dtermin lavance. Le diagnostic de lAFC se fait grce la fonction inertia.dudi(afc), qui renvoie le tableau $TOT. Celui - ci contient la contribution linertie de chaque axe (proportions cumules dans la colonne ratio, multiplier par 100 pour le pourcentage). En ajoutant largument col.inertia=TRUE la fonction on obtient trois tableaux supplmentaires : $col.abs : donne la contribution linertie de chaque colonne du tableau de dpart, i.e. leur importance respective dans la construction des axes (ce qui aide linterprtation de ces axes). Diviser par 100 pour obtenir les pourcentages. La somme de chaque colonne est gale 100 % $col.rel : donne la part dinformation apporte par chaque axe pour chaque colonne (diviser la valeur absolue par 100 pour obtenir les pourcentages). Ne pas tenir compte de la 3me colonne
$col.cum : valeurs absolues de $col.rel cumules (diviser par 100 pour obtenir les pourcentages). Donne donc la part totale dinformation apporte par tous les axes retenus pour chaque colonne, autrement dit la qualit de la reprsentation de chaque colonne. Ajouter largument row.inertia=TRUE la fonction inertia.dudi() pour obtenir le diagnostic pour chaque ligne ($row.abs, $row.rel et $row.cum). Pour visualiser graphiquement le rsultat de lAFC (donc la structure du tableau), utiliser scatter(afc,posieig="none"). Pour slectionner un plan factoriel, ajouter les arguments xax=num1 et yax=num2 o num1 est le numro du 1er axe choisi et num2 celui du 2nd (il faut avoir slectionn au moins deux axes au dpart de lAFC). Par convention on choisit pour laxe horizontal celui des deux ayant la meilleure contribution linertie totale. La proximit des modalits reprsente leur liaison plus ou moins forte dans le tableau initial (mais faire attention aux contributions relatives $col.rel et $row.rel du diagnostic). La contribution des lignes et des colonnes la construction des axes ne peut pas se lire sur le graphique (leur loignement de lorigine nest pas reprsentatif de leur contribution linertie des axes). Il est donc indispensable de lire en dtail le diagnostic. Pour interprter les axes il peut tre utile dutiliser score.coa(afc,xax= num,dotchart=TRUE) o num est le numro de laxe reprsenter. Le graphique montre la rpartition des modalits sur laxe choisi. Utiliser abline(v=0) pour ajouter une ligne marquant lorigine de laxe.
Pour ne reprsenter quune seule variable, le mme rsultat est obtenu par s.class(dfxy=acm$li,fac=variable,col=couleur,cstar=0,sub="nom") o variable est la variable choisie et nom son nom (entre guillemets). Choisir le plan factoriel laide des arguments xax et yax. Le tableau acm$cr contient les rapports de corrlation (variant de 0 1) entre les variables et les axes choisis au dpart de lACM. Pour reprsenter graphiquement ces rapports, utiliser barplot(acm$cr[,num],names.arg=row.names(acm$cr),las=2) o num est le numro de laxe reprsenter. Pour linterprtation des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrlation est le plus proche de 1. Une aide linterprtation est fournie par la fonction score.acm(acm,xax=num) o num est le numro de laxe reprsenter. Le graphique montre la rpartition des modalits de chaque variable sur laxe choisi. Pour slectionner les variables reprsenter, ajouter largument which.var=variables o variables est un vecteur contenant le numro des variables choisies, i.e. le numro des colonnes correspondantes dans le tableau initial. LACM est clairement une analyse plus dicile interprter que lACP ou lAFC. Aussi, il est bon de limiter la dicult en ne considrant pas des dizaines de variables mais en se limitant aux questions essentielles. De plus, lACM est sensible aux modalits contenant un faible eectif et aux variables contenant un grand nombre de modalits. Mieux vaut donc regrouper ces modalits en classes plus larges lorsque lun de ces deux cas se prsente.
variables qualitatives la manire dune ACM (voir che 17). Le tableau amix$cr contient les valeurs des corrlations (de 0 1) qui lient les variables de synthse aux variables initiales. Pour les reprsenter graphiquement, utiliser barplot(amix$cr[,num],names.arg=row.names(amix$cr),las=2) o num est le numro de laxe reprsenter. Pour linterprtation des axes, se concentrer sur les variables les plus structurantes, i.e. dont le rapport de corrlation est le plus proche de 1. Une aide linterprtation est fournie par la fonction score(amix,xax=num) o num est le numro de laxe reprsenter. L encore la reprsentation est de type ACP ou ACM selon la nature des variables. Pour slectionner les variables reprsenter, ajouter largument which.var=variables o variables est un vecteur contenant le numro des variables choisies, i.e. le numro des colonnes correspondantes dans le tableau initial.
26. La loi de 2
Ecriture : 2 () avec : nombre de degrs de libert (ddl), i.e. de paramtres indpendants impliqus dans la loi (0 < < +) Dans R : dchisq(xi,ddl) pchisq(xi,ddl) qchisq(F(xi),ddl) rchisq(z,ddl) avec z : nombre de valeurs gnrer
La probabilit associe au fait de rejeter H0 si celle - ci est fausse (soit 1) est appele puissance du test.
Xseuil : valeur de la Variable de Test (VT) X qui donne une fonction de rpartition droite gale au seuil (test unilatral droit). Xcalc : valeur de la VT X calcule partir de lchantillon test. A gauche lhypothse H0 est rejete, droite elle ne lest pas.
La technique la plus stricte est celle de Bonferroni, la moins stricte celle du FDR. Cette dernire peut tre applique par dfaut. Dans tous les cas la mthode de correction du seuil de rejet de H0 doit tre dcide avant de raliser les tests. Dans R, si p est le vecteur contenant les p - values non corriges, utiliser la fonction p.adjust() pour rcuprer un vecteur avec les p - values corriges (dans le mme ordre) : p.adjust(p,method="bonferroni") pour la correction de Bonferroni p.adjust(p,method="holm") pour la correction de Holm p.adjust(p,method="BH") ou p.adjust(p,method="fdr") pour la correction de Benjamini et Hochberg (FDR).
Xseuil : valeur de la VT X qui donne une fonction de rpartition droite gale au seuil pour la distribution sous H0 (test unilatral droit). La puissance dun test augmente : quand augmente le seuil quand augmente leectif de lchantillon test (ce qui diminue ltalement de la distribution de la VT ou loigne les distributions de la VT sous H0 et H1 , selon le test) quand augmente lcart rel entre les paramtres (moyennes, proportions. . .) tests.
o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi binomiale est celle utiliser lorsque la variable expliquer est binaire (0 / 1). Crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Test Q de Cochran (non paramtrique) Conditions : : le plan dexprience doit tre en blocs alatoires complets, avec une seule observation par modalit du facteur au sein de chaque bloc (i.e. de chaque classe du facteur alatoire) ; lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Pour raliser le test, utiliser la fonction cochran.qtest() du package RVAideMemoire : cochran.qtest(reponse,facteur.fixe,facteur.aleatoire). Si la p - value du test est signicative, cela indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). La fonction ralise alors automatiquement toutes les comparaisons deux - - deux possibles par le test des signes de Wilcoxon.
(ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).
Dans tous les cas, quelle que soit la loi utilise (Poisson, quasi - Poisson ou binomiale ngative), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=poisson) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - Poisson ou binomiale ngative avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).
comparaisons deux - - deux ventuelles passent par la mthode des contrastes (voir che 74). Dans tous les cas, quelle que soit la loi utilise (Poisson, quasi - Poisson ou binomiale ngative), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=poisson) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). La loi de Poisson est la plus frquemment utilise lorsque la variable expliquer reprsente des donnes de comptage (i.e. des valeurs entires et positives). Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - Poisson ou binomiale ngative avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer ensuite deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction. Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).
o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et au moins 80 % des eectifs thoriques doivent tre 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont,p=prop.theo) o prop.theo est un vecteur contenant les proportions thoriques de chaque classe (de 1 k). Pour obtenir les eectifs thoriques utiliser la fonction chisq.exp() du package RVAideMemoire : chisq.exp(tab.cont,prop.theo). Largument facultatif graph=TRUE permet dobtenir une reprsentation graphique des eectifs thoriques. Une p - value signicative indique quau moins une proportion dire de sa valeur thorique, sans prciser la(les)quelle(s). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier la (les) proportion(s) en question. Utiliser pour cela la fonction prop.multcomp du package RVAideMemoire : prop.multcomp(tab.cont,prop.theo) Il peut arriver que les comparaisons deux - - deux nindiquent aucune dirence signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quelle classe est responsable du rejet de lhypothse nulle dans le test global.
o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Sries non apparies Dans ces tests, les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected. Test exact de Fisher (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives. Pour raliser le test : fisher.test(tab.cont).
Sries apparies Dans le cas de sries apparies, lindividu est soit une entit mesure deux fois, soit une paire dentits relies entre elles et sur qui la mme mesure a t ralise. Le tableau de contingence est donc dirent : Variable B (2me mesure) Classe 1 Classe 2 Variable A (1re mesure) Classe 1 Classe 2
Test binomial exact (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; les individus doivent pouvoir changer de classe lors de la 2me mesure. Pour raliser le test : binom.test(n1.2,ns,0.5) o n1.2 est le nombre dindividus qui sont de Classe 1 lors de la premire mesure et de Classe 2 lors de la seconde (case en haut droite), et ns est le nombre dindividus qui ont chang de classe entre les deux mesures (quel que soit le sens de ce changement : case en bas gauche + case en haut droite).
o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Les proportions compares sont celles de la premire colonne du tableau de contingence (Classe 1 de la variable B). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thoriques). Pour raliser le test : prop.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected. Une p - value signicative indique quau moins deux proportions dirent lune de lautre, sans prciser lesquelles. Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les proportions en question. Utiliser pour cela la fonction pairwise.prop.test(tab.cont,p.adjust.method=methode) (voir che 31 pour choisir la mthode de correction du seuil de rejet ).
Dans ce tableau, chaque ligne correspond un chantillon et chaque colonne un groupe lintrieur des chantillons (les deux colonnes dnissent donc la proportion tudie ; ex : mles et femelles). Les donnes dans ce tableau sont des eectifs, i.e. chaque case contient le nombre dindividus appartenant la fois lchantillon [x,] (o x est le numro de la ligne) et au groupe (colonne) correspondant. Au sens statistique, un individu est reprsent par une ligne du tableau. Ce tableau peut tre obtenu via proportions<-cbind(groupe1,groupe2) o groupe1 et groupe2 sont des vecteurs correspondant aux deux colonnes (la 1re valeur correspondant la 1re ligne du tableau et les deux vecteurs tant dans le mme ordre). Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et le facteur (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle
que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), raliser lanalyse de dviance via anova(modele,test="Chi"). Le tableau renvoy donne leet du facteur et la p - value associe. Si cette p - value est signicative, cela indique quau moins deux classe du facteur ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi binomiale peut tre remplace par une loi quasi - binomiale. Le modle scrit alors modele2<-glm(formule,family=quasibinomial). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux passent par la mthode des contrastes (voir che 74). Quelle que soit la loi utilise (binomiale ou quasi - binomiale), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - binomiale avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de dviance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour
raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).
Dans ce tableau, chaque ligne correspond un chantillon et chaque colonne un groupe lintrieur des chantillons (les deux colonnes dnissent donc la proportion tudie ; ex : mles et femelles). Les donnes dans ce tableau sont des eectifs, i.e. chaque case contient le nombre dindividus appartenant la fois lchantillon [x,] (o x est le numro de la ligne) et au groupe (colonne) correspondant. Au sens statistique, un individu est reprsent par une ligne du tableau. Ce tableau peut tre obtenu via proportions<-cbind(groupe1,groupe2) o groupe1 et groupe2 sont des vecteurs correspondant aux deux colonnes (la 1re valeur correspondant la 1re ligne du tableau et les deux vecteurs tant dans le mme ordre). Sries non apparies Analyse de dviance en Modle Linaire Gnralis ( GLM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des facteurs doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=binomial) o formule est la formule contenant la variable expliquer et les deux facteurs (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Appeler ensuite le rsum du modle via summary(modele) et comparer la valeur de la dviance rsiduelle (Residual deviance) avec celle des degrs de libert rsiduels (degrees of freedom, sur la mme ligne que la dviance rsiduelle). Si la dviance rsiduelle est infrieure ces degrs de libert (ddl), lanalyse peut continuer. Dans le cas inverse on dit quil y a surdispersion. Cela peut vouloir dire : quun ou plusieurs facteurs importants nont pas t intgrs dans le modle
que la loi du modle (qui reprsente en fait la loi de distribution des erreurs du modle) nest pas adapte dans le pire des cas, les deux ! Dans le premier cas (o la dviance rsiduelle est infrieure aux ddl rsiduels), lanalyse de dviance est ralise via anova(modele,test="Chi"). Le tableau renvoy donne leet de chaque facteur (et de leur interaction si elle est prise en compte) et la p - value associe. Si une p - value est signicative, cela indique quau moins deux classes du facteur en question (ou au moins deux combinaisons de classes des deux facteurs si cest leet de linteraction qui est signicatif) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Dans le second cas (o la dviance rsiduelle est suprieure aux ddl rsiduels), la loi binomiale peut tre remplace par une loi quasi - binomiale. Le modle scrit alors modele2<-glm(formule,family=quasibinomial). Lanalyse de dviance est ralise via anova(modele2,test="F") et les comparaisons deux - - deux passent par la mthode des contrastes (voir che 74). Quelle que soit la loi utilise (binomiale ou quasi - binomiale), il est ncessaire de vrier que le modle sajuste bien aux donnes (voir che 73). Sries apparies Test du rapport des vraisemblances en Modle Linaire Gnralis Mixte ( GLMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes des facteurs xes et du facteur alatoire doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes, via la fonction glmer() du package lme4 : modele<-glmer(formule,family=binomial) o formule est la formule contenant la variable expliquer, les deux facteurs xes et le facteur alatoire (voir che 71). La loi binomiale est la plus frquemment utilise lorsque la variable expliquer reprsente des proportions. Vrier que le modle sajuste bien aux donnes (voir che 73). Il nest pas possible dutiliser une loi quasi - binomiale avec un modle mixte. Si le modle sajuste mal aux donnes, demander de laide un statisticien. Si le modle sajuste bien aux donnes, crer ensuite deux modles dits rduits : lun sans le premier facteur (mais avec linteraction si elle est prise en compte) et lautre sans le second facteur (mais avec linteraction si elle est prise en compte). Si linteraction est prise en compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction.
Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74).
Sries apparies Test t de Student pour sries apparies (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; la distribution des donnes dans chaque chantillon doit tre normale. Pour raliser le test : t.test(serie1,serie2,paired=TRUE). Ce test tant assez robuste, il peut tre utilis lorsque la distribution des donnes ne suit pas une loi normale, condition quelle ne sen loigne pas trop et que lchantillon soit de grande taille (> 30 individus). Prendre garde aux individus extrmes qui ont une grande inuence sur la moyenne. Test des rangs signs de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux chantillons doivent contenir au moins 8 individus ; la distribution des dirences entre les valeurs apparies doit tre symtriques (voir ci - dessous pour vrier cette condition). Pour raliser le test : wilcox.test(serie1,serie2,paired=TRUE). Ce test compare en fait la mdiane des deux chantillons. Mais si la distribution des dirences entre les valeurs apparies est symtrique, mdiane et moyenne sont trs proches. Examiner cette condition laide dun graphique de type boxplot(serie1-serie2) (voir che 11). La mdiane nest pas sensible aux individus extrmes. Test des signes de Wilcoxon (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple. Pour raliser le test, utiliser la fonction wilcox.sign.test() du package RVAideMemoire : wilcox.sign.test(serie1,serie2). Ce test est utiliser lorsque les conditions du test des rangs signs de Wilcoxon ne sont pas runies. Il compare en fait la mdiane des deux chantillons.
Sries apparies Test du rapport des vraisemblances en Modle Linaire Mixte ( LMM ; paramtrique) Conditions : lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives ; la distribution des donnes doit tre normale dans chaque classe du facteur xe ; la variance des donnes doit tre gale entre toutes les classes du facteur xe ; la distribution des rsidus du modle doit tre normale (voir che 73 pour tester cette hypothse). Commencer par crire le modle cens reprsenter les donnes, via la fonction lmer() du package lme4 : modele<-lmer(formule,REML=FALSE) o formule est la formule contenant la variable expliquer, le facteur xe et le facteur alatoire (voir che 71). Crer un second modle, dit nul, appel modele.nul (voir che 71). Il nest pas possible de raliser une analyse de variance comme avec les modles facteur xe. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt avec un modle identique en tout point sauf quil ne comprend pas ce facteur. La p - value du test correspond celle du facteur qui a t enlev dans le second modle. Pour raliser le test : anova(modele,modele.nul). Une p - value signicative indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Pour cela, commencer par rcrire le modle en remplaant REML=FALSE par REML=TRUE. Utiliser ensuite la mthode des contrastes pour les comparaisons (voir che 74). Test de Friedman (non paramtrique) Conditions : le plan dexprience doit tre en blocs alatoire complets, avec une seule observation par modalit du facteur au sein de chaque bloc (i.e. de chaque classe du facteur alatoire) ; lchantillonnage doit tre alatoire et simple au sein des classes du facteur alatoire ; les classes du facteur xe et du facteur alatoire doivent tre exclusives. Pour raliser le test : friedman.test(a.expliquer~fact.fixe|fact.aleatoire). Si la p - value du test est signicative, cela indique quau moins deux classes du facteur xe ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction wilcox.paired.multcomp() du package RVAideMemoire : wilcox.paired.multcomp(a.expliquer,fact.fixe,fact.aleatoire).
compte dans le modle initial, crer galement un modle additif, avec les deux facteurs mais sans leur interaction. Il nest pas possible de raliser une analyse de dviance comme avec les modles facteurs xes. La dmarche avec les modles mixtes est la comparaison de modles par le test du rapport des vraisemblances. Le principe est de comparer le modle contenant le facteur dintrt (ou linteraction dintrt) avec un modle identique en tout point sauf quil ne comprend pas ce facteur (ou cette interaction). La p - value du test correspond celle du facteur (ou de linteraction) qui a t enlev(e) dans le second modle. Raliser donc une srie de tests de la forme : anova(modele,modele.reduit), en comparant chaque fois le modle complet avec lun des deux ou trois modles rduits. Une p - value signicative indique quau moins deux classes du facteur xe test (ou au moins deux combinaisons de classes des deux facteurs si cest linteraction qui est teste) ont un eet dirent sur la variable expliquer (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes (ou combinaisons de classes) en question. Pour cela, commencer par rcrire le modle en remplaant REML=FALSE par REML=TRUE. Utiliser ensuite la mthode des contrastes pour les comparaisons (voir che 74).
ciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74) si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Ces comparaisons passent par lutilisation de la mthode des contrastes (voir che 74). Comme pour tout modle, il est ncessaire de vrier quil sajuste bien aux donnes (voir che 73). Risque instantan constant et prsence de donnes censures Analyse de dviance en rgression de survie (paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; si certaines variables explicatives sont des facteurs, leurs classes doivent tre exclusives ; les censures doivent tre indpendantes des conditions dexprience. Commencer par crer la variable expliquer, qui doit tre un objet de survie. Utiliser pour cela la fonction Surv() du package survival : si tous les individus sont observs pendant toute la dure de ltude : a.expliquer<-Surv(mort,censure) si tous les individus ne sont pas observs pendant toute la dure de ltude : a.expliquer<-Surv(start,stop,censure) o start est un vecteur contenant le moment o chaque individu rentre dans ltude et stop un vecteur contenant le moment o il en sort (dans le mme ordre que start). Crer ensuite le modle cens reprsenter les donnes, grce la fonction survreg() du package survival : modele<-survreg(formule,dist="exponential") o formule est la formule contenant la variable expliquer et les variables explicatives (voir che 71). La loi exponentielle sert modliser la constance du risque instantan. Raliser ensuite lanalyse de dviance via anova(modele). Le tableau renvoy donne leet de chaque variable explicative (et de leurs interactions si elles sont prises en compte) et la p - value associe. Si une p - value est signicative, cela indique : si la variable explicative en question est quantitative, quelle a un eet sur le temps de survie si la variable explicative en question est un facteur, quau moins deux classes de ce facteur ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire :
surv.multcomp(a.expliquer,facteur,matrice,type="survreg",distribution="exponential"), o facteur est le facteur dont on veut comparer les classes et matrice est la matrice des comparaisons, construite de la mme faon que pour la mthode des contrastes (voir che 74) si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,interaction,matrice,type="survreg",distribution="exponential") (voir che 74 pour crer le nouveau facteur interaction et la matrice des comparaisons). Risque instantan dpendant de lge des individus Analyse de dviance en rgression de survie (paramtrique) La procdure est identique celle mise en uvre lorsque le risque est constant, except le fait que le modle de rgression de survie doit tre dni avec dist="weibull". La loi de Weibull est en eet la plus utilise lorsque le risque instantan nest pas constant. On peut appeler le rsum du modle via summary(modele). La valeur du paramtre Scale indique lvolution de ce risque : < 1 : le risque diminue avec lge des individus > 1 : le risque augmente avec lge des individus. Pour les comparaisons deux - - deux, il faut prciser distribution="weibull" la fonction surv.multcomp(). Analyse de dviance en modle de Cox (semi - paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; si certaines variables explicatives sont des facteurs, leurs classes doivent tre exclusives ; les censures doivent tre indpendantes des conditions dexprience ; la relation entre chaque variable explicative quantitative (ou covariable) et le risque instantan doit tre log - linaire ; le rapport des risques instantans de deux individus doit tre indpendant du temps (voir ci - dessous pour tester ces deux hypothses, dont la seconde est dite des risques proportionnels). Crer le modle cens reprsenter les donnes, grce la fonction coxph() du package survival : modele<-coxph(formule) o formule est la formule contenant la variable expliquer (i.e. lobjet de survie cr via la fonction Surv()) et les variables explicatives (voir che 71). Pour tester lhypothse de log - linarit entre les covariables et le risque instantan, utiliser la fonction cox.resid() du package RVAideMemoire : cox.resid(modele,list(variable1=variable1,variable2=variable2... )) o le 2nd argument est une liste contenant chaque covariable. La fonction trace un graphe par covariable. Sur ces graphes, la ligne rouge reprsente la tendance du nuage de point. On accepte lhypothse de log - linarit pour une
covariable si la ligne rouge correspondante est peu prs horizontale. Dans le cas contraire il vaut mieux alors la transformer en facteur en la dcoupant en classes, puis la rintgrer au modle. Pour tester lhypothse des risques proportionnels, utiliser la fonction cox.zph() du package survival : cox.zph(modele). La fonction teste lhypothse pour chaque variable explicative, ainsi que pour le modle global. Si une p - value est signicative, cela indique que lhypothse nest pas respecte pour la variable explicative en question, qui est dite dpendante du temps. Il vaut mieux alors lintgrer au modle en temps que strate et non variable explicative (pour les variables explicatives quantitatives, cela passe par un dcoupage en classes et une transformation en facteur). Leet de la variable ne sera plus calcul, mais pris en compte travers la dnition de risques instantans de base dirents selon les strates. Pour intgrer une strate dans la formule du modle, ajouter +strata(variable) aprs les variables explicatives (et retirer la variable dsormais stratie des variables explicatives). Une fois toutes ces vrications faites, raliser lanalyse de dviance via anova(modele). Le tableau renvoy donne leet de chaque variable explicative (et de leurs interactions si elles sont prises en compte) et la p - value associe. Si une p - value est signicative, cela indique : si la variable explicative en question est quantitative, quelle a un eet sur le temps de survie si la variable explicative en question est un facteur, quau moins deux classes de ce facteur ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,facteur,matrice,type="coxph"), o facteur est le facteur dont on veut comparer les classes et matrice est la matrice des comparaisons, construite de la mme faon que pour la mthode des contrastes (voir che 74). Ajouter largument strata=variable si une variable explicative est stratie dans modele si la p - value correspond linteraction entre deux variables, quau moins deux combinaisons des deux variables ont un eet dirent sur le temps de survie (sans prciser lesquelles). Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les combinaisons en question. Utiliser pour cela la fonction surv.multcomp() du package RVAideMemoire : surv.multcomp(a.expliquer,interaction,matrice,type="coxph") (voir che 74 pour crer le nouveau facteur interaction et la matrice des comparaisons). Ajouter largument strata=variable si une variable explicative est stratie dans modele.
o chaque case contient le nombre dindividus possdant la fois le caractre de la variable A et celui de la variable B. Ce tableau est obtenu de la manire suivante : tab.cont<-table(variableA,variableB) o variableA et variableB sont des vecteurs contenant la valeur de chaque individu pour chaque variable (dans le mme ordre). Une reprsentation graphique du tableau de contingence peut tre obtenue laide de la fonction mosaicplot(tab.cont). Test du 2 dhomognit (ou dindpendance ; non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives ; chaque case du tableau de contingence doit prsenter un eectif thorique non nul et 5 (voir ci - dessous pour obtenir les eectifs thorique). Pour raliser le test : chisq.test(tab.cont). Les eectifs thoriques sont donns par la fonction chisq.test(tab.cont)$ expected) Test exact de Fisher (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les classes des deux variables doivent tre exclusives. Pour raliser le test : fisher.test(tab.cont). Si le message davertissement out of workspace apparat, augmenter la valeur de largument workspace (par dfaut workspace=200000). Si un autre message davertissement apparat, cela peut tre cause dun tableau trop complexe analyser. Quel que soit le test utilis, une p - value signicative indique que les deux variables ne sont pas indpendantes, sans prciser les classes qui sont lorigine de cette liaison. Il est dans ce cas ncessaire de raliser des comparaisons deux - - deux pour identier les classes en question. Utiliser pour cela la fonction fisher.multcomp() du package RVAideMemoire : fisher.multcomp(tab.cont). La fonction ralise un test exact de Fisher sur chaque tableau de contingence 2 x 2 possible partir de tab.cont, et renvoie tous les rsultats dont la p - value est infrieure 0,1. Il est ncessaire dinterprter ces rsultats pour reprer les classes qui apparaissent systmatiquement
dans les tests qui donnent un p - value signicative. Ce sont ces classes qui sont lies. Il peut arriver que les comparaisons deux - - deux nindiquent aucune liaison signicative, contrairement au test global. Dans ce cas, la solution la plus prudente est de considrer quon ne peut pas savoir quelles classes sont responsables du rejet de lhypothse nulle dans le test global.
Coecient dassociation de Cramer (non paramtrique) Conditions : lchantillonnage doit tre alatoire et simple ; les deux variables doivent tre qualitatives (ordinales ou nominales) ; chaque individu doit possder une valeur pour les deux variables ; chaque classe des deux variables doit contenir au moins 5 % du nombre total dindividus. Pour raliser le test, utiliser la fonction cramer.cor() du package RVAideMemoire : cramer.cor(variable1,variable2). La fonction renvoie lintervalle de conance 95 % du coecient dassociation, calcul par bootstrap. Contrairement aux coecients de Pearson et Spearman, le coecient dassociation de Cramer nest pas un coecient de corrlation (encore moins de corrlation linaire) car les variables auxquelles il sintresse ne sont pas quantitatives. Il reprsente simplement lintensit de la liaison entre deux variables qualitatives.
61. Conformit dun coecient de corrlation linaire avec une valeur thorique
Dans la pratique, un coecient de corrlation est le plus souvent compar la valeur nulle, ce qui permet de conclure sil y a corrlation ou pas entre les deux variables. La fonction cor.test() ralise systmatiquement ce test et en revoie la p - value lorsquelle calcule un coecient de corrlation de Pearson ou de Spearman (voir che 60). Pour comparer un coecient de corrlation de Pearson une valeur quelconque, utiliser la fonction cor.conf() du package RVAideMemoire : cor.conf(variable1,variable2,theo=valeur) o variable1 et variable2 sont des vecteurs contenant la valeur de chaque individu pour les deux variables (dans le mme ordre), et valeur la valeur thorique comparer (entre -1 et 1). Les conditions dutilisation de ce test sont identiques celles du calcul du coecient de corrlation linaire de Pearson (voir che 60). De faon plus gnrale, on peut tester la conformit dun coecient de corrlation (ou dassociation) avec une valeur thorique quelconque simplement en regardant si celle - ci est contenue dans lintervalle de conance du coecient (le niveau de prcision de cet intervalle tant le plus souvent de 95 %, mais cette valeur est toujours modiable).
fonction calcule la valeur des paramtres de la droite de rgression en enlevant tour de rle chaque individu. Elle renvoie la dirence entre les paramtres de la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Pouvoir explicatif de la rgression Le coecient de dtermination R2 reprsente la part de la variance de la variable expliquer qui est explique par la variable explicative. Il varie entre 0 (i.e. la variable explicative napporte aucune information) et 1 (i.e. les valeurs prises par la variable expliquer sont totalement expliques par la variable explicative). Graphiquement, plus R2 est lev et plus les points sont proches de la droite de rgression. Dans le cas de la rgression linaire simple (i.e. avec une seule variable explicative), le coecient de dtermination est gal au carr du coecient de corrlation linaire de Pearson (voir che 60). La valeur de R2 est donne lorsque la fonction summary(regression) est appele. Il se nomme Multiple R-Squared. Prdiction partir de la rgression Le but dune rgression linaire est souvent de dterminer lquation de la droite, qui sert ensuite prdire les valeurs prises par la variable expliquer partir de valeurs connues de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(regression,list(explicative=valeur)) o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de la variable explicative. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir dune valeur de la variable explicative que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.
compares. Par dfaut la fonction least.rect() utilise cette valeur 1 pour raliser le test, dont le rsultat est renvoy en appelant regression. La valeur thorique peut tre modie grce largument theo=valeur. Analyse des contributions individuelles La rgression linaire est trs sensible aux individus extrmes. Ceux - ci peuvent en eet avoir une grande inuence sur ses paramtres. Il est donc indispensable de vrier que la valeur des paramtres nest pas due en grande partie seulement un ou quelques individus. Pour cela utiliser la fonction ind.contrib() du package RAideMemoire : ind.contrib(regression). La fonction calcule la valeur des paramtres de la droite de rgression en enlevant tour de rle chaque individu. Elle renvoie la dirence entre les paramtres de la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Prcision de la rgression En comparaison avec la mthode des moindres carrs et son coecient de dtermination R2 (voir che 63), il ny a pas pour la rgression linaire au sens des moindres rectangles de quantication de cette prcision. Cependant on peut utiliser le coecient de corrlation linaire de Pearson (voir che 60) pour sen faire une ide : plus ce coecient est proche de 1 ou -1, plus la prcision est grande. Un appel regression renvoie ce coecient de corrlation. Prdiction partir de la rgression Le but dune rgression au sens des moindres rectangles nest gnralement pas de prdire les valeurs dune variable, puisquaucune des deux variables nest explicative (et donc contrle). Cependant, sil en est besoin, il sut simplement dutiliser lquation de la droite renvoye en appelant regression. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de variable.x. Il est donc dautant plus hasardeux de prdire une valeur de variable.y partir dune valeur de variable.x que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.
Finalement, les rgressions qui ne dirent ni par leur coecient directeur ni par leur ordonne lorigine peuvent tre regroupes (i.e. les classes correspondantes du facteur peuvent tre regroupes). Droites de rgression au sens des moindres rectangles Il nexiste pas de test statistique simple permettant de comparer des droites de rgression au sens des moindres rectangles. On peut cependant utiliser la fonction lr.multcomp() du package RVAideMemoire, qui compare simplement les intervalles de conance des paramtres des droites de rgression. Ses conditions dutilisation sont identiques celles de la rgression linaire simple au sens des moindres rectangles (voir che 64). Pour raliser les comparaisons : lr.multcomp(variable.x,variable.y,facteur) o variable.x, variable.y et facteur sont des vecteurs contenant la valeur de chaque individu pour chacune des trois variables (dans le mme ordre). Les direntes droites de rgression sont dnies par rapport aux classes du facteur. Les noms variable.x et variable.y nont quune valeur graphique : variable.x est trac en abscisses, variable.y en ordonnes.
de rgression (celle qui relie directement les deux variables) est logistique (i.e. sigmode). Il faut construire le modle de cette rgression pour en obtenir les paramtres (ici un modle trois paramtres est utilis, voir che 67 pour un modle quatre paramtres). Utiliser pour cela la procdure suivante, qui fait appel la fonction logis.noise() du package RVAideMemoire : > y<-logis.noise(modele.lineaire) > modele.logistique<-nls(y~SSlogis(explicative,Asymp,mid,scale)) Appeler ensuite le rsum du modle via summary(modele.logistique). Parmi les informations renvoyes, le tableau Coefficients donne la valeur (Estimate) et lerreur standard (Std. Error) des trois paramtres de la courbe : lasymptote (Asymp), labscisse du point dinexion (mid) et lchelle (scale). Les intervalles de conance de ces paramtres sont obtenus grce la fonction confint(modele.logistique). Tests de conformit avec la valeur nulle Lorsque la fonction summary(modele.logistique) est appele, R ralise automatiquement un test de conformit des paramtres de la courbe par rapport la valeur nulle. Les p - values de ces tests sont donnes dans le tableau Coefficients, sur la ligne de chaque paramtre. Ajustement du modle aux donnes Il est toujours dicile dans le cas dune rgression logistique binaire de savoir si le modle est bien ajust aux donnes. On peut sen faire une ide graphiquement grce la fonction logis.fit() du package RVAideMemoire. Il faut au pralable avoir trac la courbe de rgression (voir che 68), puis utiliser : logis.fit(modele.lineaire). La fonction dcoupe en fait les valeurs de la variable explicative en un certains nombre dintervalles (par dfaut 5, pour changer cette valeur utiliser largument int), et calcule la probabilit de rponse et son erreur standard pour chaque intervalle. Les points et barres derreurs correspondants sont ensuite ajouts sur la courbe de rgression. Il faut garder en tte que cette procdure comporte une grande part darbitraire (surtout dans le choix du nombre dintervalles) et na rien voir avec un quelconque test. Prdiction partir de la rgression Le but de la rgression logistique est souvent de prdire la probabilit de rponse selon une valeur donne de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(modele.lineaire,list(explicative=valeur),type="response") o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la probabilit de rponse.
y=
y =a+
a 1+becx ba
cx 1+e d d
y = a be(cx cx y = aebe
y = aebx cedx
La valeur, lerreur standard et le rsultat du test de conformit avec la valeur nulle des paramtres de lquation sont donns par la fonction summary(regression). Lintervalle de conance 95 % des paramtres est donn par la fonction confint(regression).
Prdiction partir de la rgression Quelle que soit la rgression, la syntaxe est toujours de la forme predict( regression,list(explicative=valeur)) o valeur est soit un nombre, soit un vecteur de nombres correspondant aux valeurs de la variable explicative pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs de la variable explicative. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir dune valeur de la variable explicative que celle - ci est loigne de cette gamme. Rien ne dit par exemple que la relation entre les deux variables est toujours de la mme forme en dehors de la gamme de valeurs qui a servi dnir la rgression.
Rgression linaire au sens des moindres rectangles La droite sobtient simplement via abline(regression) (voir che 64 pour plus dinformations sur la rgression linaire simple au sens des moindres rectangles).
Rgression logistique binaire La courbe sobtient simplement via lines(explicative,modele.lineaire$fitted.values) (voir che 66 pour plus dinformations sur la rgression logistique binaire simple). On peut se faire une ide graphique de lajustement du modle aux donnes en utilisant la fonction logis.fit() du package RVAideMemoire : logis.fit(modele.lineaire) (voir che 66).
Autres rgressions non linaires La procdure est lgrement plus longue dans ce cas. Elle fait appel la fonction seq2() du package RVAideMemoire : > x<-seq2(explicative) > y<-predict(regression,list(explicative=x)) > lines(x,y) Voir che 67 pour plus dinformations sur la rgression non linaire simple.
soit pour comparer la relation entre la variable et la covariable en fonction des modalits du facteur. Quel que soit lobjectif, la covariable ne doit pas tre inuence par le facteur. Si elle lest, il convient dutiliser lanalyse de la covariance avec beaucoup de prudence (surtout au moment de conclure). Conditions : lchantillonnage doit tre alatoire et simple ; les classes du facteur doivent tre exclusives. Commencer par crire le modle cens reprsenter les donnes : modele<-glm(formule,family=loi) o formule est la formule contenant la variable expliquer, le facteur et la covariable (voir che 71), et loi dpend du type de variable expliquer (voir che 41 pour des probabilits de rponse, 45 pour des eectifs et 51 pour des proportions). Attention, selon lobjectif de lanalyse lordre des variables explicatives nest pas forcment le mme (voir che 71). Si la variable expliquer reprsente des eectifs ou des proportions, il est indispensable de vrier sil ny a pas surdispersion des rsidus. Si cest le cas il est ncessaire de remplacer la loi du modle par quasipoisson (voir che 45) ou quasibinomial (voir che 51), ou dutiliser la fonction glm.nb() du package MASS (voir che 45). Lanalyse est ensuite ralise via la fonction anova(modele), en prcisant test="F" si la loi est quasipoisson ou quasibinomial, test="Chi" dans tous les autres cas . Le tableau renvoy donne leet de la covariable, celui du facteur et celui de leur interaction. Si linteraction facteur - covariable a t prise en compte dans le modle et que la p - value associe est signicative, cela indique quil y a une relation entre la variable expliquer et la covariable, mais quelle est dirente selon la modalit du facteur. Si la p - value associe la covariable est signicative et que linteraction ne lest pas (ou quelle na pas t prise en compte dans le modle), cela indique quil y a une relation entre la variable expliquer et la covariable, indpendamment de la modalit du facteur. Lanalyse peut donc tre rduite une analyse de la rgression entre la variable expliquer et la covariable (voir che 66 pour des probabilits de rponse, non dvelopp dans cet ouvrage pour les eectifs et les proportions ; cependant la procdure est la mme que lANCOVA, sans le facteur). Si la p - value associe au facteur est signicative et que linteraction ne lest pas (ou quelle na pas t prise en compte dans le modle), cela signie que les valeurs de la variable expliquer sont direntes selon la modalit du facteur, indpendamment de la covariable. Lanalyse peut donc tre rduite une comparaison de probabilits de rponse (voir che 41), deectifs (voir che 45) ou de proportions (voir che 51). Quelle que soit la loi utilise dans le modle, il est ncessaire de vrier que celui - ci sajuste bien aux donnes (voir che 73).
la rgression complte et ceux calculs, exprime en proportion des paramtres de la rgression complte. Par dfaut elle trace un graphique pour reprsenter les rsultats, pour obtenir seulement le tableau des rsultats utiliser les arguments graph=FALSE et print.diff=TRUE. Pouvoir explicatif de la rgression Le coecient de dtermination R2 reprsente la part de la variance de la variable expliquer qui est explique par la rgression. Il varie entre 0 (i.e. la rgression napporte aucune information) et 1 (i.e. les valeurs prises par la variable expliquer sont totalement expliques par la rgression). Graphiquement, plus R2 est lev et plus les points sont proches de la droite de rgression. Sa valeur (ajuste dans le cas de la rgression multiple) est donne lorsque la fonction summary(regression) est appele. Il se nomme Adjusted R-Squared. Prdiction partir de la rgression Le but dune rgression linaire est souvent de dterminer lquation de la droite, qui sert ensuite prdire les valeurs prises par la variable expliquer partir de valeurs connues de la variable explicative. Cette prdiction peut tre ralise grce la fonction predict(regression,list(explicative1=valeur1,explicative2=valeur2,...)) o valeur1, valeur2, . . . sont soit des nombres, soit des vecteurs de nombres correspondant aux valeurs des variables explicatives pour lesquelles on souhaite obtenir la valeur de la variable expliquer. Il faut toutefois tre vigilant car lquation de la droite de rgression est tablie partir dune certaine gamme de valeurs des variables explicatives. Il est donc dautant plus hasardeux de prdire une valeur de la variable expliquer partir de valeurs des variables explicatives que celles - ci sont loignes de cette gamme. Rien ne dit par exemple que la relation entre les variables est toujours linaire en dehors de la gamme de valeurs qui a servi dnir la rgression.
de la 2nde variable est donc calcul sur la variation de la variable expliquer qui reste aprs avoir retir la variation due la 1re variable explicative. Il faut donc bien rchir au sens biologique des variables explicatives : si lobjectif est dliminer linuence dune variable avant de calculer leet dune autre, placer celle dont on veut liminer linuence en premier si lon connat a priori limportance relative des deux variables dans le systme biologique, placer celle qui a le plus dimportance en premier si lon a aucune ide a priori, tester les deux modles (en inversant lordre des variables dans le deuxime), comparer les rsultats puis interprter leurs dirences ventuelles en terme biologique pour retenir le modle le plus pertinent. Formules facteur(s) xe(s) et / ou variable(s) explicative(s) continue(s) A partir de deux variables explicatives, il est ncessaire de se poser la question de la relation qui lie ces variables. Deux cas de gures sont ainsi possibles : les variables explicatives sont croises : cest le cas lorsque tous les croisements entre les modalits de la 1re variable et celles de la 2nde sont reprsents par au moins un individu. Pour crire la formule, il faut se poser une autre question : linteraction entre les deux variable (i.e. le fait que leet de lune puisse dpendre de la valeur prise par la seconde) doit - elle tre prise en compte ? si non, le modle est additif. La formule scrit alors : a.expliquer~explicative1+explicative2 si oui, le modle est multiplicatif. La formule scrit alors : a.expliquer~explicative1*explicative2 La partie droite de cette formule est identique : explicative1+explicative2+explicative1:explicative2, i.e. 1re variable + 2nde variable + interaction entre les deux Si les deux variables explicatives sont quantitatives la formule sutilise dans une rgression multiple, si ce sont deux facteurs elle sutilise (le plus souvent) dans un modle linaire ou linaire gnralis, enn si lune est quantitative et lautre est un facteur la formule sutilise dans une analyse de la covariance les variables explicatives sont hirarchises : dans ce cas une variable est subordonne lautre (ex : des populations subordonnes des rgions). On ne peut donc pas croiser toutes les modalits de la 1re variable avec celles de la 2nde. La formule scrit : a.expliquer~explicative1/explicative2, o le slash (/) signie que la variable de droite est subordonne celle de gauche. La partie droite de cette formule est identique : explicative1+explicative1:explicative2, i.e. 1re variable + interaction entre les deux .
Formules mixtes Si crire une formule deux variables explicatives peut tre compliqu, ajouter un facteur alatoire est relativement simple : pour un modle crois : additif : a.expliquer~explicative1+explicative2+(1|aleatoire) multiplicatif : a.expliquer~explicative1*explicative2+(1|aleatoire) pour un modle hirarchis : a.expliquer~explicative1/explicative2+(1|aleatoire) Formules des modles nuls On appelle nul un modle qui ne contient aucune variable explicative. Sa formule est donc simple : sans facteur alatoire : a.expliquer~1 avec facteur alatoire : a.expliquer~1+(1|aleatoire)
et renvoie un tableau classant tous ces modles. Parmi les arguments facultatifs de la fonction, deux sont particulirement intressants : m.max=valeur, o valeur est le nombre maximal de variables explicatives intgrer dans les modles tester fixed=variables, o variables est un vecteur contenant les variables explicatives intgrer dans tous les modles tester (entre guillemets). Attention, si n < 40, o n est le nombre dindividus et k le nombre de k paramtres estims par modle (renvoy par le fonction dredge()), il faut utiliser lAICc (AIC corrig) et non pas lAIC. Dans le cas de modles avec une loi quasipoisson ou quasibinomial, le critre utilis est le QAICc, driv de lAIC pour les distributions quasi . Note sur les Modles Linaires Mixtes ( LMM) : le modle satur (modele1) doit avoir t cr avec loption REML=FALSE (par dfaut REML=TRUE). Une fois le meilleur modle dtermin, il doit tre rcrit avec loption REML=TRUE pour tre analys. Il faut tre conscient dune chose lorsque lon utilise une procdure de slection automatique : le modle avec lAIC le plus faible nest pas forcment celui qui biologiquement a le plus de sens. Il ne faut donc pas utiliser cette procdure aveuglment mais toujours rchir aux variables et interactions qui sont retenues. Il est ainsi possible denlever des termes manuellement si ceux - ci ne sont pas pertinents ou trop complexes interprter (comme une interaction dordre trois ou quatre).
GLM : modele2<-glm(variable~facteur-1,family=loi) o loi dpend du modle initial GLM mixte : modele2<-glmer(variable~facteur-1+(1|aleatoire),family=loi) Si cest linteraction entre deux facteurs qui est tudie, crer dabord un nouveau facteur : interaction<-factor(paste(facteur1,facteur2, sep=":")). Puis crer le modele2 en remplaant facteur par interaction. 3. raliser les comparaisons grce la fonction adjust.esticon() du package RVAideMemoire : adjust.esticon(modele2,contrastes). La fonction renvoie un tableau avec une ligne par contraste (dans le mme ordre que la matrice) et sur chaque ligne le rsultat du test de comparaison des classes correspondantes.
Les cours en ligne de M.-L. Delignette-Muller : http ://www2.vetlyon.fr/ens/biostat/accueil.html Le forum du groupe des utilisateurs du logiciel R : http ://forums.cirad. fr/logiciel-R/index.php Semin-R, un autre groupe dutilisateurs de R : http ://rug.mnhn.fr/seminr