451 pages

Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Régression avec R , livre ebook

EDP Sciences - Laurent Rouvière , Matzner-Løber Éric , Nicolas Hengartner , Pierre-André Cornillon

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

451 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Cet ouvrage expose de manière détaillée, exemples à l’appui, différentes façons de répondre à un des problèmes statistiques les plus courants : la régression. Cette nouvelle édition se décompose en cinq parties. La première donne les grands principes des régressions simple et multiple par moindres carrés. Les fondamentaux de la méthode, tant au niveau des choix opérés que des hypothèses et leur utilité, sont expliqués. La deuxième partie est consacrée à l’inférence et présente les outils permettant de vérifier les hypothèses mises en œuvre. Les techniques d’analyse de la variance et de la covariance sont également présentées dans cette partie. Le cas de la grande dimension est ensuite abordé dans la troisième partie. Différentes méthodes de réduction de la dimension telles que la sélection de variables, les régressions sous contraintes (lasso, elasticnet ou ridge) et sur composantes (PLS ou PCR) sont notamment proposées. Un dernier chapitre propose des algorithmes, basés sur des méthodes de rééchantillonnage comme l’apprentissage/validation ou la validation croisée, qui permettent d’établir une comparaison entre toutes ces méthodes. La quatrième partie se concentre sur les modèles linéaires généralisés et plus particulièrement sur les régressions logistique et de Poisson avec ou sans technique de régularisation. Une section particulière est consacrée aux comparaisons de méthodes en classification supervisée. Elle introduit notamment des critères de performance pour scorer des individus comme les courbes ROC et lift et propose des stratégies de choix seuil (Younden, macro F1...) pour les classer. Ces notions sont ensuite mises en œuvre sur des données réelles afin de sélectionner une méthode de prévision parmi plusieurs algorithmes basés sur des modèles logistiques (régularisés ou non). Une dernière section aborde le problème des données déséquilibrées qui est souvent rencontré en régression binaire. Enfin, la dernière partie présente l’approche non paramétrique à travers les splines, les estimateurs à noyau et des plus proches voisins. La présentation témoigne d’un réel souci pédagogique des auteurs qui bénéficient d’une expérience d’enseignement auprès de publics très variés. Les résultats exposés sont replacés dans la perspective de leur utilité pratique grâce à l’analyse d’exemples concrets. Les commandes permettant le traitement des exemples sous R figurent dans le corps du texte. Enfin, chaque chapitre est complété par une suite d’exercices corrigés. Les codes, les données et les corrections des exercices se trouvent sur le site https://regression-avec-r.github.io/ Cet ouvrage s’adresse principalement à des étudiants de Master et d’écoles d’ingénieurs ainsi qu’aux chercheurs travaillant dans les divers domaines des sciences appliquées

Remerciements vii

Avant-Propos ix

I Introduction au modèle linéaire1

1 La régression linéaire simple 3

1.1 Introduction............................... 3

1.1.1 Un exemple : la pollution de l’air ............... 3

1.1.2 Un second exemple : la hauteur des arbres .......... 5

1.2 Modélisation mathématique..................... 7

1.2.1 Choix du critère de qualité et distance à la droite ...... 7

1.2.2 Choix des fonctions à utiliser ................. 9

1.3 Modélisation statistique . .. . . . . . . . . . . . . . . . . . . . . . 10

1.4 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 11

1.4.1 Calcul des estimateurs de βj , quelques propriétés . . . . . . 11

1.4.2 Résidus et varianc résiduelle . . . . . . . . . . . . . . . . . 15

1.4.3 Prévision . . . . . . . . .. . . . . . . . . . . . . . . . . . . 15

1.5 Interprétations géométriques. . . . . . . . . . . . . . . . . . . . . 16

1.5.1 Représentation desindividus . . . . . . . . . . . . . . . . . 16

1.5.2 Représentation desvariables . . . . . . . . . . . . . . . . . . 17

1.6 Inférence statistique . . . .. . . . . . . . . . . . . . . . . . . . . . 19

1.7 Exemples . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 22

1.8 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 29

2 La régression linéaire multiple..31

2.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Modélisation . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 32

2.3 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 34

2.3.1 Calcul de βˆ . . . . . . .. . . . . . . . . . . . . . . . . . . . 35

2.3.2 Interprétation . . . . . .. . . . . . . . . . . . . . . . . . . . 37

2.3.3 Quelques propriétés statistiques . . . . . . . . . . . . . . . . 38

2.3.4 Résidus et variance résiduelle . . . . . . . . . . . . . . . . . 40

2.3.5 Prévision . . . . . . . . .. . . . . . . . . . . . . . . . . . . 41

2.4 Interprétation géométrique .. . . . . . . . . . . . . . . . . . . . . 42

2.5 Exemples . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 43

2.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 47

3 Validation du modèle 51

3.1 Analyse des résidus . . . . .. . . . . . . . . . . . . . . . . . . . . . 52

3.1.1 Les différents résidus . .. . . . . . . . . . . . . . . . . . . . 52

3.1.2 Ajustement individuel au modèle, valeur aberrante . . . . . 53

3.1.3 Analyse de la normalité . .. . . . . . . . . . . . . . . . . . 54

3.1.4 Analyse de l’homoscédasticité . . . . . . . . . . . . . . . . . 55

3.1.5 Analyse de la structure des résidus . . . . . . . . . . . . . . 56

3.2 Analyse de la matrice de projection . . . . . . . . . . . . . . . . . . 59

3.3 Autres mesures diagnostiques. . . . . . . . . . . . . . . . . . . . . 60

3.4 Effet d’une variable explicative . . . . . . . . . . . . . . . . . . . . 63

3.4.1 Ajustement au modèle . . .. . . . . . . . . . . . . . . . . . 63

3.4.2 Régression partielle : impact d’une variable . . . . . . . . . 64

3.4.3 Résidus partiels et résidus partiels augmentés . . . . . . . . 65

3.5 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 67

3.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 70

4 Extensions : non-inversibilitéet (ou) erreurs corrélées 73

4.1 Régression ridge . . . . . .. . . . . . . . . . . . . . . . . . . . . . 73

4.1.1 Une solution historique . .. . . . . . . . . . . . . . . . . . 74

4.1.2 Minimisation des MCO pénalisés . . . . . . . . . . . . . . . 75

4.1.3 Equivalence avec une contrainte sur la norme des coefficients 75

4.1.4 Propriétés statistiques de l’estimateur ridge βˆridge . . . . . . 76

4.2 Erreurs corrélées : moindres carrés généralisés . . . . . . . . . . . . 78

4.2.1 Erreurs hétéroscédastiques. . . . . . . . . . . . . . . . . . . 79

4.2.2 Estimateur des moindres carrés généralisés . . . . . . . . . 82

4.2.3 Matrice Ω inconnue . . . .. . . . . . . . . . . . . . . . . . 84

4.3 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 85

II Inférence 89

5 Inférence dans le modèle gaussien 91

5.1 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 91

5.2 Nouvelles propriétés statistiques . . . . . . . . . . . . . . . . . . . 92

5.3 Intervalles et régions de confiance . . . . . . . . . . . . . . . . . . . 94

5.4 Prévision . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 97

5.5 Les tests d’hypothèses . . .. . . . . . . . . . . . . . . . . . . . . . 98

5.5.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 98

5.5.2 Test entre modèles emboîtés. . . . . . . . . . . . . . . . . . 98

5.6 Applications . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 102

5.7 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 106

5.8 Notes . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 109

5.8.1 Intervalle de confiance : bootstrap . . . . . . . . . . . . . . 109

5.8.2 Test de Fisher pour une hypothèse linéaire quelconque . . . 112

5.8.3 Propriétés asymptotiques .. . . . . . . . . . . . . . . . . . 114

6 Variables qualitatives : ANCOVAet ANOVA 117

6.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 117

6.2 Analyse de la covariance . .. . . . . . . . . . . . . . . . . . . . . . 119

6.2.1 Introduction : exemple des eucalyptus . . . . . . . . . . . . 119

6.2.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 121

6.2.3 Hypothèse gaussienne . . .. . . . . . . . . . . . . . . . . . 123

6.2.4 Exemple : la concentrationen ozone . . . . . . . . . . . . . 124

6.2.5 Exemple : la hauteur des eucalyptus . . . . . . . . . . . . . 129

6.3 Analyse de la variance à 1facteur . . . . . . . . . . . . . . . . . . . 131

6.3.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 131

6.3.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 132

6.3.3 Interprétation des contraintes . . . . . . . . . . . . . . . . . 134

6.3.4 Estimation des paramètres .. . . . . . . . . . . . . . . . . 134

6.3.5 Hypothèse gaussienne et test d’influence du facteur . . . . . 136

6.3.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 137

6.3.7 Une décomposition directe de la variance . . . . . . . . . . 142

6.4 Analyse de la variance à 2 facteurs . . . . . . . . . . . . . . . . . . 142

6.4.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 142

6.4.2 Modélisation du problème .. . . . . . . . . . . . . . . . . . 143

6.4.3 Estimation des paramètres .. . . . . . . . . . . . . . . . . 145

6.4.4 Analyse graphique del’interaction . . . . . . . . . . . . . . 146

6.4.5 Hypothèse gaussienne ettest de l’interaction . . . . . . . . 148

6.4.6 Exemple : la concentration en ozone . . . . . . . . . . . . . 150

6.5 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 152

6.6 Note : identifiabilité et contrastes . . . . . . . . . . . . . . . . . . . 155

III Réduction de dimension 157

7 Choix de variables 159

7.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 159

7.2 Choix incorrect de variables: conséquences . . . . . . . . . . . . . 161

7.2.1 Biais des estimateurs . . .. . . . . . . . . . . . . . . . . . 161

7.2.2 Variance des estimateurs .. . . . . . . . . . . . . . . . . . . 163

7.2.3 Erreur quadratique moyenne. . . . . . . . . . . . . . . . . 163

7.2.4 Erreur quadratique moyenne de prévision . . . . . . . . . . 166

7.3 Critères classiques de choix de modèles . . . . . . . . . . . . . . . 168

7.3.1 Tests entre modèles emboîtés . . . . . . . . . . . . . . . . . 169

7.3.2 Le R2 . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . 170

7.3.3 Le R2 ajusté . . . . . . .. . . . . . . . . . . . . . . . . . . 171

7.3.4 Le Cp de Mallows . . . . .. . . . . . . . . . . . . . . . . . 172

7.3.5 Vraisemblance et pénalisation . . . . . . . . . . . . . . . . . 174

7.3.6 Liens entre les critères .. . . . . . . . . . . . . . . . . . . . 176

7.4 Procédure de sélection . . .. . . . . . . . . . . . . . . . . . . . . . 178

7.4.1 Recherche exhaustive . . .. . . . . . . . . . . . . . . . . . . 178

7.4.2 Recherche pas à pas . . . .. . . . . . . . . . . . . . . . . . 178

7.5 Exemple : la concentration en ozone . . . . . . . . . . . . . . . . . 180

7.5.1 Variables explicatives quantitatives . . . . . . . . . . . . . . 180

7.5.2 Intégration de variables qualitatives . . . . . . . . . . . . . 183

7.6 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 184

7.7 Note : Cp et biais de sélection . . . . . . . . . . . . . . . . . . . . . 187

8 Régularisation des moindres carrés : Ridge, Lasso et elastic-net 191

8.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 191

8.2 Problème du centrage-réduction des variables . . . . . . . . . . . . 194

8.3 Ridge, lasso et elastic-net .. . . . . . . . . . . . . . . . . . . . . . 195

8.3.1 Régressions avec la package glmnet . . . . . . . . . . . . . . 199

8.3.2 Interprétation géométrique. . . . . . . . . . . . . . . . . . 202

8.3.3 Simplification quand les X sont orthogonaux . . . . . . . . 203

8.3.4 Choix du paramètre de régularisation λ . . . . . . . . . . . 206

8.4 Intégration de variables qualitatives . . . . . . . . . . . . . . . . . 208

8.5 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 210

8.6 Note : lars et lasso . . . .. . . . . . . . . . . . . . . . . . . . . . . 213

9 Régression sur composantes :PCR et PLS 217

9.1 Régression sur composantes principales (PCR) . . . . . . . . . . . 218

9.1.1 Changement de base . . . .. . . . . . . . . . . . . . . . . . 218

9.1.2 Estimateurs des MCO . . . .. . . . . . . . . . . . . . . . . 219

9.1.3 Choix decomposantes/variables . . . . . . . . . . . . . . . 220

9.1.4 Retour aux donnéesd’origine . . . . . . . . . . . . . . . . . 222

9.1.5 La régression sur composantes en pratique . . . . . . . . . . 223

9.2 Régression aux moindres carrés partiels (PLS) . . . . . . . . . . . . 225

9.2.1 Algorithmes PLS . . . . . .. . . . . . . . . . . . . . . . . . 227

9.2.2 Choix decomposantes/variables . . . . . . . . . . . . . . . 228

9.2.3 Retour aux données d’origine. . . . . . . . . . . . . . . . . 229

9.2.4 La régression PLS en pratique . . . . . . . . . . . . . . . . 230

9.3 Exercices . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 231

9.4 Notes . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 233

9.4.1 ACP et changement de base .. . . . . . . . . . . . . . . . . 233

9.4.2 Colinéarité parfaite : |X[1] X| = 0 . . . . . . . . . . . . .. . . 235

10 Comparaison des différentes méthodes, étude de cas réels 237

10.1 Erreur de prévision et validation croisée . . . . . . . . . . . . . . . 237

10.2 Analyse de l’ozone . . . . .. . . . . . . . . . . . . . . . . . . . . . 241

10.2.1 Préliminaires . . . . . .. . . . . . . . . . . . . . . . . . . . 241

10.2.2 Méthodes et comparaison .. . . . . . . . . . . . . . . . . . 241

10.2.3 Pour aller plus loin . . .. . . . . . . . . . . . . . . . . . . . 245

10.2.4 Conclusion . . . . . . . .. . . . . . . . . . . . . . . . . . . 248

IV Le modèle linéaire généralisé...249

11 Régression logistique 251

11.1 Présentation du modèle . . .. . . . . . . . . . . . . . . . . . . . . 251

11.1.1 Exemple introductif . . .. . . . . . . . . . . . . . . . . . . 251

11.1.2 Modélisation statistique .. . . . . . . . . . . . . . . . . . . 252

11.1.3 Variables explicatives qualitatives, interactions . . . . . . . 255

11.2 Estimation . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 257

11.2.1 La vraisemblance . . . . .. . . . . . . . . . . . . . . . . . . 257

11.2.2 Calcul des estimateurs : l’algorithme IRLS . . . . . . . . . . 259

11.2.3 Propriétés asymptotiques de l’EMV . . . . . . . . . . . . . 260

11.3 Intervalles de confiance et tests . . . . . . . . . . . . . . . . . . . . 261

11.3.1 IC et tests sur les paramètres du modèle . . . . . . . . . . . 262

11.3.2 Test sur un sous-ensemble de paramètres . . . . . . . . . . 264

11.3.3 Prévision . . . . . . . .. . . . . . . . . . . . . . . . . . . . 267

11.4 Adéquation du modèle . . . .. . . . . . . . . . . . . . . . . . . . . 269

11.4.1 Le modèle saturé . . . . .. . . . . . . . . . . . . . . . . . . 270

11.4.2 Tests d’adéquation de la déviance et de Pearson . . . . . . 272

11.4.3 Analyse des résidus . . .. . . . . . . . . . . . . . . . . . . . 275

11.5 Choix de variables . . . . .. . . . . . . . . . . . . . . . . . . . . . 279

11.5.1 Tests entre modèles emboîtés . . . . . . . . . . . . . . . . . 279

11.5.2 Procédures automatiques .. . . . . . . . . . . . . . . . . . 280

11.6 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 282

12 Régression de Poisson 289

12.1 Le modèle linéaire généralisé (GLM) . . . . . . . . . . . . . . . . . 289

12.2 Exemple : modélisation du nombre de visites . . . . . . . . . . . . 292

12.3 Régression Log-linéaire . .. . . . . . . . . . . . . . . . . . . . . . . 295

12.3.1 Le modèle . . . . . . . .. . . . . . . . . . . . . . . . . . . . 295

12.3.2 Estimation . . . . . . . .. . . . . . . . . . . . . . . . . . . 296

12.3.3 Tests et intervalles de confiance . . . . . . . . . . . . . . . . 297

12.3.4 Choix de variables . . . .. . . . . . . . . . . . . . . . . . . 302

12.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 303

13 Régularisation de la vraisemblance 309

13.1 Régressions ridge, lasso et elastic-net . . . . . . . . . . . . . . . . . 309

13.2 Choix du paramètre de régularisation λ . . . . . . . . . . . . . . . 313

13.3 Group-lasso . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 317

13.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 319

14 Comparaison en classification supervisée 321

14.1 Prévision en classification supervisée . . . . . . . . . . . . . . . . . 321

14.2 Performance d’une règle . .. . . . . . . . . . . . . . . . . . . . . . 323

14.2.1 Erreur de classification et accuracy . . . . . . . . . . . . . . 326

14.2.2 Sensibilité (recall) et taux de faux négatifs . . . . . . . . . . 327

14.2.3 Spécificité et taux de faux positifs . . . . . . . . . . . . . . 327

14.2.4 Mesure sur les tables de contingence . . . . . . . . . . . . . 328

14.3 Performance d’un score . . .. . . . . . . . . . . . . . . . . . . . . 329

14.3.1 Courbe ROC . . . . . . . .. . . . . . . . . . . . . . . . . . 329

14.3.2 Courbe lift . . . . . . .. . . . . . . . . . . . . . . . . . . . 331

14.4 Choix du seuil . . . . . . .. . . . . . . . . . . . . . . . . . . . . . 332

14.4.1 Respect des proportions initiales . . . . . . . . . . . . . . . 332

14.4.2 Maximisation d’indices adhoc . . . . . . . . . . . . . . . . 332

14.4.3 Maximisation d’un coût moyen . . . . . . . . . . . . . . . . 333

14.5 Analyse des données chd . .. . . . . . . . . . . . . . . . . . . . . . 334

14.5.1 Les données . . . . . . .. . . . . . . . . . . . . . . . . . . . 334

14.5.2 Comparaison des algorithmes . . . . . . . . . . . . . . . . . 334

14.5.3 Pour aller plus loin . . .. . . . . . . . . . . . . . . . . . . . 340

14.6 Application : détection d’images publicitaires sur internet . . . . . 346

14.6.1 Les données . . . . . . .. . . . . . . . . . . . . . . . . . . . 346

14.6.2 Ajustement des modèles . .. . . . . . . . . . . . . . . . . . 347

14.7 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 351

15 Données déséquilibrées 353

15.1 Données déséquilibrées et modèle logistique . . . . . . . . . . . . . 353

15.1.1 Un exemple . . . . . . . .. . . . . . . . . . . . . . . . . . . 353

15.1.2 Rééquilibrage pour le modèle logistique . . . . . . . . . . . 355

15.1.3 Exemples de schéma de rééquilibrage . . . . . . . . . . . . . 356

15.2 Stratégies pour données déséquilibrées . . . . . . . . . . . . . . . . 361

15.2.1 Quelques méthodes de rééquilibrage . . . . . . . . . . . . . 361

15.2.2 Critères pour données déséquilibrées . . . . . . . . . . . . . 366

15.3 Choisir un algorithme de rééquilibrage . . . . . . . . . . . . . . . . 370

15.3.1 Rééquilibrage et validation croisée . . . . . . . . . . . . . . 370

15.3.2 Application aux données d’images publicitaires . . . . . . . 372

15.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 376

V Introduction à la régression non paramétrique 379

16 Introduction à la régression spline 381

16.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 381

16.2 Régression spline . . . . .. . . . . . . . . . . . . . . . . . . . . . . 385

16.2.1 Introduction . . . . . . .. . . . . . . . . . . . . . . . . . . 385

16.2.2 Spline de régression . . .. . . . . . . . . . . . . . . . . . . 386

16.3 Spline de lissage . . . . .. . . . . . . . . . . . . . . . . . . . . . . 390

16.4 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 393

17 Estimateurs à noyau et k plus proches voisins 395

17.1 Introduction . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 395

17.2 Estimateurs par moyennes locales . . . . . . . . . . . . . . . . . . . 398

17.2.1 Estimateurs à noyau . . .. . . . . . . . . . . . . . . . . . . 398

17.2.2 Les k plus proches voisins. . . . . . . . . . . . . . . . . . . 402

17.3 Choix des paramètres de lissage . . . . . . . . . . . . . . . . . . . . 403

17.4 Ecriture multivariée et fléau de la dimension . . . . . . . . . . . . . 406

17.4.1 Ecriture multivariée . . .. . . . . . . . . . . . . . . . . . . 406

17.4.2 Biais et variance . . . .. . . . . . . . . . . . . . . . . . . . 407

17.4.3 Fléau de la dimension . .. . . . . . . . . . . . . . . . . . . 409

17.5 Exercices . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 411

A Rappels 415

A.1 Rappels d’algèbre . . . . . .. . . . . . . . . . . . . . . . . . . . . . 415

A.2 Rappels de probabilités . . .. . . . . . . . . . . . . . . . . . . . . 418

Bibliographie 419

Index 423

Notations 431

Fonctions et packages R 433

Sujets

Mathématiques fondamentales

Informations

Publié par	EDP Sciences
Date de parution	11 mai 2023
Nombre de lectures	24
EAN13	9782759831463
Langue	Français
Poids de l'ouvrage	4 Mo

Informations légales : prix de location à la page 0,3900€. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Extrait

Régression
avec R
e3 édition
Pierre-André Cornillon
Nicolas Hengartner
Eric Matzner-Løber
Laurent Rouvière
9782759831456-COUV.indd 1 29/03/2023 11:41eRégression avec R – 3 édition
Pierre-André Cornillon – Nicolas Hengartner
Eric Matzner-Løber – Laurent Rouvière
Performant, évolutif, libre, gratuit, Cet ouvrage expose de manière détaillée, exemples à l’appui,
le monde du logiciel libre différentes façons de répondre à un des problèmes statistiques les
s’est imposé depuis une vingtaine plus courants : la régression.
d’années comme la base des
Cette nouvelle édition se décompose en cinq parties. La première outils de calculs et d’intelligence
donne les grands principes des régressions simple et multiple par artifcielle déportés dans le cloud
moindres carrés. Les fondamentaux de la méthode, tant au niveau ou en local. Parmi les langages
des choix opérés que des hypothèses et leur utilité, sont expliqués. de cet écosystème gratuit
La deuxième partie est consacrée à l’inférence et présente les outils et multiplateformes R, python
ou julia sont devenus des outils permettant de vérifer les hypothèses mises en œuvre. Les techniques
incontournables en machine d’analyse de la variance et de la covariance sont également présentées
learning, IA, optimisation ou dans cette partie. Le cas de la grande dimension est ensuite abordé
statistiques tant dans les milieux dans la troisième partie. Différentes méthodes de réduction de la
académiques qu’industriels. dimension telles que la sélection de variables, les régressions sous
contraintes (lasso, elasticnet ou ridge) et sur composantes (PLS ou La collection « PratiqueR »
PCR) sont notamment proposées. Un dernier chapitre propose des répond à cette évolution récente
algorithmes, basés sur des méthodes de rééchantillonnage comme et propose d’intégrer pleinement
l’apprentissage/validation ou la validation croisée, qui permettent l’utilisation d’un langage dans
d’établir une comparaison entre toutes ces méthodes. des ouvrages couvrant
les aspects théoriques et La quatrième partie se concentre sur les modèles linéaires généralisés
pratiques de diverses méthodes et plus particulièrement sur les régressions logistique et de Poisson
statistiques appliquées à
avec ou sans technique de régularisation. Une section particulière
des domaines aussi variés que
est consacrée aux comparaisons de méthodes en classifcation l’analyse des données, la gestion
supervisée. Elle introduit notamment des critères de performance des risques, les sciences
pour scorer des individus comme les courbes ROC et lift et propose médicales, l’économie, etc.
des stratégies de choix seuil (Younden, macro F1...) pour les classer.
Elle s’adresse aux étudiants, Ces notions sont ensuite mises en œuvre sur des données réelles afn
enseignants, ingénieurs, de sélectionner une méthode de prévision parmi plusieurs algorithmes
praticiens et chercheurs de ces basés sur des modèles logistiques (régularisés ou non). Une dernière
différents domaines qui utilisent section aborde le problème des données déséquilibrées qui est
quotidiennement des données souvent rencontré en régression binaire.
dans leur travail et qui apprécient
Enfn, la dernière partie présente l’approche non paramétrique à travers ces langages pour leur fabilité,
les splines, les estimateurs à noyau et des plus proches voisins.leur confort d’utilisation et leur
extensibilité via des modules La présentation témoigne d’un réel souci pédagogique des auteurs qui
ou des packages. bénéfcient d’une expérience d’enseignement auprès de publics très
variés. Les résultats exposés sont replacés dans la perspective de leur
La collection PratiqueR
utilité pratique grâce à l’analyse d’exemples concrets. Les commandes
est dirigée par
permettant le traitement des exemples sous R fgurent dans le corps
Pierre-André Cornillon et
du texte. Enfn, chaque chapitre est complété par une suite d’exercices Eric Matzner-Løber
corrigés. Les codes, les données et les corrections des exercices se
trouvent sur le site https://regression-avec-r.github.io/
Cet ouvrage s’adresse principalement à des étudiants de Master
et d’écoles d’ingénieurs ainsi qu’aux chercheurs travaillant dans les
divers domaines des sciences appliquées.
978-2-7598-3145-6
9 782759 831456 www.edpsciences.org
9782759831456-COUV.indd 1 29/03/2023 11:41Pierre-André Cornillon, Nicolas Hengartner,
Eric Matzner-Løber et Laurent Rouvière
Régression
avec R
e3 éditionISBN (papier) : 978-2-7598-3145-6 — ISBN (ebook) : 978-2-7598-3146-3
© 2023, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc d’activités de Courtaboeuf,
91944 Les Ulis Cedex A
Imprimé en France
Tous droits de traduction, d’adaptation et de reproduction par tous procédés réservés
pour tous pays. Toute reproduction ou représentation intégrale ou partielle, par quelque
procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l’autorisation
de l’éditeur est illicite et constitue une contrefaçon. Seules sont autorisées, d’une part,
les reproductions strictement réservées à l’usage privé du copiste et non destinées à une
utilisation collective, et d’autre part, les courtes citations justifiées par le caractère
scientifique ou d’information de l’oeuvre dans laquelle elles sont incorporées (art. L. 122-4,
L. 122-5 et L. 335-2 du Code de la propriété intellectuelle). Des photocopies payantes
peuvent être réalisées avec l’accord de l’éditeur. S’adresser au : Centre français
d’exploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tél. : 01 43 26 95 35.Collection Pratique R
dirigée par Pierre-André Cornillon et Eric Matzner-Løber
Université Rennes-2
et ENSAE formation continue Le Cepe, France
Comité éditorial
Eva Cantoni Ana Karina Fermin Rodriguez
Institut de recherche en statistique Laboratoire Modal’X
& Département d’économétrie Université Paris Ouest
Université de Genève, Suisse France
Marie Chavent François Husson
Institut de Mathématique de Bordeaux, Unité Pédagogique de Mathématiques
Centre Inria de l’université de Bordeaux Appliquées, Institut Agro Rennes-Angers
Talence, France France
Rémy Drouilhet Pierre Lafaye de Micheaux
Laboratoire Jean Kuntzmann Application des Mathématiques,
Université Pierre Mendes France Informatique, Statistique
Grenoble, France Université Paul-Valéry Montpellier 3
France
Déjà paru dans la même collection :
Calcul parallèle avec R
Vincent Miele, Violaine Louvet, 2016
ISBN : 978-2-7598-2060-3 – EDP Sciences
Séries temporelles avec R
Yves Aragon, 2016
ISBN : 978-2-7598-1779-5 – EDP Sciences
Psychologie statistique avec R
Yvonnick Noël, 2015
ISBN : 978-2-7598-1736-8 – EDP Sciences
Réseaux bayésiens avec R
Jean-Baptiste Denis, Marco Scutati, 2014
ISBN : 978-2-7598-1198-4 – EDP Sciences
Analyse factorielle multiple avec R
Jérôme Pagès, 2013
ISBN : 978-2-7598-0963-9 – EDP Sciences
Méthodes de Monte-Carlo avec R
Christian P. Robert, George Casella, 2011
ISBN : 978-2-8178-0181-0 – Springer“regression” — 2023/3/15 — 16:57 — page vii — #1
REMERCIEMENTS
Cet ouvrage est l’évolution naturelle de la première édition de Régression avec R,
elle-même issue de Régression : Théorie et applications.
Cette nouvelle édition s’appuie toujours sur des exemples concrets et elle
n’existerait pas sans ceux-ci. Il est souvent diﬃcile d’obtenir des données réelles pour
tester ou présenter des méthodes. Et il est encore plus diﬃcile d’obtenir
l’autorisation de les publier. Or nous avons eu la chance d’avoir cette autorisation et
des cohortes d’étudiants ont donc analysé des données de pollution et des données
d’eucalyptus! Nous souhaitons proﬁter de cette nouvelle édition pour
renouveler
nossincèresremerciementàM.Coron(AssociationAirBreizh),B.Mallet(CIRAD
forêt)etJ.-N.Marien(UR2PI)quinousontautoriséàutiliseretdiﬀuserleursdonnées. Nous souhaitons bien sûr associer tous les membres de l’unité de recherche
pour la productivité des plantations industrielles (UR2PI), passés ou présents. Les
membres de cet organisme de recherche congolais gèrent de nombreux essais, tant
génétiques que sylvicoles, et nous renvoyons toutes les personnes intéressées auprès
de cet organisme ou auprès du CIRAD, département forêt (wwww.cirad.fr), qui
est un des membres fondateurs et un participant actif au sein de l’UR2PI.
Plus de dix ans se sont écoulés depuis les premières versions de cet ouvrage et nous
avons eu le plaisir de recevoir de nombreux retours pertinents sur les premières
éditions. Les remaniements et l’ajout de nouveaux chapitres comme ceux consacrés
au modèle linéaire généralisé, aux méthodes régularisées et à la régression non
paramétrique nous ont incités à faire relire ces passages et à en rediscuter d’autres.
Les commentaires minutieux et avisés de C. Abraham, N. Chèze, M.-L. Grisoni,
P. Lafaye de Micheaux, V. Leﬁeux, E. Le Pennec nous ont ainsi permis d’améliorer
les diﬀérents chapitres aﬁn (nous l’espérons) de produire une nouvelle édition plus
aboutie. Nous leurs adressons de chaleureux et sincères remerciements.
Nos remerciements vont également à N. Huilleret et C. Ruelle qui nous ont
permis de mener à bien le projet de livre et d’édition. Enﬁn sans la reprise de la
collection Pratique R par EDP Sciences, ce travail n’existerait pas. Merci donc à
F. Citrini et S. Hosotte, pour leur temps, encouragements et patience. Nous
remercions également EDP Sciences pour les relectures pertinentes et minutieuses
de cet ouvrage.“regression” — 2023/3/15 — 16:57 — page viii — #2“regression” — 2023/3/15 — 16:57 — page ix — #3
AVANT-PROPOS
Cette nouvelle édition est une évolution de la version initiale publiée en 2009.
Nous rappelons que cette première version s’inscrivait dans la continuation du
livre Régression : théorie et applications paru chez Springer-Verlag (Paris). Cette
nouvelle édition est plus qu’une mise à jour de la version initiale, la structure a été
complètement repensée et de nouvelles parties sont apparues. Par ailleurs, un site
web dédié au livre est proposé à l’url ht