From 8c2e3d052115036a385cef9d3c8e6aa5c9770423 Mon Sep 17 00:00:00 2001
From: Cyrille BERTELLE <cyrille.bertelle@univ-lehavre.fr>
Date: Tue, 17 Nov 2020 12:38:21 +0100
Subject: [PATCH] Replace m2iwocs-apa-chap3-regression-polynomiale.ipynb

---
 ...ocs-apa-chap3-regression-polynomiale.ipynb | 58 ++++++++++++++++---
 1 file changed, 50 insertions(+), 8 deletions(-)

diff --git a/m2iwocs-apa-chap3-regression-polynomiale.ipynb b/m2iwocs-apa-chap3-regression-polynomiale.ipynb
index 05be04d..2833308 100644
--- a/m2iwocs-apa-chap3-regression-polynomiale.ipynb
+++ b/m2iwocs-apa-chap3-regression-polynomiale.ipynb
@@ -59,7 +59,7 @@
     "\n",
     "Si maintenant, nous disposons de donnÃ©es qui ne prÃ©sentent pas cette propriÃ©tÃ© de linÃ©aritÃ©, il faut alors trouver d'autres modÃ¨les ou hypothÃ¨ses pour rÃ©ussir Ã  dÃ©gager des relations comme illustrÃ©es dans la figure suivante.\n",
     "\n",
-    "<img src=\"images/tds-regpol1.png\" width=\"500\"/>"
+    "<img src=\"tds-regpol1.png\" width=\"500\"/>"
    ]
   },
   {
@@ -112,10 +112,13 @@
    "source": [
     "Ainsi nous allons pouvoir formuler Ã  partir d'un jeu de donnÃ©es (X,y) des hypothÃ¨ses de la forme suivante :\n",
     "- si X n'est composÃ© que d'une seule variable explicative (rÃ©gression univariÃ©e), l'hypothÃ¨se Ã  base d'un polynome de degrÃ© $k$ s'Ã©crit de la maniÃ¨re suivante :\n",
+    "\n",
     "$$\n",
     "h(X) = \\theta_0 + \\Theta_1 X_1 + \\Theta_2 X_1^2 + \\Theta_3 X_1^3 + \\dots = \\theta_0 + \\sum_{j=1}^k \\theta_j X_1^j\n",
     "$$\n",
+    "\n",
     "- si X est composÃ© de plusieurs variables explicatives (rÃ©gression multivariÃ©e), par exemple ici 2, l'hypothÃ¨se Ã  base d'un polynome de degrÃ© $k$ s'Ã©crit de la maniÃ¨re suivante :\n",
+    "\n",
     "$$\n",
     "h(X) = \\theta_0 + \\sum_{j=1}^k \\left( \\theta_{1,j} X_1^j + \\theta_{2,j} X_2^j \\right)\n",
     "$$\n",
@@ -239,14 +242,18 @@
    "source": [
     "Le programme se termine par le calcul de 2 indicateurs : \n",
     "- `rmse` - Root of Mean Squared Error - correspond la distance entre les valeurs prÃ©dites, $\\{h(x_i), 0 \\leq i \\leq n\\}$ et les valeurs des donnÃ©es $\\{y_i, 0 \\leq i \\leq n\\}$, c'est Ã  dire \n",
+    "\n",
     "$$\n",
     "\\sqrt{\\frac{1}{n}\\sum_{i=1}^{n}(h(x_i)-y_i)^2} \n",
     "$$\n",
+    "\n",
     "Cet indicateur mesure ainsi la proximitÃ© de la courbe de rÃ©gression (de l'hypothÃ¨se) avec les donnÃ©es. Sa valeur numÃ©rique dÃ©pend de l'ordre de grandeur des donnÃ©es. Il permet donc de comparer deux ou plusieurs hypothÃ¨ses.\n",
     "- `r2` ou `r2_score`, appelÃ© *coefficient de dÃ©termination* va permettre d'Ã©valuer la qualitÃ© de la prÃ©diction :\n",
+    "\n",
     "$$\n",
     "1-\\frac{\\sum_{i=1}^n (h(x_i)-y_i)^2}{\\sum_{i=1}^n (\\overline{y}-y_i)^2}\n",
     "$$\n",
+    "\n",
     "avec $\\overline{y} = \\frac{1}{n}\\sum_{i=1}^n y_i$.\n",
     "Sa valeur numÃ©rique est comprise entre 0 et 1. Si il vaut 1, la rÃ©gression est parfaite par rapport au jeu de donnÃ©es. Si il vaut 0, la rÃ©gression n'est pas du tout pertinente pour le jeu de donnÃ©es."
    ]
@@ -256,14 +263,17 @@
    "metadata": {},
    "source": [
     "Nous allons maintenant passer Ã  une hypothÃ¨se basÃ©e sur une rÃ©gression basÃ©e sur un polynome d'ordre k :\n",
+    "\n",
     "$$\n",
     "h(x) = \\theta_0 + \\sum_{j=1}^k \\theta_j x^j\n",
     "$$\n",
+    "\n",
     "Cette expression reste linÃ©aire par rapport aux coefficients Ã  calculer, $\\theta_j$. \n",
     "\n",
     "La maniÃ¨re de traiter le problÃ¨me avec la bibliothÃ¨que `sklearn`est la suivante.\n",
     "\n",
     "Pour simplifier l'explication, nous allons nous placer dans le cas d'un jeu de donnÃ©es de la forme $(x_i, y_i)$ avec la recherche d'un modÃ¨le/hypothÃ¨se univariÃ© de regression polynomiale de degrÃ©  3 :\n",
+    "\n",
     "$$\n",
     "h(x) = \\theta_0 + \\theta_1 x + \\theta_2 x^2 + \\theta_3 x^3\n",
     "$$\n",
@@ -273,9 +283,11 @@
     "`poly = PolynomialFeatures(degree=3)`\n",
     "\n",
     "Ensuite on transforme ou rÃ©Ã©crit le modÃ¨le prÃ©cÃ©dent sous la forme linÃ©aire suivante : \n",
+    "\n",
     "$$\n",
     "h(t,u,v,w) = \\theta_0 t + \\theta_1 u + \\theta_2 v + \\theta_3 w\n",
     "$$\n",
+    "\n",
     "avec $t=1$, $u=x$, $v=x^2$ et $w=x^3$\n",
     "\n",
     "On a alors transformÃ© un modÃ¨le polynomial de degrÃ© 3, Ã  1 variable explicative $(x)$ en un modÃ¨le linÃ©aire Ã  4 variables explicatives $(t,u,v,w)$.\n",
@@ -599,12 +611,24 @@
     "\n",
     "*Rappels* des dÃ©finitions de la moyenne et de la variance :\n",
     "- la moyenne sa calcule ainsi\n",
-    "$$\\mu(\\epsilon) = \\frac{1}{n} \\sum_{i=1}^{n} \\epsilon_i$$\n",
+    "\n",
+    "$$\n",
+    "\\mu(\\epsilon) = \\frac{1}{n} \\sum_{i=1}^{n} \\epsilon_i\n",
+    "$$\n",
+    "\n",
     "- la variance notÃ©e $V(x)$ ou $\\sigma^2$, est la moyenne des carrÃ©s des Ã©carts Ã  la moyenne \n",
-    "$$\\sigma^2 = V(x) = \\frac{1}{n}\\sum_{i=1}^{n}(x_i - \\mu(x))^2$$ \n",
+    "\n",
+    "$$\n",
+    "\\sigma^2 = V(x) = \\frac{1}{n}\\sum_{i=1}^{n}(x_i - \\mu(x))^2\n",
+    "$$ \n",
+    "\n",
     "On peut montrer que \n",
-    "$$\\sigma^2 = V(x) = \\left( \\frac{1}{n}\\sum_{i=1}^n x_i^2 \\right) - \\mu(x)^2 = \\mu(x^2) - \\mu(x)^2$$\n",
-    "- $\\sigma$ est appelÃ© l'Ã©cart-type, c'est donc la racine carrÃ©e de la variance, $\\sigma = \\sqrt{V(x)}$. Il permet de mesurer la dispersion des valeurs $x_i$ autour de la moyenne $\\mu(x)$.\n",
+    "\n",
+    "$$\n",
+    "\\sigma^2 = V(x) = \\left( \\frac{1}{n}\\sum_{i=1}^n x_i^2 \\right) - \\mu(x)^2 = \\mu(x^2) - \\mu(x)^2\n",
+    "$$\n",
+    "\n",
+    "-  $\\sigma$ est appelÃ© l'Ã©cart-type, c'est donc la racine carrÃ©e de la variance, $\\sigma = \\sqrt{V(x)}$. Il permet de mesurer la dispersion des valeurs $x_i$ autour de la moyenne $\\mu(x)$.\n",
     "\n",
     "A partir du jeu de donnÃ©es $\\{(x_i, y_i); 1 \\leq i \\leq n\\}$, on va construire un ensemble $S$ de $m$ Ã©chantillons, que l'on appelle aussi Ã©chantillons d'apprentissage, et qui correspondent Ã  des extractions de ce jeu de donnÃ©es de taille infÃ©rieure Ã  $n$. Pour chaque Ã©chantillon de donnÃ©es, on note $x^p$, l'Ã©chantillon $p$ des donnÃ©es d'entrÃ©e (attention Ã  la notation, ce n'est pas une Ã©lÃ©vation Ã  la puissance mais un indice supÃ©rieur), on calcule l'hypothÃ¨se $h_{x^p}(x))$. Il faut comprendre ici que pour les modÃ¨les de regression polynomiale, l'hypothÃ¨se est indÃ©pendante de l'Ã©chantillon : il s'agit notamment de choisir le degrÃ© du polynome. Par contre le calcul des coefficients du polynome pour le degrÃ© choisit, va dÃ©pendre du jeu de donnÃ©es.\n",
     "\n",
@@ -615,29 +639,42 @@
     "Une espÃ©rance mathÃ©matique est un calcul de moyenne pondÃ©rÃ©e ou la pondÃ©ration est une probabilitÃ© affectÃ©e Ã  chaque terme de la moyenne ; la somme des probalitÃ©s Ã©tant Ã©gale Ã  1. Ici, si l'on considÃ¨re que chaque Ã©chantillon a la mÃªme importance (ou mÃªme probabilitÃ© d'apparaÃ®tre ou d'exister), l'espÃ©rance sera calculÃ©e comme une moyenne simple.\n",
     "\n",
     "On calcule dÃ©jÃ  une fonction $G(t)$ par\n",
+    "\n",
     "$$\n",
     "G(t) = \\frac{1}{m}\\sum_{x_p \\in S} h_{x_p}(t)\n",
     "$$\n",
+    "\n",
     "oÃ¹ l'on rappelle que $m$ est le nombre d'Ã©chantillons $x_p$ dans $S$.\n",
     "\n",
     "Puis l'espÃ©rance de l'hypothÃ¨se $h$ pour le jeu de donnÃ©es dont les valeurs d'entrÃ©e sont $x = {x_i, 1 \\leq i \\leq n}$ \n",
+    "\n",
     "$$\n",
     "E_S[h(x)] = \\frac{1}{n}\\sum_{i=1}^{n} G(x_i)\n",
     "$$\n",
     "\n",
     "Une fois effectuÃ©s ces rappels et ces notations (parfois imprÃ©cises dans la littÃ©rature), on va donner des expressions du biais et de la variance \n",
     "\n",
-    "- le biais se calcule par $$B(h(x))= E[(h-f)(x)]$$, \n",
-    "- la variance se calcule par $$Var(h(x))=E[h^2(x)]-(E[h(x)])^2$$\n",
+    "- le biais se calcule par \n",
+    "\n",
+    "$$\n",
+    "B(h(x))= E[(h-f)(x)]\n",
+    "$$ \n",
+    "\n",
+    "- la variance se calcule par \n",
+    "\n",
+    "$$\n",
+    "Var(h(x))=E[h^2(x)]-(E[h(x)])^2\n",
+    "$$\n",
     "\n",
     "On dÃ©finit ensuite l'*erreur de prÃ©diction attendue* par\n",
+    "\n",
     "$$\n",
     "Err(h(x)) = B^2(h(x)) + Var(h(x)) + \\sigma^2\n",
     "$$\n",
     "\n",
     "On rappelle que l'on a fait l'hypothÃ¨se qu'il existait une fonction $f(x)$ telle que $y_i  = f(x_i) + \\epsilon_i$, oÃ¹ $\\epsilon_i$ est un bruit dont la variance est notÃ©e $\\sigma^2$. \n",
     "\n",
-    "$f(x)$ n'Ã©tant pas une fonction connue, on ne pourra pas calculer directement le biais qui mesure l'Ã©cart entre l'hypothÃ¨se et les donnÃ©es au sens \"classique\". Par contre, il est assez bien estimÃ© par les indicateurs que nous avons utilisÃ©s lors des tracÃ©s des rÃ©gression polynomiale, Ã  savoir `rmse`et `r2`. Il faut simplement se rappeler que l'hypothÃ¨se de l'existance de $f$ signifie qu'il y a un bruit et que ces indicateurs ne visent donc pas Ã  Ãªtre trop petits si le bruit est important.\n",
+    " $f(x)$ n'Ã©tant pas une fonction connue, on ne pourra pas calculer directement le biais qui mesure l'Ã©cart entre l'hypothÃ¨se et les donnÃ©es au sens \"classique\". Par contre, il est assez bien estimÃ© par les indicateurs que nous avons utilisÃ©s lors des tracÃ©s des rÃ©gression polynomiale, Ã  savoir `rmse`et `r2`. Il faut simplement se rappeler que l'hypothÃ¨se de l'existance de $f$ signifie qu'il y a un bruit et que ces indicateurs ne visent donc pas Ã  Ãªtre trop petits si le bruit est important.\n",
     "\n",
     "La Variance peut par contre Ãªtre Ã©valuÃ©e, Ã  condition de mettre en place un Ã©chantillonage $S$. Elle mesure la dispersion des fonctions hypothÃ¨ses liÃ©es Ã  un Ã©chantillon Ã  la moyenne de ces fonctions hypothÃ¨ses pour tous les Ã©chantillons. En cas de sur-apprentissage, cette dispersion peut Ãªtre grande comme cela a Ã©tÃ© expliquÃ© dans les exemples prÃ©cÃ©dents. \n",
     "\n",
@@ -676,10 +713,13 @@
     "**RÃ©gression ridge**\n",
     "\n",
     "La fonction de pÃ©nalisation se base sur l'utilisation de la norme $L_2$ du vecteur $\\theta$. AppelÃ©e aussi norme euclidienne, elle correspond aux mÃ©triques et notamment aux distances usuelles en gÃ©omÃ©trie. Par exemple, un cercle de rayon $r$, centrÃ© sur l'origine correspond Ã  tous les points de coordonnÃ©es $(x,y)$ dont la norme $L_2$ vaut $r$. C'est aussi la norme utilisÃ©e dans le critÃ¨re des moindres carrÃ©es. La fonction de pÃ©nalisation s'Ã©crit :\n",
+    "\n",
     "$$\n",
     "P_r(\\lambda, \\theta) = \\lambda \\sum_{j=0}^{n}\\theta_j^2\n",
     "$$\n",
+    "\n",
     "et donc la fonction coÃ»t \"pÃ©nalisÃ©e\" s'Ã©crit\n",
+    "\n",
     "$$\n",
     "J(\\theta) = \\frac{1}{2m}\\sum_{i=1}^{m}\\left(h_\\theta(x_i)-y_i\\right)^2+\\lambda \\sum_{j=0}^{n}\\theta_j^2\n",
     "$$\n",
@@ -687,6 +727,7 @@
     "**RÃ©gression lasso**\n",
     "\n",
     "La fonction de pÃ©nalisation lasso (Least Absolute Shrinkage and Selection Operator) est identique mais se base sur la norme $L_1$ :\n",
+    "\n",
     "$$\n",
     "P_l(\\lambda, \\theta) = \\lambda \\sum_{j=0}^{n} \\lvert \\theta_j \\rvert\n",
     "$$\n",
@@ -694,6 +735,7 @@
     "**RÃ©gression ElasticNet**\n",
     "\n",
     "La fonction de pÃ©nalisation est une composition des deux prÃ©cÃ©dentes, en ajoutant un nouveau paramÃ¨tre $\\alpha$ mesurant l'importance donnÃ©e Ã  l'une des deux fonctions de pÃ©nalisation prÃ©cÃ©dente par rapport Ã  l'autre.\n",
+    "\n",
     "$$\n",
     "P_e(\\lambda, \\theta) = \\lambda \\sum_{j=0}^{n} \\left( \\alpha \\theta_j^2 + (1-\\alpha) \\lvert \\theta_j \\rvert \\right)\n",
     "$$\n",
-- 
GitLab