Semana 4: Curso de regresión lineal con Python

1. RESUMEN

La regresión lineal es un modelo estadístico que permite evaluar la relación lineal entre una variable dependiente (generalmente y) y unas independiente(x, y otras). Se aplica para generar valores predictivos, ejem: mercado y clima.
Es un algoritmo de regresión que responde a la pregunta ¿qué probabilidad hay de que suceda $y$ cosa en $m$ proporción? de que llueva, de que baje el precio de la vivienda, de que mejore la imagen política de un personaje, etc, de acuerdo a las modificaciones que hagamos en otra variable ($x$). Se diferencia de la regresión logística en que esta es para clasificar, y por tanto responde en función de sí o no, en lugar de un valor porcentual. O sea, si quiero saber simplemente si el valor de la vivienda va a subir o no, uso una regresión logística; pero si quiero saber en qué medida es probable que suba o baje utilizo una regresión lineal.
Se controla una variable (independiente) y en razón de las modificaciones que se aplican sobre ella, se mide la otra variable (independiente). De la siguiente manera:

$$ y = b_0 + b_1(x) $$

     Donde $b_0$ es la constante y  $b_1$  es la pendiente (que solemos encontrar en muchos contextos                        con la notación $m)$ y $x$ es la variable independiente.

Modelo de Machine Learning:
```
 I ) Observaciones etiquetables
```
A) Set de entrenamiento: datos para entrenar nuestro modelo

B) Set de pruebas: validar si el entrenamiento es eficiente o no lo es

1. Machine learning: coge los datos para prender a partir de ellos.

2. Prediction model: Después del entrenamiento, sirve, con datos nuevos, como modelo      predictivo.

 a. Stats (estadísticas): evalúa eficiencia del modelo y lo recalibra él mismo.

Lo que abordamos se centró en el proceso de mínimos cuadrados: proceso de análisis numérico para analizar conjuntos de datos y expresarlos de forma lineal, mientras minimiza los errores en la data recogida. Se calcula a partir de los N pares de datos experimentales (x, y), los valores $m \text{ (que en clase llamaron) }b_1 \text{ y } b \text{ que en clase llamaron }b_0$que mejor ajustan los datos a una recta. Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de los puntos medidos a la recta. De la siguiente manera:

$$ \frac{\sum(x-\bar{x})(y-\bar{y})}{\sum_{}(x-\bar{x})^2} $$

Donde $( \bar x)$ es el promedio de $x$ y $(\bar y)$ es el promedio de $y$. Esta sumatoria se aplica sobre todos los valores que tengamos. Ej:

Untitled Database

promedio de x ($\bar x$) = 3

promedio de y ($\bar y)$ = 4.2

suma $(x_i - \bar x)^2$ = 10

suma $(x_i -\bar x)(y -\bar y)$ = 9

                                        pendiente  ($b1$) =     $\\frac{(x_i-\\bar{x})(y_i-\\bar {y})}  {(x_i-\\bar{x})^2}$  =$\\frac{9}{10}$ = 0.9