1. RESUMEN
- La regresión lineal es un modelo estadístico que permite evaluar la relación lineal entre una variable dependiente (generalmente y) y unas independiente(x, y otras). Se aplica para generar valores predictivos, ejem: mercado y clima.
- Es un algoritmo de regresión que responde a la pregunta ¿qué probabilidad hay de que suceda $y$ cosa en $m$ proporción? de que llueva, de que baje el precio de la vivienda, de que mejore la imagen política de un personaje, etc, de acuerdo a las modificaciones que hagamos en otra variable ($x$). Se diferencia de la regresión logística en que esta es para clasificar, y por tanto responde en función de sí o no, en lugar de un valor porcentual. O sea, si quiero saber simplemente si el valor de la vivienda va a subir o no, uso una regresión logística; pero si quiero saber en qué medida es probable que suba o baje utilizo una regresión lineal.
- Se controla una variable (independiente) y en razón de las modificaciones que se aplican sobre ella, se mide la otra variable (independiente). De la siguiente manera:
$$
y = b_0 + b_1(x)
$$
Donde $b_0$ es la constante y $b_1$ es la pendiente (que solemos encontrar en muchos contextos con la notación $m)$ y $x$ es la variable independiente.
-
Modelo de Machine Learning:
I ) Observaciones etiquetables
A) Set de entrenamiento: datos para entrenar nuestro modelo
B) Set de pruebas: validar si el entrenamiento es eficiente o no lo es
1. Machine learning: coge los datos para prender a partir de ellos.
2. Prediction model: Después del entrenamiento, sirve, con datos nuevos, como modelo predictivo.
a. Stats (estadísticas): evalúa eficiencia del modelo y lo recalibra él mismo.
- Lo que abordamos se centró en el proceso de mínimos cuadrados: proceso de análisis numérico para analizar conjuntos de datos y expresarlos de forma lineal, mientras minimiza los errores en la data recogida. Se calcula a partir de los N pares de datos experimentales (x, y), los valores $m \text{ (que en clase llamaron) }b_1 \text{ y } b \text{ que en clase llamaron }b_0$que mejor ajustan los datos a una recta. Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de los puntos medidos a la recta. De la siguiente manera:
$$
\frac{\sum(x-\bar{x})(y-\bar{y})}{\sum_{}(x-\bar{x})^2}
$$
- Donde $( \bar x)$ es el promedio de $x$ y $(\bar y)$ es el promedio de $y$. Esta sumatoria se aplica sobre todos los valores que tengamos. Ej:
Untitled Database
promedio de x ($\bar x$) = 3
promedio de y ($\bar y)$ = 4.2
suma $(x_i - \bar x)^2$ = 10
suma $(x_i -\bar x)(y -\bar y)$ = 9
pendiente ($b1$) = $\\frac{(x_i-\\bar{x})(y_i-\\bar {y})} {(x_i-\\bar{x})^2}$ =$\\frac{9}{10}$ = 0.9