En un post anterior comenté sobre el algoritmo básico y mejor entendido del machine learning: la regresión lineal.
El análisis de regresión es una metodología estadística que permite determinar la fuerza de la relación de dos variables. La regresión no se limita a dos variables, se pueden utilizar más de dos variables.
Los resultados de la regresión ayudan a predecir un valor desconocido en función de la relación con las variables de predicción. Por ejemplo, la altura y el peso de una persona suelen tener una relación. Generalmente, las personas más altas tienden a pesar más. Podríamos usar el análisis de regresión para ayudar a predecir el peso de un individuo, conociendo su altura.
Cuando hay una sola variable de entrada, la regresión se denomina Regresión lineal simple. Se utiliza la variable única (independiente) para modelar una relación lineal con la variable objetivo (dependiente). Esto se hace ajustando un modelo para describir la relación.
Si hay más que una variable de predicción, la regresión se denomina Regresión lineal múltiple.
Cuando se intenta encontrar la "línea de mejor ajuste", el modelo de regresión se le llama Regresión de mínimos cuadrados ordinarios. Esto significa que se está utilizando la suma más pequeña de errores al cuadrado. El error es la diferencia entre el valor de y predicho restado del valor de y real. La diferencia se eleva al cuadrado, por lo que hay una diferencia absoluta y se suma.
Coeficientes de regresión
Al realizar una regresión lineal simple, los cuatro componentes principales son:
- Variable dependiente, X, : la variable objetivo / será estimada y predicha
- Variable independiente ,Y: variable predictora / utilizada para estimar y predecir
- Pendiente: ángulo de la línea / indicado como "m" ò 𝛽1
- Intercepto: donde la función cruza el eje y / se indica como c o 𝛽0
- La ecuación de regresión puede expresarse como (ambas formas son vàlidas):
- Y = m + cX
- Y = 𝛽0 + 𝛽1 X
Los dos últimos, pendiente e intercepto, son los coeficientes / parámetros del modelo de regresión lineal, De lo que se trata es de encontrar la línea recta (entre un número infinito de líneas) que mejor se ajuste a los datos.
No hay comentarios:
Publicar un comentario