lunes, 15 de noviembre de 2021

REGRESION LINEAL EXPLICADA

En un post anterior comenté sobre el algoritmo básico y mejor entendido del machine learning: la regresión lineal. 

El análisis de regresión es una metodología estadística que permite determinar la fuerza de la relación de dos variables. La regresión no se limita a dos variables, se pueden utilizar más de dos variables. 

Los resultados de la regresión ayudan a predecir un valor desconocido en función de la relación con las variables de predicción. Por ejemplo, la altura y el peso de una persona suelen tener una relación. Generalmente, las personas más altas tienden a pesar más. Podríamos usar el análisis de regresión para ayudar a predecir el peso de un individuo, conociendo su altura.

Cuando hay una sola variable de entrada, la regresión se denomina Regresión lineal simple. Se utiliza la variable única (independiente) para modelar una relación lineal con la variable objetivo (dependiente). Esto se hace ajustando un modelo para describir la relación. 

Si hay más que una variable de predicción, la regresión se denomina Regresión lineal múltiple.

Cuando se intenta encontrar la "línea de mejor ajuste", el modelo de regresión se le llama Regresión de mínimos cuadrados ordinarios. Esto significa que se está utilizando la suma más pequeña de errores al cuadrado. El error es la diferencia entre el valor de y predicho restado del valor de y real. La diferencia se eleva al cuadrado, por lo que hay una diferencia absoluta y se suma.

Coeficientes de regresión

Al realizar una regresión lineal simple, los cuatro componentes principales son:

  • Variable dependiente, X, : la variable objetivo / será estimada y predicha
  • Variable independiente ,Y: variable predictora / utilizada para estimar y predecir
  • Pendiente: ángulo de la línea / indicado como "m" ò  𝛽1
  • Intercepto: donde la función cruza el eje y / se indica como c o 𝛽0
  • La ecuación de regresión puede expresarse como (ambas formas son vàlidas):
    • Y = m + cX     
    • Y = 𝛽0 + 𝛽1 X

Los dos últimos, pendiente e intercepto, son los coeficientes / parámetros del modelo de regresión lineal, De lo que se trata es de encontrar la línea recta (entre un número infinito de líneas) que mejor se ajuste a los datos. 


R-cuadrado / coeficiente de determinación (R-squared)

El objetivo de la regresión lineal es encontrar la "línea de mejor ajuste" que describe los datos. Sin embargo,  la línea encontrada no representa completamente la relación entre las variables ya que habrà error entre el valor medido y el predicho (y_medido - y_predicho). El coeficiente R-Cuadrado se usa para determinar qué tan bien se ajusta un modelo a los datos. Este coeficiente también se conoce como coeficiente de determinación. 





No hay comentarios:

Publicar un comentario