¿Qué es el análisis de regresión simple? - Guía

Publicado: 2020-08-06

¿Sabe que el análisis de regresión simple se puede emplear para varios propósitos en los negocios? De hecho, pronosticar oportunidades y riesgos futuros es una de las principales aplicaciones del análisis de regresión en una empresa. Además, las empresas utilizan modelos de regresión lineal para optimizar sus procesos comerciales al reducir la cantidad masiva de datos sin procesar en información procesable.

En este articulo
  • Definición de análisis de regresión simple
  • El modelo de regresión lineal simple
  • Cómo realizar
  • Partes clave para saber
  • Supuestos de regresión lineal simple
  • Ejemplos de análisis de regresión lineal simple
  • Limitaciones

¿Qué es el análisis de regresión simple?

Básicamente, un análisis de regresión simple es una herramienta estadística que se utiliza en la cuantificación de la relación entre una sola variable independiente y una sola variable dependiente en base a observaciones que se han llevado a cabo en el pasado. En la interpretación del profano, lo que esto significa es que se puede utilizar un análisis de regresión lineal simple para demostrar cómo un cambio en las horas de la máquina de producción de una organización (que es la variable independiente) resultará en consecuencia en un cambio en el costo de electricidad de la organización. .

El modelo de regresión lineal simple

Básicamente, el modelo de regresión lineal simple se puede expresar en el mismo valor que la fórmula de regresión simple .

y = β 0 + β 1 X+ ε.

En el modelo de regresión lineal simple, consideramos el modelado entre la variable independiente y la variable dependiente. Por lo general, el modelo se denomina modelo de regresión lineal simple cuando solo hay una variable independiente en el modelo de regresión lineal. Tenga en cuenta que se convierte en un modelo de regresión lineal múltiple cuando hay más de una variable independiente.

En el modelo de regresión lineal simple, y se refiere a la variable de estudio o dependiente y X es la variable explicativa o independiente. Las expresiones β 0 y β 1 son los parámetros del modelo de regresión lineal. El parámetro β 0 se considera como un término de intersección, mientras que el parámetro β 1 se considera como el parámetro de pendiente. El término general para estos parámetros se conoce como coeficientes de regresión.

La expresión 'ε' es el error no observable que explica la incapacidad de los datos para permanecer en línea recta. También representa la variación entre la realización observada y la verdadera de 'y'.

Varias razones pueden atribuirse a estas diferencias. Por ejemplo, las variables pueden ser cualitativas, la aleatoriedad inherente a las observaciones, y el efecto de todas las variables eliminadas en el modelo también contribuye a las diferencias. Así, se supone que ε se observa como variable aleatoria independiente e idénticamente distribuida con media cero y varianza constante q². Posteriormente, se supondrá además que ε se distribuye normalmente.

Las variables independientes en el modelo de regresión lineal se ven como controladas por el experimentador. Esta es la razón por la que se considera no estocástica, mientras que y se considera una variable aleatoria con:

E(y) = β 0 + β 1 X. y

Var(y) = q²

En algunos casos, X puede funcionar como una variable aleatoria. En estas situaciones, en lugar de la varianza muestral y la media muestral de y, nuestra consideración será la media condicional de y siempre que X = x como

ε(y) = β0 y β1

y la varianza condicional de y siempre que X = x como

Var(y|x) = q².

Por lo tanto, el modelo de análisis de regresión simple se expresa completamente cuando se conocen los valores de β 0 , β 1 y q². Generalmente, los parámetros β 0 , β 1 y q² no se conocen en la práctica y ε no se observa. Por lo tanto, verá que la determinación del modelo estadístico y = β 0 + β 1 X + ε se basa en la determinación (es decir, estimación) de β 0 , β 1 y q². Para determinar los valores de estos parámetros, se observan/recopilan n pares de observaciones (x, y)( = 1,…, n) en (X, y) y se utilizan para determinar estos parámetros desconocidos.

En total, se pueden emplear diferentes métodos de estimación en la determinación de las estimaciones de los parámetros. El método más popular es la estimación de mínimos cuadrados y el método de estimación de máxima verosimilitud.

Cómo realizar un análisis de regresión simple

La forma más común en que las personas realizan un análisis de regresión simple es mediante el uso de programas estadísticos para permitir un análisis rápido de los datos.

Realización de la regresión lineal simple en R

R es un programa estadístico que se utiliza para realizar un análisis de regresión lineal simple. Es ampliamente utilizado, potente y gratuito. Así es como funciona.

Primero, debe cargar el conjunto de datos de income.data en su entorno R. Luego ejecuta el siguiente comando para crear un modelo de biblioteca que demuestre la relación entre la felicidad y los ingresos.

Código R para alguna regresión lineal

ingresos.felicidad.lm <- lm(felicidad ~ ingresos, datos = ingresos.datos)

Básicamente, este código tomará los datos recopilados "datos = ingresos.datos" y luego evaluará el efecto que la variable independiente "ingresos" tiene sobre la variable dependiente "felicidad" usando la ecuación para el modelo lineal: lm().

Cómo interpretar los resultados

Para ver el resultado del modelo, puede utilizar la función "resumen ()" en R:

resumen(ingresos.felicidad.lm)

Lo que hace esta función es tomar los parámetros más importantes del modelo lineal y colocarlos en una tabla.

Esta tabla de resultados repite inicialmente la fórmula que se utilizó en la generación de los resultados ('Call'). Posteriormente, resume los residuos del modelo ('Residuales'). Esto ayuda a proporcionar información sobre qué tan apropiadamente se ajusta el modelo a los datos originales.

Luego pasamos a la tabla 'Coeficientes'. La primera fila proporciona las estimaciones de la intersección y, mientras que la segunda fila proporciona el coeficiente de regresión del modelo.

La fila número uno de la tabla está etiquetada como "(Interceptar)". Esta es la intersección con el eje y de la ecuación de regresión, que tiene un valor de 0,20. Puede incorporar esto en la ecuación de su regresión si desea hacer una predicción de los valores de felicidad en el rango de ingresos que ha analizado:

felicidad = 0,20 + 0,71*ingresos±0,018

La siguiente fila en la tabla 'Coeficientes' es el ingreso. Esta fila explica el efecto estimado de los ingresos sobre la felicidad reportada.

La columna "Estimación" es el efecto estimado. También puede denominarse valor r² o coeficiente de regresión. El número en la tabla (0.713) nos informa que por cada unidad de aumento en el ingreso (tomando una unidad de ingreso igual a $10,000), hay un aumento correspondiente de 0.71 unidades en la felicidad reportada (tomando la felicidad en una escala de 1 a 10).

El “Std. La columna Error” describe el error estándar de la estimación. Este número demuestra el nivel de variación en nuestra estimación de la relación entre felicidad e ingresos.

La estadística de prueba se muestra en la columna "valor t". Si no especifica lo contrario, la estadística de prueba utilizada en la regresión lineal sigue siendo el valor t de una prueba t de dos colas. Cuanto mayor sea la estadística de prueba, menor será la probabilidad de que nuestros resultados se produzcan por coincidencia.

La columna “pr(>| t |)” describe el valor p. La figura nos muestra la probabilidad de tener el efecto estimado de los ingresos sobre la felicidad si la hipótesis nula de ningún efecto fuera correcta.

Dado que el valor de p es muy bajo (p < 0,001), podemos descartar la hipótesis nula y llegar a la conclusión de que los ingresos tienen un efecto estadísticamente relevante sobre la felicidad.

Las últimas 3 líneas del resumen del modelo son estadísticas con respecto a la totalidad del modelo. Lo más importante a tener en cuenta aquí es el valor p del modelo. Se vuelve relevante aquí (p < 0.001), lo que significa que este modelo es un ajuste estándar para los datos observados.

presentación de resultados

En el informe de resultados, agregue el valor p, el error estándar de la estimación y el efecto estimado (es decir, el coeficiente de regresión). También es necesario que interprete sus números para que sus lectores vean claramente cuál es el significado del coeficiente de regresión.

Resultado

Hubo una relación relevante (p < 0,001) entre ingresos y felicidad (R² = 0,71±0,018), con un aumento de 0,71 unidades en la felicidad reportada por cada $10.000 de aumento en los ingresos.

Además, sería bueno agregar un gráfico junto con sus resultados. Para una regresión lineal simple , todo lo que tiene que hacer es trazar las observaciones en los ejes x e y. Luego agrega la función de regresión y la línea de regresión.

Fórmula de regresión lineal simple

La fórmula para una regresión lineal simple es

y = β 0 + β 1 + ε

Partes clave del análisis de regresión simple

Esta es una medida de asociación. Sirve como una representación del porcentaje de la variación en los valores de Y que se puede mostrar al comprender el valor de X. R² varía desde un mínimo de 0,0 (donde no se explica ninguna variación), hasta un máximo de +1,0 (en el que se explica cada una de las variaciones).

Seb

Esto se refiere al error estándar del valor registrado de b. Se realiza una prueba t para la importancia estadística del coeficiente dividiendo el valor de b por su error estándar. De acuerdo con la regla general, un valor t superior a 2,0 suele ser estadísticamente relevante; sin embargo, debe hacer referencia a una tabla t solo para estar seguro.

Si de acuerdo con el valor t hay indicios de que el coeficiente b es estadísticamente relevante, entonces significa que la variable independiente de X debe reservarse en la ecuación de regresión. Esto se debe especialmente a que presenta una relación estadísticamente relevante con la variable dependiente o Y. En el caso de que la relación no sea estadísticamente relevante, entonces el valor del 'coeficiente b' sería igual a cero (estadísticamente hablando).

F

Esta es una prueba de la relevancia estadística de toda la ecuación de regresión. Se genera dividiendo la varianza descrita por la varianza no explicada. Como postula la regla general, cualquier valor F superior a 4,0 suele ser estadísticamente relevante. No obstante, debe consultar una tabla F solo para estar seguro. Si F es relevante, entonces la ecuación de regresión nos ayuda a conocer la relación entre X e Y.

Supuestos de regresión lineal simple

  • Homogeneidad de la varianza: esto también se puede denominar homocedasticidad. El núcleo de esta suposición establece que no hay un cambio significativo en el tamaño del error en nuestra predicción a través de los valores de la variable independiente.
  • Independencia de las observaciones: aquí, se utilizaron métodos de muestreo estadísticamente válidos para recopilar las observaciones en el conjunto de datos, y no existen relaciones desconocidas entre las observaciones.
  • Normalidad: esto simplemente asume que los datos siguen una distribución normal.

Ejemplos de regresión lineal simple

Aquí, citaremos un escenario que sirve como ejemplo de la implementación del análisis de regresión simple .

Supongamos que la velocidad promedio cuando se despliegan 2 patrullas de caminos es de 75 mph, o 35 mph cuando se despliegan 10 patrullas de caminos. Entonces, la pregunta es ¿cuál es la velocidad promedio de los automóviles en la autopista cuando se despliegan 5 patrullas de caminos?

Usando nuestra fórmula de análisis de regresión simple , podemos calcular los valores y derivar la siguiente ecuación: Y = 85 + (-5) X, dado que Y es la velocidad promedio de los autos en la carretera. A = 85, o la velocidad media cuando X = 0

B = (-5), el impacto de cada patrulla adicional desplegada en Y

Y X = número de patrullas desplegadas

Por lo tanto, la velocidad promedio de los autos en la carretera cuando no haya patrullas de carretera operando (X = 0) será de 85 mph. Por cada patrullero de carreteras adicional que funcione, la velocidad promedio se reducirá en 5 mph. Por lo tanto, para 5 patrullas (X = 5), tenemos Y = 85 + (-5) (5) = 85 – 25 = 60 mph.

Límites de la regresión lineal simple

Incluso los mejores datos no dan la perfección. Por lo general, el análisis de regresión lineal simple se usa mucho en la investigación para marcar la relación que existe entre las variables. Sin embargo, dado que la correlación no se interpreta como causalidad, la relación entre 2 variables no significa que una provoque que ocurra la otra. De hecho, una línea en una regresión lineal simple que describa bien los puntos de datos puede no generar una relación de causa y efecto.

El uso de un ejemplo de análisis de regresión simple le permitirá averiguar si existe alguna relación entre las variables. Por lo tanto, se necesitan análisis e investigaciones estadísticas adicionales para determinar cuál es exactamente la relación y si una variable conduce a la otra.

Pensamientos finales

En total, las empresas de hoy deben considerar el análisis de regresión simple si necesitan una opción que brinde un excelente soporte para las decisiones de gestión y también identifique errores de juicio. Con un análisis adecuado, las grandes cantidades de datos no estructurados que han acumulado las empresas a lo largo del tiempo tendrán el potencial de generar información valiosa para las empresas.

Otros recursos útiles:

Diferentes tipos de análisis de regresión para saber

Importancia del análisis de regresión en los negocios