Diferentes tipos de análisis de regresión para saber

Publicado: 2020-03-05

El análisis de regresión es la metodología que intenta establecer una relación entre una variable dependiente y una variable independiente única o múltiple.

La regresión es un concepto estadístico nativo, pero está encontrando sus aplicaciones en muchos campos relacionados con los negocios, como las finanzas, las inversiones, los mercados bursátiles, así como en áreas como la ciencia y la ingeniería.

Hay algunas aplicaciones prometedoras de análisis de regresión en forma de ciencia de datos, aprendizaje automático e inteligencia artificial que marcan el futuro de la humanidad.

En este articulo
  • Terminologías
  • Diferentes tipos de análisis de regresión
  • ¿Para qué se usa esto?
  • Cómo elegir el modelo adecuado

Terminologías relacionadas con la regresión

Para comprender los tipos de análisis de regresión, es útil comprender las terminologías relacionadas.

  • valores atípicos

    Los valores atípicos son visibles con gráficos de datos en un gráfico. En el análisis de regresión(1), los valores atípicos son puntos en el gráfico que quedan significativamente fuera de la nube formada por otros puntos. Los puntos atípicos son esenciales porque pueden influir en gran medida en el resultado de un análisis de regresión. Para comprender este concepto, supongamos que un edificio está lleno de profesionales con antecedentes financieros promedio en términos de sus ganancias.

    Todos ellos tienen un salario medio de alrededor de cien mil dólares al año. De repente, Bill Gates y Jeff Bezos entran al edificio, y una vez que incluyes los salarios de estos dos multimillonarios, el salario medio se vuelve drásticamente inexacto. Los salarios de estos dos conocidos caballeros son los valores atípicos en este ejemplo.

  • multicolinealidad

    En el análisis de regresión, al observar la correlación entre dos o más variables de entrada, se observa que cuando se agregan una o más variables de entrada, el modelo no logra que las cosas sean más transparentes sobre el mundo real.

    Es crucial averiguar cómo se relacionan las variables de entrada entre sí. Medir la multicolinealidad del modelo de regresión es una forma de encontrar la relación entre las variables de entrada. Por ejemplo, puede encontrar un modelo en el que esté dispuesto a averiguarlo. lo que determina el salario de una persona a una determinada edad. Se toman en consideración variables independientes (factores) como los antecedentes educativos, la edad y muchos otros factores que influyen en el salario promedio de un individuo.

    Pero, antes de ir más allá y arrojar todos los factores bajo el sol en su modelo, necesita saber cómo se correlacionan (interasociados). Si la multicolinealidad es demasiado alta, provoca perturbaciones en los datos y el modelo se desmorona.

  • heterocedasticidad

    La heterocedasticidad (a veces denominada heterocedasticidad) ocurre cuando la lectura del error estándar (SE) de una variable medido durante un tiempo determinado no es constante.

    Cualquier análisis de regresión que se ejecute con dichos datos que muestre heteroscedasticidad genera, como mínimo, coeficientes sesgados y arruina los resultados.

  • sobreajuste

    El sobreajuste en un análisis de regresión ocurre cuando las variables comienzan a mostrar errores aleatorios en lugar de describir de manera eficiente la relación entre las variables. El overfitting produce mucho ruido más que la verdadera representación de la población. El resultado del modelo ya no es realista. Necesita hacer su modelo lo más cercano posible a la realidad. Como un ejemplo de equipamiento del mundo real. La mejor palabra posible que describe el equipamiento del ejemplo del mundo real es "generalización excesiva". Cuando el error o el sesgo aumentan, los valores realistas no se pueden determinar como resultado.

  • subequipamiento

    El ajuste insuficiente ocurre cuando el número de variables apenas se ajusta a un modelo dado y la salida no sigue siendo precisa. Para tener resultados exitosos de un análisis de regresión, se necesitan los valores óptimos de las variables, para que el modelo obtenido se acerque a la realidad. En definitiva, cuando las variables no están optimizadas, o el modelo no se ajusta a los datos de manera eficiente, se llama un desadaptado

Tipos de análisis de regresión

Hay dos tipos de variables en cualquier forma de regresión. Una son las variables independientes, o también llamadas variables explicativas, se utilizan para entradas. El otro tipo de variable es una variable dependiente, también conocida como predictor. Es el valor que está tratando de averiguar o el resultado del modelo.

A continuación se describen los diferentes tipos de análisis de regresión.

  • Regresión lineal

    La regresión lineal trata con dos tipos de variables. Una variable se llama variable independiente, y el otro tipo de variable es la variable dependiente.

    La variable independiente varía a lo largo del eje x del plano cartesiano y la variable dependiente varía a lo largo del eje y. Estas variables son “x” e “y”, respectivamente. El valor de y depende de x. Cuando x cambia, la "y" aumenta o disminuye.
    Hay dos tipos de regresión lineal.

    1. Regresión lineal simple
    2. Regresión lineal múltiple
  • Regresión lineal simple: en la regresión lineal simple, solo hay una variable dependiente y una variable dependiente.
    La ecuación para la regresión lineal simple es y=β_0+β_1 xAquí, x representa la variable independiente, es la pendiente de la línea de regresión y es la intersección con el eje y. “y” es la variable dependiente o el resultado.
  • Regresión lineal múltiple: en la regresión lineal múltiple, la variable dependiente es una, pero tiene múltiples variables independientes.
    La siguiente ecuación representa la regresión lineal múltiple, y= β_0+β_1 x_1+⋯β_n x_n+ εAquí, y es la variable dependiente, es la intersección de y. denota las múltiples variables independientes en el modelo. es el "sesgo" o "error". La minimización del sesgo o error es nuestro objetivo principal para crear un modelo cercano a la situación del mundo real.
  • Regresión multivariada

    La regresión multivariante es diferente de la regresión lineal múltiple en el sentido de que tiene múltiples variables dependientes con la entrada de múltiples variables independientes. Las variables dependientes ( y_1,y_2 ,y_3 …. y_n) están en diferentes fórmulas. Y tiene más de una variable independiente ( x_1, x_2, ….x_m ) para predecir las Ys. En la regresión multivariada, los datos que se utilizan son en su mayoría del mismo tipo que en otros tipos de análisis de regresión.

  • Regresión Logística

    La regresión logística es la segunda forma más popular de regresión después de la regresión lineal y sus usos abarcan la bioestadística, la medicina y las ciencias sociales.
    La regresión logística trata con valores booleanos como,

    • verdadero o falso
    • si o no
    • grande o pequeño
    • uno o cero

    La regresión logística se utiliza en la clasificación de objetos, como un correo electrónico como "spam" o "no spam".

    En resumen, hay una salida en la regresión logística que puede ser "Verdadero" o "Falso". Además, puede haber una sola entrada o múltiples entradas en los modelos de regresión logística.

  • Regresión polinomial

    Hay casos en los que tenemos que tratar con variables cuya relación no es lineal. En tal caso, nuestro modelo es una curva, no una línea a diferencia de la regresión lineal. Por lo tanto, tenemos otra forma de regresión conocida como regresión polinomial.

    La ecuación de la regresión polinomial son las potencias ascendentes de la variable de entrada x, cuya generalización se encuentra a continuación.

    y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε

  • Regresión de cuantiles

    La definición de regresión cuantil es muy diferente de lo que es en la práctica. El cuantil es otro nombre de la mediana en estadística.

    El cuantil es el punto o la línea que divide los datos de salida en dos partes iguales. Imagine un conjunto de datos en forma de línea en el eje y. El conjunto de datos se divide exactamente en dos partes iguales. El valor del cuantil es 0,5 o 50% en el punto de división.

    En la misma nota, los dos datos igualmente divididos se vuelven a dividir igualmente a lo largo del eje y. Esta vez dividimos los datos en cuatro partes iguales y los nuevos puntos de división en el eje y inferior del gráfico son 0,25 o 25 %.

    De manera similar, el cuantil de división del eje y superior es 0.75 o 75%. En general, los cuantiles son solo líneas o puntos que dividen los datos en partes o grupos iguales.

    Los cuantiles escupen datos en cien grupos de igual tamaño. Pero, en el mundo real, la definición de cuantil es mucho más flexible.

    La regresión cuantílica es útil cuando hay una presencia de heteroscedasticidad alta en el modelo y la regresión lineal no es lo suficientemente precisa para predecir el resultado porque el modelo lineal se basa en valores medios y los cuantiles pueden ser más precisos con valores medianos.

  • Regresión de cresta

    La regresión de cresta emplea una técnica que se llama "Regularización". La regularización es adecuada para los modelos que fallan al probar los datos pero transmiten los datos de entrenamiento.

    La regresión de crestas funciona mejor cuando la mayoría de las variables del modelo son útiles.

    Cuando los datos de muestra muestran multicolinealidad, suceden dos cosas no deseadas,

    1. Las estimaciones de mínimos cuadrados de los coeficientes de las variables predictoras dan errores elevados.
    2. Hay inflación en los errores estándar.

    Ridge Regression es una técnica para la estabilización de los coeficientes de regresión en presencia de multicolinealidad.

  • Regresión de lazo

    Lasso significa "Operador de selección y contracción mínima absoluta". Lasso Regression funciona mejor cuando tiene muchas variables inútiles. La regresión de Lasso se parece a la regresión de Ridge, pero algunas diferencias la hacen única.

    Ridge Regression y Lasso Regression tienen aplicaciones en los mismos escenarios en los que está presente la multicolinealidad. Sin embargo, Ridge Regression es adecuado para predicciones a largo plazo.

    La regresión de Lasso aplica reducción a los datos. Los valores de los datos se reducen hacia un punto central como la mediana o la media.

    La simplificación y la escasez de modelos de datos son las funciones en las que Lasso Regression funciona mejor. En otras palabras, los modelos de datos deben tener los parámetros óptimos para obtener resultados precisos.

  • Regresión de componentes principales (PCR)

    El Análisis de Componentes Principales tiene una aplicación a la variable x, reduciendo la dimensionalidad de los datos. Implica la extracción del conjunto de datos con la mayoría de las variaciones en un proceso iterativo.

    Dado que el proceso es iterativo, por lo que puede analizar un conjunto de datos multidimensional, la regresión de componentes principales supera los problemas de dimensionalidad y colinealidad presentes en la regresión de mínimos cuadrados ordinaria.

  • Regresión neta elástica

    Elastic Net Regression simplifica un modelo para facilitar la interpretación. Un modelo puede tener toneladas de variables (también conocidas como parámetros); pueden variar hasta millones en modelos específicos. En tal modelo, no es posible determinar qué variables son útiles y cuáles son inútiles.

    En tal caso, no sabe qué tipo de regresión elegir entre la regresión Ridge y la regresión Lasso. Aquí, la regresión neta elástica entra en juego para simplificar el modelo.

    La regresión de red elástica combina una penalización de regresión de cresta con la penalización de regresión de lazo y ofrece lo mejor de ambos mundos. También funciona mejor con variables correlacionadas.

  • Mínimos cuadrados parciales (PLS)

    Los mínimos cuadrados parciales consideran tanto las variables explicativas como las dependientes. El principio subyacente de este tipo de regresión es que las variables x e y se descomponen en estructuras latentes en un proceso iterativo.

    PLS puede manejar la multicolinealidad. Tiene en cuenta las estructuras de datos relacionadas con x e y, brindándole resultados visuales elaborados para la interpretación de los datos. Varias variables pueden entrar en consideración.

  • Regresión de vectores de soporte

    El Support Vector Regression (SVR) es un algoritmo que trabaja con una función continua. Es en contraste con Support Vector Machine en este sentido que Support Vector Machine (SVM) se ocupa de los problemas de clasificación. SVR predice variables ordenadas continuas.

    En la regresión simple, el énfasis debe estar en minimizar el error, mientras que la regresión de vectores de soporte descubre el umbral del error.

  • regresión ordinal

    La regresión logística trata con dos categorías, pero en la regresión ordinal (también conocida como regresión logística ordinal), entran en juego tres o más categorías con el supuesto de un orden inequívoco.

    La regresión ordinal ayuda a predecir una variable dependiente ordinal cuando están presentes una o más variables independientes.

  • Regresión de Poisson

    En la regresión de Poisson, el recuento o la velocidad a la que ocurre el evento es el principal punto de enfoque.

    Medimos la velocidad a la que ocurre el evento en la regresión de Poisson. En otras palabras, modelamos el número de veces que ocurre el evento (recuento) a lo largo del tiempo. En la regresión de Poisson, el tiempo es constante y medimos la cuenta del evento.

  • Regresión Binomial Negativa

    Es útil para modelar el conjunto de datos discretos (recuento). En la misma nota, la regresión binomial negativa ayuda cuando los datos tienen una varianza más alta en comparación con la media, es decir, la dispersión de los datos es demasiado cuando los graficas.

    El Modelo Binomial Negativo no asume que la variable es igual a la media como lo hace el modelo basado en la Regresión de Poisson.

  • Regresión Cuasi Poisson

    La regresión de Quasi Poisson es la generalización de la regresión de Poisson. Como se mencionó anteriormente, el modelo de regresión de Poisson se basa en una suposición generalmente injusta de que la varianza es igual a la media.

    El modelo Quasi Poisson entra en juego cuando la varianza es la función lineal de la media y también es mayor que la media. Es el escenario en el que Quasi Poisson es más apropiado para ser aplicable.

  • Regresión de Cox

    La regresión de Cox (también conocida como regresión de riesgos proporcionales) investiga los efectos de varias variables durante el tiempo que tarda en ocurrir un evento específico.

    Considere los siguientes eventos donde la regresión de Cox puede ser útil,

    • El tiempo que tardó un segundo ataque al corazón después del primer ataque al corazón.
    • El tiempo que tardó el segundo accidente después del primer accidente.
    • El tiempo que tomó después de la detección del cáncer hasta la muerte.

    Los datos de tiempo hasta el evento son vitales para la aplicación de la regresión de Cox.

  • Regresión de Tobías

    La Regresión Tobit es útil en la estimación de una relación lineal cuando la censura se encuentra en la variable dependiente. La censura es la observación de todas las variables independientes. La cuenta real del valor de la variable dependiente se encuentra solo en un rango restringido de observaciones.

  • Regresión bayesiana

    La regresión bayesiana se basa en la distribución de probabilidad más que en la estimación puntual. Como resultado, la salida o la "y" no es un valor único. Es una distribución de probabilidad. Como sabemos, la distribución de probabilidad es una función matemática y no un valor. La distribución de probabilidad da posibles resultados en un experimento.

    Cuando componemos la formulación del modelo de regresión lineal basado en la distribución de probabilidad, obtenemos la siguiente expresión.
    y ˜ N(β^TX,σ^2 I)

    • La salida (y) se calcula a partir de una distribución gaussiana normal según la media y la varianza.
    • La transpuesta (T) de la matriz de pesos (β) se obtiene multiplicándola por la matriz predictora (X).
    • La varianza es la desviación estándar al cuadrado (σ^2) multiplicada por la matriz de identidad (I).

    (Se está considerando la formulación multidimensional del modelo)

  • Regresión de desviación mínima absoluta (LAD)

    La Mínima Desviación Absoluta es la alternativa más conocida al método de Mínimos Cuadrados para analizar los modelos lineales. Sabemos que en el método de los mínimos cuadrados minimizamos la suma de los errores al cuadrado, pero en LAD minimizamos la suma de los valores absolutos de los errores. Intenta encontrar una función que se ajuste estrechamente a un conjunto de datos.

    En un caso donde nuestros datos son simples, la Desviación Mínima Absoluta es una línea recta en el Plano Cartesiano bidimensional.

    La formulación del Mínimo Absoluto es muy sencilla de entender. Supongamos que nuestro conjunto de datos consta de dos puntos variables ((x_i,y_i) y i=1,2,3,4,5……n.

    Nuestro objetivo es encontrar una función f tal que sea aproximadamente igual a (~) como se muestra a continuación.

    f(x_i) ~ y_i

    La afirmación es que la función f tiene una forma específica que contiene algunos parámetros que necesitamos calcular. El punto a notar aquí es que la función f puede tener un número de x parámetros (o variables independientes o variables explicativas).

    Intentaremos encontrar los valores de los parámetros que minimizarán la siguiente suma de los valores absolutos de los errores (o residuos).
    S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )

  • Regresión ecológica

    La regresión ecológica es fundamental principalmente en materias como ciencias políticas e historia. La técnica nos permite realizar conteos a nivel macro y generar predicciones a nivel micro.

    La Regresión Ecológica puede determinar el comportamiento de voto de los individuos entre diferentes facciones y grupos de sociedades. La estimación se basa en datos recopilados de cuentas anteriores.

    Los datos ecológicos se basan en conteos en una región particular, grupos, objetos o, a lo largo del tiempo. En resumen, los datos agregados nos ayudan a conocer el comportamiento reducido a individuos.

¿Para qué se utiliza el análisis de regresión?

El análisis de regresión es útil para obtener varios objetivos comerciales.

  • Análisis predictivo

    Una de las aplicaciones más destacadas es el análisis predictivo que permite pronosticar eventos comerciales específicos con mayor precisión. Un tipo de análisis predictivo es el “análisis de la demanda”, que mide el aumento de las ventas de un producto. El éxito de un producto recién lanzado, así como los productos en ejecución, pueden posicionarse correctamente en el mercado.

    Como otro ejemplo, el Análisis de Regresión tiene aplicaciones en la publicidad de productos y servicios. Es predecible con el análisis de regresión cuántos compradores es probable que se encuentren con un anuncio. Ayuda a los profesionales de ventas y marketing a establecer el valor de oferta de los materiales promocionales.

    El análisis de regresión también es una herramienta útil para las compañías de seguros. Las compañías de seguros lo utilizan para conocer el crédito de los asegurados y estimar el número de reclamaciones que probablemente presentarán sus clientes.

  • Eficiencia operacional

    Las organizaciones toman decisiones serias utilizando el análisis de regresión para optimizar sus operaciones.

    Las decisiones basadas en datos pueden descartar decisiones cuestionables, conjeturas inexactas con intuición y políticas corporativas.

    El Análisis Regresivo está convirtiendo el arte de la gestión en una ciencia. Como ejemplo, es posible relacionar el tiempo de espera de una persona que llama con el número de quejas en un centro de llamadas o un departamento de atención al cliente.

  • Apoyo a la toma de decisiones

    Las organizaciones de hoy tienen muchos datos relacionados con finanzas, marketing, operaciones y muchos otros departamentos. Los principales tomadores de decisiones se inclinan más hacia el análisis de datos y la ciencia de datos para tomar decisiones más informadas con la eliminación de conjeturas.

    Con la ayuda del análisis de regresión, los grandes datos pueden comprimirse para obtener información ajustada orientada a la acción, lo que abre el camino a una toma de decisiones más precisa. El análisis de regresión no elimina ni reemplaza a los gerentes; en cambio, pone una potente herramienta en sus manos para tomar decisiones más impactantes y eficientes que nunca.

  • Error de corrección

    El análisis de regresión también ayuda a identificar errores intuitivos en el juicio y la toma de decisiones para los gerentes comerciales.

    Como ejemplo, el gerente de una tienda puede decidir mantener la tienda abierta durante la noche, por lo que decide contratar nuevo personal.

    El Análisis de Regresión puede indicar con precisión que considerando los gastos del personal y las ventas totales que genera en horario nocturno no pueden tener justificación mutua. Así, la aplicación cuantitativa del Análisis de Regresión permite descartar una mala toma de decisiones.

  • Información procesable

    Las empresas entienden y reconocen el valor de los datos y lo que se puede lograr con las técnicas de análisis de regresión, pero muchas no logran convertir estos datos en información procesable. Generar conocimientos a partir de datos sin procesar no es una tarea fácil. Un informe de Forrester afirma que el 74% de las empresas quieren decidir con entradas de datos, pero solo el 29% logra obtener análisis que les permitan tomar decisiones fructíferas.

    Un estudio de caso crítico del mundo de los negocios es Konica Minolta. Konica fue uno de los fabricantes de cámaras de mayor éxito. En el año 2000, la mayoría de los fotógrafos y entusiastas de las cámaras se pasaron a las cámaras digitales.

    El principal organismo de toma de decisiones de Konica no tomó decisiones lo suficientemente rápido, por lo que en 2004, cuando Konica lanzó su primera cámara, la mayoría de los competidores, como Nikon y Canon, se habían establecido bien en el nuevo mercado de cámaras digitales. Como resultado, en 2006, la empresa sufrió pérdidas tan grandes que vendió gran parte de su tecnología y activos a Sony.

    Si Konica hubiera tenido los conocimientos de los datos comerciales y de mercado sin procesar procesados ​​mediante análisis de regresión y técnicas similares, Konica habría podido tomar la decisión correcta en el momento adecuado.

    El análisis de regresión de datos que proporciona información procesable pone el poder total en manos de los tomadores de decisiones que pueden cambiar las reglas del juego en el mundo real.

¿Cómo elegir el modelo de regresión correcto?

Hay cientos de tipos de regresiones y hemos cubierto los tipos más populares.

El mundo real es muy complejo y los creadores del modelo miden muchas variables pero incluyen solo unas pocas en el modelo. Los analistas excluyen las variables independientes que tienen muy poco o ningún impacto sobre la variable dependiente o el resultado.

Al seleccionar un modelo de regresión, se debe tener en cuenta el siguiente hecho simple para mantener el equilibrio poniendo el número correcto de variables independientes en la ecuación de regresión.

  • Muy pocas variables independientes, el modelo no especificado se convierte en sesgo.
  • Demasiadas variables independientes, el modelo no especificado pierde su precisión.
  • El modelo Just the Right se crea cuando los términos matemáticos no están sesgados y son los más precisos.

Pensamientos finales

El análisis de regresión tiene sus orígenes en la estadística, que es una ciencia con cien años de antigüedad, pero recientemente ha ganado el centro de atención debido a la explosión de los grandes datos. El análisis de regresión se está abriendo camino a través de las estadísticas en el análisis de datos, la ciencia de datos y sus aplicaciones en casi todas las organizaciones.

Los modelos de regresión creados con el análisis de regresión son una herramienta indispensable para mejorar la previsibilidad, la eficiencia operativa, la toma de decisiones bien informada, la prevención de errores, la prevención de decisiones equivocadas y mejores conocimientos.

Otro recurso útil:

Importancia del análisis de regresión en los negocios

La guía completa sobre análisis de regresión