Différents types d'analyse de régression à connaître
Publié: 2020-03-05L'analyse de régression est la méthodologie qui tente d'établir une relation entre une variable dépendante et une variable indépendante unique ou multiple.
La régression est nativement un concept statistique, mais elle trouve ses applications dans de nombreux domaines liés aux affaires tels que la finance, l'investissement, les marchés boursiers, ainsi que dans des domaines tels que la science et l'ingénierie.
Il existe des applications prometteuses des analyses de régression sous forme de science des données, d'apprentissage automatique et d'intelligence artificielle qui marquent l'avenir de l'humanité.
- Terminologies
- Différents types d'analyse de régression
- A quoi cela sert?
- Comment choisir le bon modèle
Terminologies liées à la régression
Pour comprendre les types d'analyse de régression, il est utile de comprendre les terminologies associées.
Valeurs aberrantes
Les valeurs aberrantes sont visibles avec des tracés de données sur un graphique. Dans l'analyse de régression(1), les valeurs aberrantes sont les points du graphique qui se situent nettement à l'extérieur du nuage composé d'autres points. Les points aberrants sont essentiels car ils peuvent fortement influencer le résultat d'une analyse de régression. Pour comprendre ce concept, supposons qu'un immeuble est rempli de professionnels ayant des antécédents financiers moyens en termes de revenus.
Ils ont tous un salaire moyen d'environ cent mille dollars par an. Soudain, Bill Gates et Jeff Bezos entrent dans le bâtiment, et une fois que vous incluez les salaires de ces deux milliardaires, le salaire moyen devient radicalement inexact. Les salaires de ces deux messieurs bien connus sont les valeurs aberrantes dans cet exemple.
Multicolinéarité
Dans l'analyse de régression, en examinant la corrélation entre deux ou plusieurs variables d'entrée, on observe que lorsque l'ajout d'une ou plusieurs variables d'entrée a lieu, le modèle ne parvient pas à rendre les choses plus transparentes sur le monde réel.
Il est crucial de savoir comment les variables d'entrée sont liées les unes aux autres. La mesure de la multicolinéarité du modèle de régression est un moyen de trouver la relation entre les variables d'entrée. Par exemple, vous pouvez rencontrer un modèle dans lequel vous êtes prêt à découvrir ce qui détermine le salaire d'une personne à un âge donné. Des variables indépendantes (facteurs) telles que la formation, l'âge et de nombreux autres facteurs qui influencent le salaire moyen d'un individu sont prises en compte.
Mais, avant d'aller plus loin et de jeter tous les facteurs sous le Soleil dans votre modèle, vous devez savoir comment ils sont corrélés (inter-associés). Si la multicolinéarité devient trop élevée, cela perturbe les données et le modèle s'effondre.
Hétéroscédasticité
L'hétéroscédasticité (parfois orthographiée comme hétéroscédasticité) se produit lorsque la lecture de l'erreur standard (SE) d'une variable mesurée sur un temps donné n'est pas constante.
Toute analyse de régression exécutée sur de telles données qui présentent une hétéroscédasticité donne, à tout le moins, des coefficients biaisés et ruine les résultats.
Sur-ajustement
Le surajustement dans une analyse de régression se produit lorsque les variables commencent à montrer des erreurs aléatoires plutôt que de décrire efficacement la relation entre les variables. Le surajustement produit beaucoup de bruit plutôt que la vraie représentation de la population. Le résultat du modèle n'est plus réaliste. Vous devez rendre votre modèle aussi proche que possible de la réalité. Comme exemple d'équipement du monde réel. Le meilleur mot possible qui décrit l'équipement à partir de l'exemple du monde réel est "sur-généralisation". Lorsque l'erreur ou le biais augmente, les valeurs réalistes ne peuvent pas être déterminées en tant que résultat.
Sous-équipement
Le sous-ajustement se produit lorsque le nombre de variables correspond à peine à un modèle donné et que la sortie ne reste pas précise. Pour avoir des résultats réussis à partir d'une analyse de régression, vous avez besoin des valeurs optimales des variables, de sorte que le modèle obtenu soit proche de la réalité. En bref, lorsque les variables ne sont pas optimisées ou que le modèle ne s'adapte pas efficacement aux données, il est appelé un sous-ajustement.
Types d'analyse de régression
Il existe deux types de variables dans toute forme de régression. L'une est les variables indépendantes, ou elles sont également appelées variables explicatives, elles sont utilisées pour les entrées. L'autre type de variable est une variable dépendante, également connue sous le nom de prédicteur. C'est la valeur que vous essayez de trouver ou le résultat du modèle.
Ce qui suit décrit les différents types d'analyse de régression.
Régression linéaire
La régression linéaire traite de deux types de variables. Une variable est appelée variable indépendante et l'autre type de variable est la variable dépendante.
La variable indépendante varie le long de l'axe des x du plan cartésien et la variable dépendante varie le long de l'axe des y. Ces variables sont respectivement « x » et « y ». La valeur de y dépend de x. Lorsque x change, le "y" augmente ou diminue.
Il existe deux types de régression linéaire.- Régression linéaire simple
- La régression linéaire multiple
- Régression linéaire simple : dans la régression linéaire simple, il n'y a qu'une seule variable dépendante et une seule variable dépendante.
L'équation de la régression linéaire simple est y=β_0+β_1 xIci, x représente la variable indépendante, est la pente de la droite de régression et est l'ordonnée à l'origine. "y" est la variable dépendante ou le résultat.
- Régression linéaire multiple : dans la régression linéaire multiple, la variable dépendante est une, mais vous avez plusieurs variables indépendantes.
L'équation suivante représente la régression linéaire multiple, y= β_0+β_1 x_1+⋯β_n x_n+ εIci, y est la variable dépendante, est l'ordonnée à l'origine. désignent les multiples variables indépendantes du modèle. est le "biais" ou "l'erreur". La minimisation des biais ou des erreurs est notre objectif principal afin de créer un modèle proche de la situation réelle.
Régression multivariée
La régression multivariée est différente de la régression linéaire multiple en ce sens qu'elle comporte plusieurs variables dépendantes avec l'entrée de plusieurs variables indépendantes. Les variables dépendantes ( y_1,y_2 ,y_3 …. y_n) sont dans des formules différentes. Et il a plus d'une variable indépendante ( x_1, x_2, ….x_m ) pour prédire les Ys. Dans la régression multivariée, les données utilisées sont pour la plupart du même type que dans d'autres types d'analyse de régression.
Régression logistique
La régression logistique est la deuxième forme de régression la plus populaire après la régression linéaire, et ses utilisations couvrent la biostatistique, la médecine et les sciences sociales.
La régression logistique traite des valeurs booléennes telles que,- vrai ou faux
- Oui ou non
- grand ou petit
- un ou zéro
La régression logistique est utilisée dans la classification d'objets tels qu'un e-mail est "spam" ou "non spam".
En bref, il y a une sortie dans la régression logistique qui peut être "Vrai" ou "Faux". De plus, il peut y avoir une seule entrée ou plusieurs entrées dans un modèle de régression logistique.
Régression polynomiale
Il y a des cas où l'on a affaire à des variables dont la relation n'est pas linéaire. Dans un tel cas, notre modèle est une courbe et non une ligne contrairement à la régression linéaire. Ainsi, nous avons une autre forme de régression connue sous le nom de régression polynomiale.
L'équation de la régression polynomiale correspond aux puissances ascendantes de la variable d'entrée x, dont une généralisation est présentée ci-dessous.
y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε
Régression quantile
La définition de la régression quantile est très différente de ce qu'elle est en pratique. Le quantile est un autre nom de la médiane dans les statistiques.
Le quantile est le point ou la ligne qui divise les données de sortie en deux parties égales. Imaginez un ensemble de données sous la forme d'une ligne sur l'axe des ordonnées. L'ensemble de données est divisé en deux parties exactement égales. La valeur du quantile est de 0,5 ou 50 % au point de séparation.
Sur la même note, les deux données également divisées sont à nouveau divisées de manière égale le long de l'axe des ordonnées. Cette fois, nous avons divisé les données en quatre parties égales, et les nouveaux points de partage sur l'axe y inférieur du graphique sont de 0,25 ou 25 %.
De même, le quantile divisé supérieur de l'axe des ordonnées est de 0,75 ou 75 %. En général, les quantiles ne sont que des lignes ou des points qui divisent les données en morceaux ou groupes égaux.
Les quantiles divisent les données en une centaine de groupes de taille égale. Mais, dans le monde réel, la définition du quantile est beaucoup plus flexible.
La régression quantile est utile lorsqu'il y a une présence d'hétéroscédasticité élevée dans le modèle, et la régression linéaire n'est pas assez précise pour prédire le résultat car le modèle linéaire repose sur des valeurs moyennes et les quantiles peuvent être plus précis avec des valeurs médianes.
Régression de crête
La régression de crête utilise une technique appelée « régularisation ». La régularisation est appropriée pour les modèles qui échouent sur les données de test mais transmettent les données de formation.
La régression Ridge fonctionne mieux lorsque la plupart des variables du modèle sont utiles.
Lorsque les données d'échantillon montrent une colinéarité multiple, deux choses indésirables se produisent,
- Les estimations des moindres carrés des coefficients des variables prédictives donnent des erreurs élevées.
- Il y a inflation des erreurs types.
Ridge Regression est une technique de stabilisation des coefficients de régression en présence de multicolinéarité.
Régression au lasso
Lasso est l'abréviation de "Least Absolute Shrinkage and Selection Operator". La régression au lasso fonctionne mieux lorsque vous avez beaucoup de variables inutiles. La régression Lasso ressemble à la régression Ridge, mais certaines différences la rendent unique.
La régression Ridge et la régression Lasso ont des applications dans les mêmes scénarios dans lesquels la multicolinéarité est présente. Cependant, Ridge Regression convient aux prévisions à long terme.
La régression Lasso applique un rétrécissement aux données. Les valeurs des données se rétrécissent vers un point central comme la médiane ou la moyenne.
La simplification et la rareté des modèles de données sont les fonctions où la régression au lasso fait le mieux. En d'autres termes, les modèles de données doivent avoir les paramètres optimaux pour des résultats précis.
Régression en composantes principales (PCR)
L'analyse en composantes principales a une application à la variable x, réduisant la dimensionnalité des données. Cela implique l'extraction d'un ensemble de données avec la plupart des variations dans un processus itératif.
Étant donné que le processus est itératif et qu'il peut analyser un ensemble de données multidimensionnelles, la régression en composantes principales surmonte les problèmes de dimensionnalité et de colinéarité présents dans la régression des moindres carrés ordinaire.
Régression nette élastique
Elastic Net Regression simplifie un modèle pour en faciliter l'interprétation. Un modèle peut avoir des tonnes de variables (aka paramètres) ; ils peuvent aller jusqu'à des millions dans des modèles spécifiques. Dans un tel modèle, il n'est pas possible de déterminer quelles variables sont utiles et lesquelles sont inutiles.
Dans un tel cas, vous ne savez pas quel type de régression choisir entre Ridge Regression et Lasso regression. Ici, l'Elastic Net Regression entre en jeu pour simplifier le modèle.
La régression Elastic-Net combine une pénalité de régression Ridge avec la pénalité de régression Lasso et donne le meilleur des deux mondes. Cela fonctionne également mieux avec des variables corrélées.
Moindres carrés partiels (PLS)
Les moindres carrés partiels tiennent compte à la fois des variables explicatives et des variables dépendantes. Le principe sous-jacent de ce type de régression est que les variables x et y passent par une décomposition en structures latentes dans un processus itératif.
PLS peut gérer la multicolinéarité. Il prend en compte les structures de données liées à x et y, vous fournissant des résultats visuels détaillés pour l'interprétation des données. Plusieurs variables peuvent entrer en ligne de compte.
Prise en charge de la régression vectorielle
La régression vectorielle de support (SVR) est un algorithme qui fonctionne avec une fonction continue. Contrairement à Support Vector Machine, Support Vector Machine (SVM) traite des problèmes de classification. SVR prédit des variables ordonnées continues.
Dans la régression simple, l'accent doit être mis sur la minimisation de l'erreur tandis que la régression du vecteur de support découvre le seuil de l'erreur.
Régression ordinale
La régression logistique traite de deux catégories, mais dans la régression ordinale (alias régression logistique ordinale), trois catégories ou plus entrent en jeu avec l'hypothèse d'un ordre sans ambiguïté.
La régression ordinale permet de prédire une variable dépendante ordinale lorsqu'une ou plusieurs variables indépendantes sont présentes.
Régression de Poisson
Dans la régression de Poisson, le nombre ou la fréquence à laquelle l'événement se produit est le principal point d'intérêt.
Nous mesurons la vitesse à laquelle l'événement se produit dans la régression de Poisson. En d'autres termes, nous modélisons le nombre de fois où l'événement se produit (comptage) dans le temps. Dans la régression de Poisson, le temps est constant et nous mesurons le nombre d'événements.
Régression binomiale négative
Il est utile de modéliser l'ensemble de données discrètes (comptage). Sur la même note, la régression binomiale négative aide lorsque les données ont une variance plus élevée par rapport à la moyenne, c'est-à-dire que la dispersion des données est trop importante lorsque vous la tracez.
Le modèle binomial négatif ne suppose pas que la variable est égale à la moyenne comme le fait le modèle basé sur la régression de Poisson.
Régression de quasi-Poisson
La régression quasi de Poisson est la généralisation de la régression de Poisson. Comme mentionné précédemment, le modèle de régression de Poisson repose sur une hypothèse généralement injuste selon laquelle la variance est égale à la moyenne.
Le modèle Quasi Poisson entre en jeu lorsque la variance est la fonction linéaire de la moyenne et qu'elle est également supérieure à la moyenne. C'est le scénario où Quasi Poisson est le plus approprié pour être applicable.
Régression de Cox
La régression de Cox (également connue sous le nom de régression des risques proportionnels) étudie les effets de plusieurs variables sur la durée pendant laquelle un événement spécifié se produit.
Considérez les événements suivants où la régression de Cox peut être utile,
- Le temps qu'il a fallu pour une deuxième crise cardiaque après la première crise cardiaque.
- Le temps qu'il a fallu pour le deuxième accident après le premier accident.
- Le temps qu'il a fallu après la détection du cancer jusqu'à la mort.
Les données de temps jusqu'à l'événement sont vitales pour l'application de la régression de Cox.
Régression Tobit
La régression Tobit est pratique dans l'estimation d'une relation linéaire lorsque la censure se trouve dans la variable dépendante. La censure est l'observation de toutes les variables indépendantes. Le compte rendu réel de la valeur de la variable dépendante ne se trouve que dans une gamme restreinte d'observations.
Régression bayésienne
La régression bayésienne est basée sur une distribution de probabilité plutôt que sur une estimation ponctuelle. Par conséquent, la sortie ou le "y" n'est pas une valeur unique. C'est une distribution de probabilité. Comme nous le savons, la distribution de probabilité est une fonction mathématique et non une valeur. La distribution de probabilité donne les résultats possibles d'une expérience.
Lorsque nous composons la formulation du modèle de régression linéaire basée sur la distribution de probabilité, nous obtenons l'expression suivante.
y ˜ N(β^TX,σ^2 I)- La sortie (y) est calculée à partir d'une distribution gaussienne normale en fonction de la moyenne et de la variance.
- La transposée (T) de la matrice des poids (β) est obtenue en la multipliant par la matrice des prédicteurs (X).
- La variance est l'écart type au carré (σ^2 ) multiplié par la matrice d'identité (I).
(La formulation multidimensionnelle du modèle est à l'étude)
Régression de la moindre déviation absolue (LAD)
La moindre déviation absolue est l'alternative la plus connue à la méthode des moindres carrés pour analyser les modèles linéaires. Nous savons que dans la méthode des moindres carrés, nous minimisons la somme des carrés des erreurs, mais dans LAD, nous minimisons la somme des valeurs absolues des erreurs. Il essaie de trouver une fonction qui correspond étroitement à un ensemble de données.
Dans un cas où nos données sont simples, la moindre déviation absolue est une ligne droite dans le plan cartésien bidimensionnel.
La formulation du moindre absolu est très simple à comprendre. Supposons que notre ensemble de données se compose de deux points variables ( (x_i ,y_i) et le i=1,2,3,4,5……n.
Notre objectif est de trouver une fonction f telle qu'elle soit approximativement égale à (~) comme indiqué ci-dessous.
f(x_i ) ~ y_i
L'affirmation est que la fonction f est d'une forme spécifique contenant certains paramètres que nous devons calculer. Le point à noter ici est que la fonction f peut avoir I nombre de paramètres x (ou variables indépendantes ou variables explicatives).
Nous tenterons de connaître les valeurs des paramètres qui minimiseront la somme suivante des valeurs absolues des erreurs (ou résidus).
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )Régression écologique
La régression écologique joue un rôle essentiel dans des matières telles que les sciences politiques et l'histoire. La technique nous permet de compter à un niveau macro et de faire des prédictions à un niveau micro.
La régression écologique peut déterminer le comportement de vote des individus entre différentes factions et groupes de sociétés. L'estimation est basée sur les données collectées à partir des comptes précédents.
Les données écologiques sont basées sur des comptages dans une région particulière, des groupes, des objets ou, au fil du temps. En bref, les données agrégées nous aident à en apprendre davantage sur le comportement restreint aux individus.
À quoi sert l'analyse de régression ?
L'analyse de régression est utile pour obtenir plusieurs objectifs commerciaux.
Analyse prédictive
L'une des applications les plus importantes est l'analyse prédictive qui permet de prévoir avec plus de précision des événements commerciaux spécifiques. Un type d'analyse prédictive est « l'analyse de la demande », qui mesure l'augmentation des ventes d'un produit. Le succès d'un produit nouvellement lancé, ainsi que des produits en cours d'exécution, peut être correctement positionné sur le marché.
Autre exemple, l'analyse de régression a des applications dans la publicité de produits et de services. Il est prévisible avec l'analyse de régression que le nombre d'acheteurs susceptibles de tomber sur une publicité. Il aide les professionnels de la vente et du marketing à définir la valeur de l'enchère des supports promotionnels.
L'analyse de régression est également un outil utile pour les compagnies d'assurance. Les compagnies d'assurance l'utilisent pour connaître le crédit des assurés et estimer le nombre de sinistres susceptibles d'être présentés par leurs clients.
Efficacité opérationnelle
Les organisations prennent des décisions sérieuses en utilisant l'analyse de régression pour optimiser leurs opérations.
Les décisions basées sur les données peuvent exclure les décisions douteuses, les conjectures inexactes avec des sentiments instinctifs et la politique d'entreprise.
L'Analyse Régressive convertit l'art de la gestion en une science. A titre d'exemple, il est possible de mettre en relation le temps d'attente d'un appelant avec le nombre de réclamations dans un centre d'appels ou un service client.
Aide à la décision
Les organisations disposent aujourd'hui de nombreuses données relatives aux finances, au marketing, aux opérations et à de nombreux autres départements. Les principaux décideurs se tournent davantage vers l'analyse de données et la science des données pour prendre des décisions plus éclairées en éliminant les conjectures.
Avec l'aide de l'analyse de régression, les données volumineuses peuvent subir une compression pour des informations allégées orientées vers l'action, ouvrant la voie à une prise de décision plus précise. L'analyse de régression ne supprime ni ne remplace les managers ; au lieu de cela, il met un outil puissant entre leurs mains pour prendre des décisions plus percutantes et efficaces que jamais auparavant.
Correction des erreurs
L'analyse de régression aide également à identifier les erreurs intuitives de jugement et de prise de décision pour les chefs d'entreprise.
A titre d'exemple, un gérant de magasin peut décider de garder le magasin ouvert la nuit pour lequel il décide d'embaucher du nouveau personnel.
L'analyse de régression peut indiquer avec précision que la prise en compte des dépenses du personnel et des ventes totales qu'il génère la nuit ne peut pas avoir de justification mutuelle. Ainsi, l'application quantitative de l'analyse de régression permet d'exclure une mauvaise prise de décision.
Informations exploitables
Les entreprises comprennent et reconnaissent la valeur des données et ce qui peut être réalisé par les techniques d'analyse de régression, mais beaucoup ne parviennent pas à convertir ces données en informations exploitables. Obtenir des informations à partir de données brutes n'est pas une tâche facile. Un rapport de Forrester affirme que 74 % des entreprises veulent décider avec des données, mais seulement 29 % réussissent à obtenir des analyses qui peuvent leur permettre de prendre des décisions fructueuses.
Une étude de cas critique du monde des affaires est Konica Minolta. Konica était l'un des fabricants d'appareils photo les plus prospères. En 2000, la plupart des photographes et des amateurs d'appareils photo se sont tournés vers les appareils photo numériques.
L'organe décisionnel supérieur de Konica n'a pas pris de décisions assez rapidement. En conséquence, en 2004, lorsque Konica a lancé son premier appareil photo, la plupart des concurrents comme Nikon et Canon s'étaient bien établis sur le nouveau marché des appareils photo numériques. En conséquence, en 2006, la société a subi des pertes si lourdes qu'elle a vendu une grande partie de sa technologie et de ses actifs à Sony.
Si Konica disposait des informations issues des données commerciales et de marché brutes traitées par une analyse de régression et des techniques similaires, Konica aurait été en mesure de prendre la bonne décision au bon moment.
L'analyse de régression des données fournissant des informations exploitables met un pouvoir absolu entre les mains des décideurs qui peuvent changer la donne dans le monde réel.
Comment choisir le bon modèle de régression ?
Il existe des centaines de types de régressions, et nous avons couvert les types les plus populaires.
Le monde réel est très complexe et les créateurs du modèle mesurent de nombreuses variables mais n'en incluent que quelques-unes dans le modèle. Les analystes excluent les variables indépendantes qui ont très peu ou pas d'impact sur la variable dépendante ou le résultat.
Lors de la sélection d'un modèle de régression, le simple fait suivant doit être gardé à l'esprit pour maintenir l'équilibre en plaçant le nombre correct de variables indépendantes dans l'équation de régression.
- Trop peu de variables indépendantes, le modèle quelconque devient un biais.
- Trop de variables indépendantes, le modèle quelconque perd de sa précision.
- Le modèle Just the Right entre en création lorsque les termes mathématiques ne sont pas biaisés et sont les plus précis.
Dernières pensées
L'analyse de régression a ses origines dans les statistiques qui sont une science centenaire, mais elle a récemment attiré l'attention alors que les mégadonnées explosent. L'analyse de régression trouve son chemin à travers les statistiques dans l'analyse de données, la science des données et leurs applications dans presque toutes les organisations.
Les modèles de régression créés avec l'analyse de régression sont un outil indispensable pour améliorer la prévisibilité, l'efficacité des opérations, la prise de décision éclairée, la prévention des erreurs, la prévention des mauvaises décisions et de meilleures informations.
Autre ressource utile :
Importance de l'analyse de régression dans les affaires
Le guide complet sur l'analyse de régression