Qu'est-ce que l'analyse de régression simple ? - Guider

Publié: 2020-08-06

Savez-vous que l'analyse de régression simple peut être utilisée à diverses fins dans les affaires ? En fait, la prévision des opportunités et des risques futurs est l'une des principales applications de l'analyse de régression dans une entreprise. De plus, les entreprises utilisent des modèles de régression linéaire pour optimiser leurs processus commerciaux en réduisant la quantité massive de données brutes en informations exploitables.

Dans cet article
  • Définition de l'analyse de régression simple
  • Le modèle de régression linéaire simple
  • Comment effectuer
  • Éléments clés à connaître
  • Hypothèses de régression linéaire simple
  • Exemples d'analyse de régression linéaire simple
  • Limites

Qu'est-ce qu'une analyse de régression simple

Fondamentalement, une analyse de régression simple est un outil statistique qui est utilisé dans la quantification de la relation entre une seule variable indépendante et une seule variable dépendante basée sur des observations qui ont été effectuées dans le passé. Dans l'interprétation du profane, cela signifie qu'une simple analyse de régression linéaire peut être utilisée pour démontrer comment un changement dans les heures de la machine de production d'une organisation (qui est la variable indépendante) entraînera par conséquent un changement dans le coût de l'électricité de l'organisation. .

Le modèle de régression linéaire simple

Fondamentalement, le modèle de régression linéaire simple peut être exprimé par la même valeur que la formule de régression simple .

y = β 0 + β 1 X+ ε.

Dans le modèle de régression linéaire simple, nous considérons la modélisation entre la variable indépendante et la variable dépendante. Habituellement, le modèle est généralement appelé modèle de régression linéaire simple lorsqu'il n'y a qu'une seule variable indépendante dans le modèle de régression linéaire. Gardez à l'esprit qu'il devient un modèle de régression linéaire multiple lorsqu'il existe plusieurs variables indépendantes.

Dans le modèle de régression linéaire simple, y fait référence à l'étude ou à la variable dépendante et X est la variable explicative ou indépendante. Les expressions β 0 et β 1 sont les paramètres du modèle de régression linéaire. Le paramètre β 0 est considéré comme un terme d'interception, tandis que le paramètre β 1 est considéré comme le paramètre de pente. Le terme général pour ces paramètres est connu sous le nom de coefficients de régression.

L'expression « ε » est l'erreur non observable qui explique l'incapacité des données à rester sur la ligne droite. Il représente également la variation entre la réalisation observée et la réalisation réelle de 'y'.

Plusieurs raisons peuvent être attribuées à ces différences. Par exemple, les variables peuvent être qualitatives, le caractère aléatoire inhérent aux observations, et l'effet de toutes les variables supprimées dans le modèle contribue également aux différences. Ainsi, on suppose que ε est observé comme une variable aléatoire indépendante et identiquement distribuée avec une moyenne nulle et une variance constante q². Par la suite, on supposera en outre que ε est distribué normalement.

Les variables indépendantes du modèle de régression linéaire sont considérées comme contrôlées par l'expérimentateur. C'est pourquoi elle est considérée comme non stochastique, alors que y est considérée comme une variable aléatoire avec :

E(y) = β 0 + β 1 X. et

Var(y) = q²

Dans certains cas, X peut fonctionner comme une variable aléatoire. Dans ces situations, plutôt que la variance de l'échantillon et la moyenne de l'échantillon de y, notre considération portera sur la moyenne conditionnelle de y à condition que X = x comme

ε(y) = β0 et β1

et la variance conditionnelle de y à condition que X = x comme

Var(y|x) = q².

Ainsi, le modèle d'analyse de régression simple est complètement exprimé lorsque les valeurs de β 0 , β 1 et q² sont connues. Généralement, les paramètres β 0 , β 1 et q² ne sont pas connus en pratique et ε n'est pas observé. Par conséquent, vous voyez que la détermination du modèle statistique y = β 0 + β 1 X + ε est basée sur la détermination (c'est-à-dire l'estimation) de β 0 , β 1 et q². Afin de connaître les valeurs de ces paramètres, n couples d'observations (x, y)( = 1,…, n) sur (X, y) sont observés/collectés et permettent de déterminer ces paramètres inconnus.

Au total, différentes méthodes d'estimation peuvent être employées dans la détermination des estimations des paramètres. La méthode la plus populaire est l'estimation par les moindres carrés et la méthode d'estimation par maximum de vraisemblance.

Comment effectuer une analyse de régression simple

La façon la plus courante d'effectuer une analyse de régression simple consiste à utiliser des programmes statistiques pour permettre une analyse rapide des données.

Effectuer la régression linéaire simple dans R

R est un programme statistique utilisé pour effectuer une simple analyse de régression linéaire. Il est largement utilisé, puissant et gratuit. Voici comment ça fonctionne.

Tout d'abord, vous devez charger l'ensemble de données income.data dans votre environnement R. Ensuite, vous exécutez la commande ci-dessous pour créer un modèle de bibliothèque qui illustre la relation entre le bonheur et le revenu.

Code R pour une régression linéaire

revenu.bonheur.lm <- lm(bonheur ~ revenu, données = revenu.données)

Fondamentalement, ce code prendra les données recueillies "data = income.data" puis évaluera l'effet que la variable indépendante "revenu" a sur la variable dépendante "bonheur" en utilisant l'équation du modèle linéaire : lm().

Comment interpréter les résultats

Pour afficher le résultat du modèle, vous pouvez utiliser la fonction "summary()" dans R :

résumé(revenu.bonheur.lm)

Cette fonction prend les paramètres les plus importants du modèle linéaire et les place dans un tableau.

Ce tableau de résultats reprend initialement la formule qui a été utilisée lors de la génération des résultats ('Call'). Par la suite, il résume les résidus du modèle ('Résidus'). Cela permet de mieux comprendre dans quelle mesure le modèle s'adapte aux données d'origine.

Ensuite, nous passons au tableau 'Coefficients'. La première ligne fournit les estimations de l'ordonnée à l'origine, tandis que la deuxième ligne fournit le coefficient de régression du modèle.

La ligne numéro un du tableau est étiquetée « (Interception) ». Il s'agit de l'ordonnée à l'origine de l'équation de régression, ayant une valeur de 0,20. Vous pouvez l'incorporer dans l'équation de votre régression si vous souhaitez faire des prédictions pour les valeurs de bonheur dans la fourchette de revenus que vous avez analysée :

bonheur = 0,20 + 0,71*revenu±0,018

La ligne suivante dans le tableau 'Coefficients' est le revenu. Cette ligne explique l'effet estimé du revenu sur le bonheur déclaré.

La colonne "Estimation" est l'effet estimé. Il peut également être appelé valeur r² ou coefficient de régression. Le nombre dans le tableau (0,713) nous informe que pour chaque unité d'augmentation de revenu (en prenant une unité de revenu égale à 10 000 $), il y a une augmentation correspondante de 0,71 unité de bonheur déclaré (en prenant le bonheur sur une échelle de 1 à 10).

Le "Std. Erreur » décrit l'erreur standard de l'estimation. Ce nombre démontre le niveau de variation de notre estimation de la relation entre le bonheur et le revenu.

La statistique de test est affichée dans la colonne "valeur t". Sauf indication contraire, la statistique de test utilisée dans la régression linéaire reste la valeur t d'un test t bilatéral. Plus la statistique de test est élevée, plus la probabilité que nos résultats se produisent par coïncidence est faible.

La colonne "pr(>| t |)" décrit la valeur de p. La figure nous montre la probabilité d'avoir l'effet estimé du revenu sur le bonheur si l'hypothèse nulle d'absence d'effet était exacte.

Puisque la valeur de p est très faible (p < 0,001), nous pouvons rejeter l'hypothèse nulle et conclure que le revenu a un effet statistiquement pertinent sur le bonheur.

Les 3 dernières lignes du résumé du modèle sont des statistiques concernant l'intégralité du modèle. La chose la plus importante à garder à l'esprit ici est la valeur p du modèle. Il devient pertinent ici (p < 0,001), ce qui signifie que ce modèle est un ajustement standard pour les données observées.

Présentation des résultats

Dans le rapport des résultats, ajoutez la valeur de p, l'erreur standard de l'estimation et l'effet estimé (c'est-à-dire le coefficient de régression). Il est également nécessaire que vous interprétiez vos chiffres pour faire comprendre à vos lecteurs la signification du coefficient de régression.

Résultat

Il y avait une relation pertinente (p < 0,001) entre le revenu et le bonheur ( R² = 0,71 ± 0,018), avec une augmentation de 0,71 unité du bonheur déclaré pour chaque augmentation de 10 000 $ du revenu.

De plus, il serait bon d'ajouter un graphique avec vos résultats. Pour une régression linéaire simple , il suffit de tracer les observations sur les axes x et y. Ensuite, vous ajoutez la fonction de régression et la ligne de régression.

Formule de régression linéaire simple

La formule d'une régression linéaire simple est

y = β 0 + β 1 + ε

Principaux éléments de l'analyse de régression simple

C'est une mesure d'association. Il sert de représentation pour le pourcentage de la variance des valeurs de Y qui peut être affichée en comprenant la valeur de X. R² varie d'un minimum de 0,0 (où aucune variance n'est expliquée) à un maximum de +1,0 (dans lequel chaque écart est expliqué).

Seb

Il s'agit de l'erreur standard de la valeur enregistrée de b. Un test t pour l'importance statistique du coefficient est effectué en divisant la valeur de b par son erreur standard. Selon la règle empirique, une valeur t supérieure à 2,0 est généralement statistiquement pertinente, mais vous devez faire référence à une table t juste pour être sûr.

Si, selon la valeur t, il y a une indication que le coefficient b est statistiquement pertinent, cela signifie que la variable indépendante de X doit être réservée dans l'équation de régression. C'est notamment parce qu'il présente une relation statistiquement pertinente avec la variable dépendante ou Y. Dans le cas où la relation n'est pas statistiquement pertinente, la valeur du «coefficient b» serait identique à zéro (statistiquement parlant).

F

Il s'agit d'un test de la pertinence statistique de l'ensemble de l'équation de régression. Il est généré en divisant la variance décrite par la variance inexpliquée. En règle générale, toute valeur F supérieure à 4,0 est le plus souvent statistiquement pertinente. Néanmoins, vous devez vous référer à une table F juste pour être sûr. Si F est pertinent, alors l'équation de régression nous aide à connaître la relation entre X et Y.

Hypothèses de régression linéaire simple

  • Homogénéité de la variance : on parle aussi d'homoscédasticité. Le cœur de cette hypothèse stipule qu'il n'y a pas de changement significatif dans la taille de l'erreur dans notre prédiction entre les valeurs de la variable indépendante.
  • Indépendance des observations : ici, des méthodes d'échantillonnage statistiquement valides ont été utilisées pour collecter les observations dans l'ensemble de données, et il n'existe aucune relation inconnue entre les observations.
  • Normalité : cela suppose simplement que les données suivent une distribution normale.

Exemples de régression linéaire simple

Ici, nous citerons un scénario qui sert d'exemple de mise en œuvre d' une analyse de régression simple .

Supposons que la vitesse moyenne lorsque 2 patrouilles routières sont déployées est de 75 mph, ou 35 mph lorsque 10 patrouilles routières sont déployées. La question est donc de savoir quelle est la vitesse moyenne des voitures sur l'autoroute lorsque 5 patrouilles routières sont déployées ?

À l'aide de notre simple formule d'analyse de régression , nous pouvons ainsi calculer les valeurs et en déduire l'équation suivante : Y = 85 + (-5) X, étant donné que Y est la vitesse moyenne des voitures sur l'autoroute. A = 85, soit la vitesse moyenne lorsque X = 0

B = (-5), l'impact de chaque voiture de patrouille supplémentaire déployée sur Y

Et X = nombre de patrouilles déployées

Par conséquent, la vitesse moyenne des voitures sur l'autoroute lorsqu'il n'y a aucune patrouille routière (X = 0) sera de 85 mph. Pour chaque voiture de patrouille routière supplémentaire en service, la vitesse moyenne sera réduite de 5 mph. Ainsi, pour 5 voitures de patrouille (X = 5), nous avons Y = 85 + (-5) (5) = 85 – 25 = 60 mph.

Limites de la régression linéaire simple

Même les meilleures données ne donnent pas la perfection. En règle générale, l'analyse de régression linéaire simple est largement utilisée dans la recherche pour marquer la relation qui existe entre les variables. Cependant, puisque la corrélation n'est pas interprétée comme une causalité, la relation entre 2 variables ne signifie pas que l'une provoque l'autre. En fait, une ligne dans une régression linéaire simple qui décrit bien les points de données peut ne pas engendrer de relation de cause à effet.

L'utilisation d'un exemple simple d'analyse de régression vous permettra de savoir s'il existe une relation entre les variables. Par conséquent, des analyses et des recherches statistiques supplémentaires sont nécessaires pour déterminer quelle est exactement la relation et si une variable mène à l'autre.

Dernières pensées

Dans l'ensemble, les entreprises d'aujourd'hui doivent envisager une analyse de régression simple si elles ont besoin d'une option qui fournit un excellent support aux décisions de gestion et identifie également les erreurs de jugement. Avec une analyse appropriée, de grandes quantités de données non structurées qui ont été accumulées par les entreprises au fil du temps auront le potentiel de fournir des informations précieuses aux entreprises.

Autres ressources utiles :

Différents types d'analyse de régression à connaître

Importance de l'analyse de régression dans les affaires