O que é Análise de Regressão Simples? - Guia
Publicados: 2020-08-06Você sabia que a análise de regressão simples pode ser empregada para diversos fins nos negócios? De fato, prever oportunidades e riscos futuros é uma das principais aplicações da análise de regressão em um negócio. Além disso, as empresas usam modelos de regressão linear para otimizar seus processos de negócios, reduzindo a enorme quantidade de dados brutos em informações acionáveis.
- Definição de análise de regressão simples
- O modelo de regressão linear simples
- Como realizar
- Partes-chave para saber
- Suposições de regressão linear simples
- Exemplos de análise de regressão linear simples
- Limitações
O que é análise de regressão simples
Basicamente, uma análise de regressão simples é uma ferramenta estatística que é utilizada na quantificação da relação entre uma única variável independente e uma única variável dependente com base em observações que foram realizadas no passado. Na interpretação leiga, o que isso significa é que uma simples análise de regressão linear pode ser utilizada na demonstração de como uma mudança no horário da máquina de produção de uma organização (que é a variável independente) resultará consequentemente em uma mudança no custo de energia elétrica da organização .
O modelo de regressão linear simples
Basicamente, o modelo de regressão linear simples pode ser expresso no mesmo valor da fórmula de regressão simples .
y = β 0 + β 1 X+ ε.
No modelo de regressão linear simples, consideramos a modelagem entre uma variável independente e a variável dependente. Normalmente, o modelo é normalmente chamado de modelo de regressão linear simples quando há apenas uma única variável independente no modelo de regressão linear. Tenha em mente que ele se torna um modelo de regressão linear múltipla quando há mais de uma variável independente.
No modelo de regressão linear simples, y refere-se à variável de estudo ou dependente e X é a variável explicativa ou independente. As expressões β 0 e β 1 são os parâmetros do modelo de regressão linear. O parâmetro β 0 é considerado um termo de interceptação, enquanto o parâmetro β 1 é considerado o parâmetro de inclinação. O termo geral para esses parâmetros é conhecido como coeficientes de regressão.
A expressão 'ε' é o erro não observável que explica a incapacidade dos dados permanecerem na linha reta. Também representa a variação entre a realização observada e verdadeira de 'y'.
Várias razões podem ser atribuídas a essas diferenças. Por exemplo, as variáveis podem ser qualitativas, aleatoriedade inerente às observações, e o efeito de todas as variáveis excluídas no modelo também contribui para as diferenças. Assim, assume-se que ε é observado como variável aleatória independente e identicamente distribuída com média zero e variância constante q². Subsequentemente, será assumido que ε é distribuído normalmente.
As variáveis independentes no modelo de regressão linear são vistas como controladas pelo experimentador. É por isso que ela é considerada não estocástica, enquanto y é considerada uma variável aleatória com:
E(y) = β 0 + β 1 X. e
Var(y) = q²
Em alguns casos, X pode funcionar como uma variável aleatória. Nessas situações, em vez da variância amostral e da média amostral de y, nossa consideração será na média condicional de y, desde que X = x como
ε(y) = β0 e β1
e a variância condicional de y desde X = x como
Var(y|x) = q².
Assim, o modelo de análise de regressão simples é completamente expresso quando os valores de β 0 , β 1 e q² são conhecidos. Geralmente, os parâmetros β 0 , β 1 e q² não são conhecidos na prática e ε não é observado. Portanto, você vê que a determinação do modelo estatístico y = β 0 + β 1 X + ε é baseada na determinação (ou seja, estimativa) de β 0 , β 1 e q². Para determinar os valores desses parâmetros, n pares de observações (x, y)( = 1,…, n) em (X, y) são observados/coletados e usados para determinar esses parâmetros desconhecidos.
Ao todo, diferentes métodos de estimação podem ser empregados na determinação das estimativas dos parâmetros. O método mais popular é a estimativa de mínimos quadrados e o método de estimativa de máxima verossimilhança.
Como realizar uma análise de regressão simples
A maneira mais comum de as pessoas realizarem uma análise de regressão simples é usando programas estatísticos para permitir uma análise rápida dos dados.
Executando a regressão linear simples em R
R é um programa estatístico que é usado para realizar uma análise de regressão linear simples. É amplamente utilizado, poderoso e gratuito. Aqui está como funciona.
Primeiro, você precisa carregar o conjunto de dados income.data em seu ambiente R. Em seguida, execute o comando abaixo para criar um modelo de biblioteca que demonstre a relação entre felicidade e renda.
Código R para alguma regressão linear
renda.felicidade.lm <- lm(felicidade ~ renda, dados = renda.dados)
Basicamente, este código irá pegar os dados coletados “dados = renda.dados” e então avaliar o efeito que a variável independente “renda” tem na variável dependente “felicidade” usando a equação para o modelo linear: lm().
Como interpretar os resultados
Para visualizar o resultado do modelo, você pode usar a função “summary()” em R:
resumo(renda.felicidade.lm)
O que esta função faz é pegar os parâmetros mais importantes do modelo linear e colocá-los em uma tabela.
Esta tabela de resultados repete inicialmente a fórmula que foi utilizada na geração dos resultados ('Chamada'). Em seguida, resume os resíduos do modelo ('Resíduos'). Isso ajuda a fornecer uma visão de quão apropriadamente o modelo se ajusta aos dados originais.
Em seguida, passamos para a tabela 'Coeficientes'. A primeira linha fornece as estimativas da interceptação y, enquanto a segunda linha fornece o coeficiente de regressão do modelo.
A linha número um da tabela é rotulada “(Intercept)”. Este é o y-intercept da equação de regressão, tendo um valor de 0,20. Você pode incorporar isso na equação de sua regressão se quiser fazer uma previsão para os valores de felicidade em toda a faixa de renda que você analisou:
felicidade = 0,20 + 0,71*renda ± 0,018
A próxima linha na tabela 'Coeficientes' é a renda. Esta linha explica o efeito estimado da renda na felicidade relatada.
A coluna “Estimativa” é o efeito estimado. Também pode ser referido como valor de r² ou coeficiente de regressão. O número na tabela (0,713) nos informa que para cada unidade de aumento na renda (considerando uma unidade de renda igual a $ 10.000), há um aumento correspondente de 0,71 unidade na felicidade relatada (tomando a felicidade como uma escala de 1 a 10).
O “St. Error” descreve o erro padrão da estimativa. Esse número demonstra o nível de variação em nossa estimativa da relação entre felicidade e renda.
A estatística de teste é exibida na coluna “valor t”. Se você não especificar de outra forma, a estatística de teste usada na regressão linear permanece o valor t de um teste t de dupla face. Quanto maior a estatística do teste, menor a probabilidade de que nossos resultados tenham ocorrido coincidentemente.
A coluna “pr(>| t |)” descreve o valor-p. A figura ali nos mostra a probabilidade de ter o efeito estimado da renda sobre a felicidade se a hipótese nula de nenhum efeito fosse correta.
Como o valor de p é muito baixo (p < 0,001), podemos descartar a hipótese nula e concluir que a renda tem um efeito estatisticamente relevante sobre a felicidade.
As últimas 3 linhas do resumo do modelo são estatísticas sobre a totalidade do modelo. A coisa mais importante a ter em mente aqui é o valor-p do modelo. Torna-se relevante aqui (p < 0,001), significando que este modelo é um ajuste padrão para os dados observados.
Apresentação de resultados
No relatório dos resultados, adicione o valor p, o erro padrão da estimativa e o efeito estimado (ou seja, o coeficiente de regressão). Também é necessário que você interprete seus números para tornar claro para seus leitores qual é o significado do coeficiente de regressão.
Resultado
Houve uma relação relevante (p < 0,001) entre renda e felicidade ( R² = 0,71 ± 0,018), com um aumento de 0,71 unidade na felicidade relatada para cada $ 10.000 de aumento na renda.
Além disso, seria bom adicionar um gráfico junto com seus resultados. Para uma regressão linear simples , tudo o que você precisa fazer é plotar as observações nos eixos x e y. Em seguida, você adiciona a função de regressão e a linha de regressão.
Fórmula de regressão linear simples
A fórmula para uma regressão linear simples é
y = β 0 + β 1 + ε
Partes-chave da Análise de Regressão Simples
R²
Esta é uma medida de associação. Ele serve como uma representação para a porcentagem da variação nos valores de Y que pode ser exibida entendendo o valor de X. R² varia de um mínimo de 0,0 (onde nenhuma variação é explicada) até um máximo de +1,0 (no qual cada variação é explicada).
Seb
Refere-se ao erro padrão do valor registrado de b. Um teste t para a importância estatística do coeficiente é realizado dividindo o valor de b pelo seu erro padrão. De acordo com a regra geral, um valor t maior que 2,0 é normalmente estatisticamente relevante, no entanto, você deve fazer referência a uma tabela t apenas para ter certeza.
Se pelo valor t houver indicação de que o coeficiente b é estatisticamente relevante, significa que a variável independente de X deve ser reservada na equação de regressão. Isso ocorre principalmente porque apresenta uma relação estatisticamente relevante com a variável dependente ou Y. No caso em que a relação não é estatisticamente relevante, o valor do 'coeficiente b' seria exatamente igual a zero (estatisticamente falando).
F
Este é um teste para a relevância estatística de toda a equação de regressão. Ele é gerado dividindo a variância descrita pela variância inexplicada. Como a regra geral postula, qualquer valor F superior a 4,0 é mais frequentemente estatisticamente relevante. No entanto, você deve consultar uma tabela F apenas para ter certeza. Se F é relevante, então a equação de regressão nos ajuda a conhecer a relação entre X e Y.
Suposições de regressão linear simples
- Homogeneidade de variância: isso também pode ser referido como homocedasticidade. O núcleo dessa suposição afirma que não há mudança significativa no tamanho do erro em nossa previsão entre os valores da variável independente.
- Independência de observações: aqui, métodos de amostragem estatisticamente válidos foram usados para coletar as observações no conjunto de dados, e não existem relações desconhecidas entre as observações.
- Normalidade: isso simplesmente assume que os dados seguem uma distribuição normal.
Exemplos de regressão linear simples
Aqui, estaremos citando um cenário que serve como exemplo de implementação da análise de regressão simples .
Vamos supor que a velocidade média quando 2 patrulhas rodoviárias são implantadas é de 75 mph, ou 35 mph quando 10 patrulhas rodoviárias são implantadas. A questão, portanto, é qual é a velocidade média dos carros na rodovia quando 5 patrulhas rodoviárias são implantadas?
Usando nossa fórmula de análise de regressão simples , podemos calcular os valores e derivar a seguinte equação: Y = 85 + (-5) X, dado que Y é a velocidade média dos carros na rodovia. A = 85, ou a velocidade média quando X = 0
B = (-5), o impacto de cada carro-patrulha extra implantado em Y
E X = número de patrulhas implantadas
Portanto, a velocidade média dos carros na rodovia quando não há patrulhas rodoviárias operando (X=0) será de 85 mph. Para cada carro de patrulha rodoviária extra funcionando, a velocidade média será reduzida em 5 mph. Assim, para 5 carros de patrulha (X = 5), temos Y = 85 + (-5) (5) = 85 – 25 = 60 mph.
Limites da regressão linear simples
Mesmo os melhores dados não dão perfeição. Normalmente, a análise de regressão linear simples é amplamente utilizada em pesquisas para marcar a relação que existe entre as variáveis. No entanto, como a correlação não interpreta como causação, a relação entre 2 variáveis não significa que uma faça com que a outra ocorra. Na verdade, uma linha em uma regressão linear simples que descreve bem os pontos de dados pode não trazer uma relação de causa e efeito.
O uso de um exemplo simples de análise de regressão permitirá que você descubra se existe alguma relação entre as variáveis. Portanto, análises e pesquisas estatísticas extras são necessárias para determinar qual é exatamente a relação e se uma variável leva à outra.
Pensamentos finais
Ao todo, as empresas de hoje precisam considerar a análise de regressão simples se precisarem de uma opção que forneça excelente suporte às decisões de gerenciamento e também identifique erros de julgamento. Com uma análise adequada, grandes quantidades de dados não estruturados que foram acumulados pelas empresas ao longo do tempo terão o potencial de gerar insights valiosos para as empresas.
Outros recursos úteis:
Diferentes tipos de análise de regressão para conhecer
Importância da Análise de Regressão nos Negócios