Diferentes tipos de análise de regressão para conhecer

Publicados: 2020-03-05

A análise de regressão é a metodologia que tenta estabelecer uma relação entre uma variável dependente e uma variável independente única ou múltipla.

A regressão é um conceito estatístico nativo, mas está encontrando suas aplicações em muitas áreas relacionadas a negócios, como finanças, investimentos, mercados de ações, bem como em áreas como ciência e engenharia.

Existem algumas aplicações promissoras de análises de regressão na forma de ciência de dados, aprendizado de máquina e inteligência artificial que marcam o futuro da humanidade.

Neste artigo
  • Terminologias
  • Diferentes tipos de análise de regressão
  • Para que isso é usado?
  • Como escolher o modelo certo

Terminologias relacionadas à Regressão

Para entender os tipos de análise de regressão, é útil entender as terminologias relacionadas.

  • Atípicos

    Outliers são visíveis com plotagens de dados em um gráfico. Na análise de regressão(1), os outliers são pontos no gráfico que ficam significativamente fora da nuvem composta por outros pontos. Os pontos atípicos são essenciais porque podem influenciar fortemente o resultado de uma análise de regressão. Para entender esse conceito, vamos supor que um prédio esteja cheio de profissionais com formação financeira média em termos de ganhos.

    Todos eles têm um salário médio de cerca de cem mil dólares por ano. De repente, Bill Gates e Jeff Bezos entram no prédio, e uma vez que você inclui os salários desses dois bilionários, o salário médio se torna drasticamente impreciso. Os salários desses dois cavalheiros conhecidos são os valores discrepantes neste exemplo.

  • Multicolinearidade

    Na análise de regressão, observando a correlação entre duas ou mais variáveis ​​de entrada, observa-se que quando ocorre a adição de uma ou mais variáveis ​​de entrada, o modelo não consegue tornar as coisas mais transparentes sobre o mundo real.

    É crucial descobrir como as variáveis ​​de entrada se relacionam umas com as outras. Medir a multicolinearidade do modelo de regressão é uma maneira de encontrar a relação entre as variáveis ​​de entrada. Como exemplo, você pode encontrar um modelo no qual deseja descobrir o que determina o salário de uma pessoa em uma determinada idade. Variáveis ​​independentes (fatores) como formação educacional, idade e muitos outros fatores que influenciam o salário médio de um indivíduo são levados em consideração.

    Mas, antes de ir mais longe e jogar todos os fatores sob o sol em seu modelo, você precisa saber como eles se correlacionam (inter-associados). Se a multicolinearidade for muito alta, causará distúrbios nos dados e o modelo desmoronará.

  • Heterocedasticidade

    A heterocedasticidade (às vezes escrita como heterocedasticidade) ocorre quando a leitura do erro padrão de uma variável (SE) medido em um determinado tempo não é constante.

    Qualquer análise de regressão executada em tais dados que exiba heterocedasticidade fornece, no mínimo, coeficientes tendenciosos e arruina os resultados.

  • Sobreajuste

    O overfitting em uma análise de regressão é a ocorrência quando as variáveis ​​começam a apresentar erros aleatórios ao invés de descrever eficientemente a relação entre as variáveis. O overfitting produz muito ruído ao invés da verdadeira representação da população. O resultado do modelo não é mais realista. Você precisa tornar seu modelo o mais próximo possível da realidade. Como um exemplo de equipamento do mundo real. A melhor palavra possível que descreve o equipamento do exemplo do mundo real é “generalização excessiva”. Quando o erro ou o viés está aumentando, os valores realistas não podem ser determinados como resultado.

  • Subajuste

    O underfitting ocorre quando o número de variáveis ​​mal se ajusta a um determinado modelo e a saída não permanece precisa. Para ter resultados bem sucedidos de uma análise de regressão, é necessário os valores ótimos das variáveis, para que o modelo obtido seja próximo da realidade. um underfit.

Tipos de Análise de Regressão

Existem dois tipos de variáveis ​​em qualquer forma de Regressão. Uma delas são as variáveis ​​independentes, ou também chamadas de variáveis ​​explicativas, são usadas para entradas. O outro tipo de variável é uma variável dependente, também conhecida como preditor. É o valor que você está tentando descobrir ou o resultado do modelo.

A seguir, descreve os diferentes tipos de análise de regressão.

  • Regressão linear

    A regressão linear lida com dois tipos de variáveis. Uma variável é chamada de variável independente, e o outro tipo de variável é a variável dependente.

    A variável independente varia ao longo do eixo x do plano cartesiano e a variável dependente varia ao longo do eixo y. Essas variáveis ​​são “x” e “y”, respectivamente. O valor de y depende de x. Quando x muda, o “y” aumenta ou diminui.
    Existem dois tipos de Regressão Linear.

    1. Regressão Linear Simples
    2. Regressão linear múltipla
  • Regressão Linear Simples: Na Regressão Linear Simples, existe apenas uma variável dependente e uma variável dependente.
    A equação para regressão linear simples é y=β_0+β_1 xAqui, x representa a variável independente, é a inclinação da linha de regressão e é a interseção com y. “y” é a variável dependente ou o resultado.
  • Regressão Linear Múltipla: Na Regressão Linear Múltipla, a variável dependente é uma, mas você tem várias variáveis ​​independentes.
    A equação a seguir representa a Regressão Linear Múltipla,y= β_0+β_1 x_1+⋯β_n x_n+ εAqui, y é a variável dependente, é a interceptação de y. denotam as múltiplas variáveis ​​independentes no modelo. é o “viés” ou “erro”. A minimização do viés ou erro é nosso principal objetivo para criar um modelo próximo à situação do mundo real.
  • Regressão Multivariada

    A Regressão Multivariada é diferente da Regressão Linear Múltipla no sentido de que possui múltiplas variáveis ​​dependentes com a entrada de múltiplas variáveis ​​independentes. As variáveis ​​dependentes ( y_1,y_2 ,y_3 …. y_n) estão em fórmulas diferentes. E tem mais de uma variável independente ( x_1, x_2, ….x_m ) para prever os Ys. Na Regressão Multivariada, os dados usados ​​são, em sua maioria, do mesmo tipo que em outros tipos de Análise de Regressão.

  • Regressão Logística

    A regressão logística é a segunda forma mais popular de regressão depois da regressão linear, e seus usos abrangem bioestatística, medicina e ciências sociais.
    A regressão logística lida com valores booleanos como,

    • verdadeiro ou falso
    • sim ou não
    • grande ou pequeno
    • um ou zero

    A Regressão Logística é utilizada na classificação de objetos como um e-mail é “spam” ou “não é spam”.

    Em suma, há uma saída na regressão logística que pode ser “verdadeira” ou “falsa”. Além disso, pode haver uma única entrada ou múltiplas entradas em modelos de Regressão Logística.

  • Regressão Polinomial

    Há casos em que temos que lidar com variáveis ​​cuja relação é não linear. Nesse caso, nosso modelo é uma curva, não uma linha diferente da Regressão Linear. Assim, temos outra forma de Regressão conhecida como Regressão polinomial.

    A equação da regressão polinomial são as potências ascendentes da variável de entrada x, cuja generalização está abaixo.

    y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε

  • Regressão Quantílica

    A definição de Regressão Quantílica é muito diferente do que é na prática. O quantil é outro nome da mediana nas estatísticas.

    Quantil é o ponto ou linha que divide os dados de saída em duas partes iguais. Imagine algum conjunto de dados na forma de uma linha no eixo y. O conjunto de dados é dividido exatamente em duas partes iguais. O valor do quantil é 0,5 ou 50% no ponto da divisão.

    Na mesma nota, os dois dados igualmente divididos são divididos igualmente ao longo do eixo y. Desta vez, dividimos os dados em quatro partes iguais e os novos pontos de divisão no eixo y inferior do gráfico são 0,25 ou 25%.

    Da mesma forma, o quantil de divisão do eixo y superior é 0,75 ou 75%. Em geral, os quantis são apenas linhas ou pontos que dividem os dados em partes ou grupos iguais.

    Os quantis cospem dados em uma centena de grupos de tamanhos iguais. Mas, no mundo real, a definição de quantil é muito mais flexível.

    A regressão quantílica é útil quando há presença de alta heterocedasticidade no modelo e a regressão linear não é precisa o suficiente para prever o resultado porque o modelo linear depende de valores médios e quantis podem ser mais precisos com valores medianos.

  • Regressão do cume

    A regressão do cume emprega uma técnica que é chamada de “regularização”. A regularização é apropriada para modelos que falham nos dados de teste, mas transmitem os dados de treinamento.

    A regressão de cume funciona melhor quando a maioria das variáveis ​​no modelo são úteis.

    Quando os dados de amostra estão mostrando multicolinearidade, duas coisas indesejadas acontecem,

    1. As estimativas de Mínimos Quadrados dos coeficientes das variáveis ​​preditoras dão altos erros.
    2. Há inflação nos erros padrão.

    Ridge Regression é uma técnica para a estabilização dos coeficientes de regressão na presença de multicolinearidade.

  • Regressão do laço

    Lasso significa “Least Absolute Shrinkage and Selection Operator”. Lasso Regression funciona melhor quando você tem muitas variáveis ​​inúteis. A regressão de laço se assemelha à regressão de cume, mas algumas diferenças a tornam única.

    A Regressão Ridge e Lasso Regression têm aplicações para os mesmos cenários em que a multicolinearidade está presente. No entanto, Ridge Regression é adequado para previsões de longo prazo.

    A regressão de laço aplica a redução aos dados. Os valores dos dados encolhem em direção a um ponto central como a mediana ou a média.

    A simplificação e a dispersão dos modelos de dados são as funções em que o Lasso Regression faz o melhor. Em outras palavras, os modelos de dados devem ter os parâmetros ideais para resultados precisos.

  • Regressão do Componente Principal (PCR)

    A Análise de Componentes Principais tem aplicação na variável x, reduzindo a dimensionalidade dos dados. Envolve a extração do conjunto de dados com a maioria das variações em um processo iterativo.

    Como o processo é iterativo para poder analisar um conjunto de dados multidimensional, a Regressão de Componentes Principais supera os problemas de dimensionalidade e colinearidade presentes na Regressão de Mínimos Quadrados comuns.

  • Regressão líquida elástica

    O Elastic Net Regression simplifica um modelo para facilitar a interpretação. Um modelo pode ter toneladas de variáveis ​​(também conhecidas como parâmetros); eles podem variar até milhões em modelos específicos. Nesse modelo, não é possível determinar quais variáveis ​​são úteis e quais são inúteis.

    Nesse caso, você não sabe qual tipo de regressão escolher entre Regressão Ridge e Regressão Lasso. Aqui, o Elastic Net Regression entra em ação para simplificar o modelo.

    O Elastic-Net Regression combina uma penalidade Ridge Regression com a penalidade Lasso Regression e oferece o melhor dos dois mundos. Também funciona melhor com variáveis ​​correlacionadas.

  • Mínimos Quadrados Parciais (PLS)

    Os Mínimos Quadrados parciais consideram tanto as variáveis ​​explicativas quanto as dependentes. O princípio subjacente a este tipo de Regressão é que as variáveis ​​x e y passam por decomposição em estruturas latentes em um processo iterativo.

    O PLS pode lidar com multicolinearidade. Ele leva em consideração as estruturas de dados relacionadas a x e y, fornecendo resultados visuais elaborados para a interpretação dos dados. Várias variáveis ​​podem ser consideradas.

  • Regressão de vetores de suporte

    O Support Vector Regression (SVR) é um algoritmo que trabalha com uma função contínua. É em contraste com a Support Vector Machine, neste sentido, que a Support Vector Machine (SVM) lida com problemas de classificação. SVR prevê variáveis ​​ordenadas contínuas.

    Na regressão simples, a ênfase deve estar na minimização do erro, enquanto a regressão do vetor de suporte descobre o limite do erro.

  • Regressão Ordinal

    A Regressão Logística lida com duas categorias, mas na Regressão Ordinal (também conhecida como Regressão Logística Ordinal), três ou mais categorias entram em jogo com a suposição de ordenação inequívoca.

    A regressão ordinal ajuda a prever uma variável dependente ordinal quando uma ou mais variáveis ​​independentes estão presentes.

  • Regressão de Poisson

    Na regressão de Poisson, a contagem ou taxa na qual o evento ocorre é o principal ponto de foco.

    Medimos a taxa na qual o evento ocorre na Regressão de Poisson. Em outras palavras, modelamos o número de vezes que o evento ocorre (contagem) ao longo do tempo. Na regressão de Poisson, o tempo é constante e medimos a contagem do evento.

  • Regressão Binomial Negativa

    É útil modelar o conjunto de dados discreto (contagem). Na mesma nota, a Regressão Binomial Negativa ajuda quando os dados têm uma variância mais alta em comparação com a média, ou seja, a dispersão dos dados é demais quando você os plota.

    O Modelo Binomial Negativo não assume que a variável é igual à média como faz o modelo baseado na Regressão de Poisson.

  • Regressão Quase Poisson

    A Regressão Quasi Poisson é a generalização da Regressão de Poisson. Como mencionado anteriormente, o Modelo de Regressão de Poisson depende de uma suposição geralmente injusta de que a variância é igual à média.

    O Modelo Quasi Poisson entra em jogo quando a variância é a função linear da média, e também é maior que a média. É o cenário em que Quasi Poisson é mais adequado para ser aplicado.

  • Regressão de Cox

    A Regressão de Cox (também conhecida como Regressão de Riscos Proporcionais) investiga os efeitos de várias variáveis ​​durante o tempo que um determinado evento leva para ocorrer.

    Considere os seguintes eventos em que a Regressão de Cox pode ser útil,

    • O tempo que levou para um segundo ataque cardíaco após o primeiro ataque cardíaco.
    • O tempo que levou para o segundo acidente após o primeiro acidente.
    • O tempo que levou após a detecção do câncer até a morte.

    Os dados de tempo até o evento são vitais para a aplicação da regressão cox.

  • Regressão de Tobit

    A Regressão de Tobit é útil na estimativa de uma relação linear quando a censura é encontrada na variável dependente. A censura é a observação de todas as variáveis ​​independentes. A conta real do valor da variável dependente está apenas em uma faixa restrita de observações.

  • Regressão Bayesiana

    A Regressão Bayesiana é baseada na distribuição de probabilidade e não na estimativa pontual. Como resultado, a saída ou o “y” não é um valor único. É uma distribuição de probabilidade. Como sabemos que a distribuição de probabilidade é uma função matemática e não um valor. A distribuição de probabilidade fornece resultados possíveis em um experimento.

    Quando compomos a formulação do modelo de regressão linear baseado na distribuição de probabilidade, obtemos a seguinte expressão.
    y ˜ N(β^TX,σ^2 I)

    • A saída (y) é calculada a partir de uma Distribuição Gaussiana normal dependendo da média e da variância.
    • A transposição (T) da matriz de pesos (β) é obtida multiplicando-a pela matriz preditora (X).
    • A variância é o desvio padrão ao quadrado (σ^2 ) multiplicado pela matriz Identidade (I).

    (A formulação multidimensional do modelo está sendo considerada)

  • Regressão do Mínimo Desvio Absoluto (LAD)

    O Mínimo Desvio Absoluto é a alternativa mais conhecida ao método dos Mínimos Quadrados para analisar os modelos lineares. Sabemos que no método dos mínimos quadrados minimizamos a soma dos quadrados dos erros, mas no LAD minimizamos a soma dos valores absolutos dos erros. Ele tenta encontrar uma função que se ajuste de perto a um conjunto de dados.

    Em um caso em que nossos dados são simples, o Mínimo Desvio Absoluto é uma linha reta no Plano Cartesiano bidimensional.

    A formulação do Mínimo Absoluto é muito simples de entender. Vamos supor que nosso conjunto de dados consiste em dois pontos variáveis ​​( (x_i ,y_i) e o i=1,2,3,4,5……n.

    Nosso objetivo é encontrar uma função f tal que seja aproximadamente igual a (~) como mostrado abaixo.

    f(x_i ) ~ y_i

    A afirmação é que a função f é de uma forma específica contendo alguns parâmetros que precisamos calcular. O ponto a ser observado aqui é que a função f pode ter um número de x parâmetros (ou variáveis ​​independentes ou variáveis ​​explicativas).

    Tentaremos descobrir os valores dos parâmetros que minimizarão a seguinte soma dos valores absolutos dos erros (ou resíduos).
    S = ∑_(i=1)^n▒〖|y_i〗-f(x_(i))

  • Regressão Ecológica

    A Regressão Ecológica é instrumental principalmente em assuntos como ciências políticas e história. A técnica nos permite fazer contagens em um nível macro e fazer previsões em um nível micro.

    A Regressão Ecológica pode determinar o comportamento eleitoral de indivíduos entre diferentes facções e grupos de sociedades. A estimativa é baseada em dados coletados de contas anteriores.

    Os dados ecológicos são baseados em contagens em uma determinada região, grupos, objetos ou, ao longo do tempo. Em suma, os dados agregados nos ajudam a aprender sobre o comportamento restrito aos indivíduos.

Para que serve a análise de regressão?

A análise de regressão é útil na obtenção de diversos objetivos de negócios.

  • Análise Preditiva

    Uma das aplicações mais destacadas é a análise preditiva que permite a previsão de eventos empresariais específicos com mais precisão. Um tipo de análise preditiva é a “análise de demanda”, que mede o aumento nas vendas de um produto. O sucesso de um produto recém-lançado, assim como os produtos em execução, podem ser posicionados corretamente no mercado.

    Como outro exemplo, a Análise de Regressão tem aplicações na propaganda de produtos e serviços. É previsível com a Análise de Regressão que quantos compradores provavelmente encontrarão um anúncio. Ele ajuda os profissionais de vendas e marketing a definir o valor do lance de materiais promocionais.

    A Análise de Regressão também é uma ferramenta útil para as companhias de seguros. As companhias de seguros o utilizam para descobrir o crédito dos segurados e estimar o número de sinistros que provavelmente serão apresentados por seus clientes.

  • Eficiência operacional

    As organizações tomam decisões sérias usando a Análise de Regressão para otimizar suas operações.

    Decisões baseadas em dados podem descartar decisões questionáveis, suposições imprecisas com intuição e políticas corporativas.

    A Análise Regressiva está convertendo a arte da administração em ciência. Como exemplo, é possível relacionar o tempo de espera de um chamador com o número de reclamações em uma central de atendimento ou atendimento ao cliente.

  • Apoio à tomada de decisão

    As organizações hoje têm muitos dados relacionados a finanças, marketing, operações e muitos outros departamentos. Os principais tomadores de decisão estão se inclinando mais para a análise de dados e a ciência de dados para tomar decisões mais informadas com a eliminação de suposições.

    Com a ajuda da Análise de Regressão, o big data pode sofrer compressão para obter informações enxutas orientadas para a ação, abrindo o caminho para uma tomada de decisão mais precisa. A análise de regressão não remove ou substitui gerentes; em vez disso, coloca uma ferramenta poderosa em suas mãos para tomar decisões mais impactantes e eficientes do que nunca.

  • Correção de erros

    A Análise de Regressão também ajuda a identificar erros intuitivos no julgamento e na tomada de decisões dos gerentes de negócios.

    Como exemplo, um gerente de loja pode decidir manter a loja aberta durante a noite para a qual decide contratar novos funcionários.

    A Análise de Regressão pode indicar com precisão que considerar as despesas do pessoal e o total de vendas que gera no período noturno não pode ter justificativa mútua. Assim, a aplicação quantitativa da Análise de Regressão permite descartar más tomadas de decisão.

  • Insights acionáveis

    As empresas entendem e reconhecem o valor dos dados e o que pode ser alcançado pelas técnicas de análise de regressão, mas muitas não conseguem converter esses dados em insights acionáveis. Gerar insights a partir de dados brutos não é uma tarefa fácil. Um relatório da Forrester afirma que 74% das empresas querem decidir com entradas de dados, mas apenas 29% conseguem obter análises que lhes permitem tomar decisões frutíferas.

    Um estudo de caso crítico do mundo dos negócios é a Konica Minolta. A Konica foi um dos fabricantes de câmeras de maior sucesso. Em 2000, a maioria dos fotógrafos e entusiastas de câmeras mudaram para câmeras digitais.

    O principal órgão de tomada de decisões da Konica não tomou decisões com rapidez suficiente, pois em 2004, quando a Konica lançou sua primeira câmera, a maioria dos concorrentes, como Nikon e Canon, se estabeleceram no mercado de novas câmeras digitais. Como resultado, em 2006, a empresa sofreu perdas tão pesadas que vendeu grande parte de sua tecnologia e ativos para a Sony.

    Se a Konica tivesse os insights dos dados brutos comerciais e de mercado processados ​​por meio de análise de regressão e técnicas semelhantes, a Konica teria sido capaz de tomar a decisão certa no momento certo.

    A análise de regressão de dados que fornece insights acionáveis ​​coloca o poder absoluto nas mãos dos tomadores de decisão que podem mudar o jogo no mundo real.

Como escolher o modelo de regressão correto?

Existem centenas de tipos de Regressões, e nós cobrimos os tipos mais populares.

O mundo real é muito complexo e os criadores do modelo medem muitas variáveis, mas incluem apenas algumas no modelo. Os analistas excluem as variáveis ​​independentes que têm muito pouco ou nenhum impacto na variável dependente ou no resultado.

Ao selecionar um modelo de regressão, deve-se ter em mente o seguinte fato simples para manter o equilíbrio, colocando o número correto de variáveis ​​independentes na equação de regressão.

  • Com poucas variáveis ​​independentes, o modelo não especificado torna-se viés.
  • Com muitas variáveis ​​independentes, o modelo não especificado perde sua precisão.
  • O modelo Just the Right é criado quando os termos matemáticos não são tendenciosos e são os mais precisos.

Pensamentos finais

A Análise de Regressão tem suas origens na estatística que é uma ciência de cem anos, mas recentemente ganhou destaque à medida que o big data está explodindo. A análise de regressão está encontrando seu caminho por meio de estatísticas em análise de dados, ciência de dados e suas aplicações em quase todas as organizações.

Os Modelos de Regressão criados com a Análise de Regressão são uma ferramenta indispensável para o fornecimento aprimorado de previsibilidade, eficiência operacional, tomada de decisão bem informada, prevenção de erros, prevenção de decisões erradas e melhores insights.

Outro recurso útil:

Importância da Análise de Regressão nos Negócios

O Guia Completo sobre Análise de Regressão