알아야 할 다양한 유형의 회귀 분석
게시 됨: 2020-03-05회귀 분석은 종속 변수와 단일 또는 다중 독립 변수 간의 관계를 설정하려고 시도하는 방법론입니다.
회귀는 기본적으로 통계적 개념이지만 금융, 투자, 주식 시장과 같은 많은 비즈니스 관련 분야와 과학 및 엔지니어링과 같은 분야에서 응용 프로그램을 찾고 있습니다.
인류의 미래를 표시하는 데이터 과학, 기계 학습 및 인공 지능의 형태로 회귀 분석의 일부 떠오르는 응용 프로그램이 있습니다.
- 용어
- 다양한 유형의 회귀 분석
- 그것은 무엇을 위해 사용됩니까?
- 올바른 모델을 선택하는 방법
회귀와 관련된 용어
회귀 분석의 유형을 이해하려면 관련 용어를 이해하는 것이 유용합니다.
이상치
이상치는 그래프의 데이터 플롯으로 볼 수 있습니다. 회귀 분석(1)에서 이상치는 다른 점으로 구성된 구름 외부에 크게 떨어지는 그래프의 점입니다. 이상치 포인트는 회귀 분석의 결과에 큰 영향을 미칠 수 있기 때문에 필수적입니다. 이 개념을 이해하기 위해 건물이 수입 측면에서 평균 재정적 배경을 가진 전문가로 채워져 있다고 가정해 보겠습니다.
이들의 연봉은 모두 1000만 달러에 이른다. 갑자기 Bill Gates와 Jeff Bezos가 건물에 들어서고 이 두 억만장자의 급여를 포함하면 평균 급여가 크게 부정확해집니다. 이 예에서 잘 알려진 두 신사의 급여는 이상값입니다.
다중공선성
회귀 분석에서 둘 이상의 입력 변수 간의 상관 관계를 살펴보면 하나 이상의 입력 변수가 추가될 때 모델이 현실 세계에 대해 더 투명하게 만드는 데 실패한다는 것을 관찰할 수 있습니다.
입력 변수가 서로 어떻게 관련되어 있는지 알아내는 것이 중요합니다. 회귀 모델의 다중 공선성을 측정하는 것은 입력 변수 간의 관계를 찾는 방법입니다. 예를 들어, 찾고자 하는 모델을 만날 수 있습니다. 특정 연령에서 개인의 급여를 결정하는 요소. 학력, 연령 및 개인의 평균 급여에 영향을 미치는 기타 여러 요인과 같은 독립 변수(요인)가 고려됩니다.
그러나 더 나아가서 모델의 모든 요소를 태양 아래에 던지기 전에 그것들이 어떻게 상관되는지(상호 연관) 알아야 합니다. 다중공선성이 너무 높으면 데이터 교란이 발생하고 모델이 붕괴됩니다.
이분산성
이분산성(때로는 이분산성이라고도 함)은 주어진 시간 동안 측정된 변수의 표준 오차(SE) 판독값이 일정하지 않을 때 발생합니다.
이분산성을 나타내는 데이터에서 실행되는 회귀 분석은 최소한 편향된 계수를 제공하고 결과를 망칩니다.
과적합
회귀 분석에서 과적합은 변수 간의 관계를 효율적으로 설명하기보다 변수가 무작위 오류를 보이기 시작할 때 발생합니다. 과적합은 모집단의 실제 표현보다 많은 노이즈를 생성합니다. 모델의 결과는 더 이상 현실적이지 않습니다. 가능한 한 현실에 가깝게 모델을 만들어야 합니다. 실제 세계에서 의상을 입는 예입니다. 실제 사례에서 의상을 설명하는 가장 좋은 단어는 "과도한 일반화"입니다. 오차나 편향이 커지면 현실적인 값을 결과로 결정할 수 없습니다.
언더피팅
과소적합은 변수의 수가 주어진 모델에 거의 적합하지 않고 출력이 정확하지 않을 때 발생합니다. 회귀분석에서 성공적인 결과를 얻으려면 변수의 최적값이 필요하므로 얻은 모델이 현실에 가깝습니다. 즉, 변수가 최적화되지 않거나 모델이 데이터에 효율적으로 적합하지 않은 경우라고 합니다. 언더핏.
회귀 분석 유형
모든 형태의 회귀에는 두 가지 유형의 변수가 있습니다. 하나는 독립 변수 또는 설명 변수라고도 하며 입력에 사용됩니다. 다른 유형의 변수는 예측 변수라고도 하는 종속 변수입니다. 찾으려는 값 또는 모델의 결과입니다.
다음은 다양한 유형의 회귀 분석에 대해 설명합니다.
선형 회귀
선형 회귀는 두 가지 유형의 변수를 다룹니다. 하나의 변수를 독립변수라고 하고 다른 종류의 변수를 종속변수라고 합니다.
독립변수는 데카르트 평면의 x축을 따라 변하고 종속변수는 y축을 따라 변합니다. 이러한 변수는 각각 "x" 및 "y"입니다. y의 값은 x에 따라 다릅니다. x가 변경되면 "y"가 증가하거나 감소합니다.
선형 회귀에는 두 가지 유형이 있습니다.- 단순 선형 회귀
- 다중 선형 회귀
- 단순 선형 회귀: 단순 선형 회귀에는 하나의 종속 변수와 하나의 종속 변수만 있습니다.
단순 선형 회귀 방정식은 y=β_0+β_1 x여기서 x는 독립 변수를 나타내고 는 회귀선의 기울기이며 는 y 절편입니다. "y"는 종속 변수 또는 결과입니다.
- 다중 선형 회귀: 다중 선형 회귀에서 종속 변수는 하나이지만 여러 독립 변수가 있습니다.
다음 방정식은 다중 선형 회귀를 나타냅니다. y= β_0+β_1 x_1+⋯β_n x_n+ ε여기서 y는 종속 변수이고 는 y절편입니다. 모델의 다중 독립 변수를 나타냅니다. "편향" 또는 "오차"입니다. 실제 상황에 가까운 모델을 만들기 위해 편향이나 오류를 최소화하는 것이 우리의 주요 목표입니다.
다변수 회귀
다변수 회귀는 다중 독립 변수의 입력과 함께 다중 종속 변수가 있다는 점에서 다중 선형 회귀와 다릅니다. 종속 변수( y_1,y_2 ,y_3 …. y_n)는 다른 공식에 있습니다. 그리고 Y를 예측하기 위한 하나 이상의 독립 변수( x_1, x_2, ….x_m )가 있습니다. 다변수 회귀 분석에서 사용되는 데이터는 대부분 다른 유형의 회귀 분석에서와 같은 유형입니다.
물류 회귀
로지스틱 회귀는 선형 회귀 다음으로 가장 많이 사용되는 회귀 형식이며 생물 통계학, 의학 및 사회 과학에 걸쳐 사용됩니다.
물류 회귀는 다음과 같은 부울 값을 처리합니다.- 참 또는 거짓
- 예 혹은 아니오
- 크거나 작거나
- 1 또는 0
물류 회귀는 이메일이 "스팸" 또는 "스팸 아님"과 같은 개체 분류에 사용됩니다.
간단히 말해서, 로지스틱 회귀에는 "True" 또는 "False"일 수 있는 하나의 출력이 있습니다. 또한 물류 회귀 모델에는 단일 입력 또는 다중 입력이 있을 수 있습니다.
다항식 회귀
관계가 비선형인 변수를 다루어야 하는 경우가 있습니다. 이 경우 우리의 모델은 선형 회귀와 달리 선이 아닌 곡선입니다. 따라서 다항식 회귀로 알려진 또 다른 형태의 회귀가 있습니다.
다항식 회귀 방정식은 입력 변수 x의 오름차순 거듭제곱이며 일반화는 아래와 같습니다.
y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε
분위수 회귀
분위수 회귀 정의는 실제 정의와 매우 다릅니다. 분위수는 통계에서 중앙값의 또 다른 이름입니다.
분위수는 출력 데이터를 동일한 두 부분으로 나누는 점 또는 선입니다. y축에 선 형태의 데이터 세트가 있다고 상상해 보십시오. 데이터 세트는 정확히 두 개의 동일한 조각으로 나뉩니다. 분위수 값은 분할 시점에서 0.5 또는 50%입니다.
같은 메모에서 동일하게 분할된 두 데이터 조각은 y축을 따라 다시 동일하게 분할됩니다. 이번에는 데이터를 4개의 동일한 부분으로 분할했으며 그래프의 아래쪽 y축에 있는 새로운 분할 지점은 0.25 또는 25%입니다.
마찬가지로 상위 y축 분할 분위수는 0.75 또는 75%입니다. 일반적으로 분위수는 데이터를 동일한 청크 또는 그룹으로 분할하는 선 또는 점입니다.
Quantile은 동일한 크기의 100개 그룹으로 데이터를 분할합니다. 그러나 실제 세계에서는 분위수의 정의가 훨씬 더 유연합니다.
분위수 회귀는 모델에 높은 이분산성이 있을 때 유용하고 선형 모델은 평균 값에 의존하고 분위수는 중앙값으로 더 정확할 수 있기 때문에 선형 회귀는 결과를 예측할 만큼 정확하지 않습니다.
능선 회귀
능선 회귀는 "정규화"라고 하는 기술을 사용합니다. 정규화는 테스트 데이터에서는 실패했지만 훈련 데이터는 전달하는 모델에 적합합니다.
릿지 회귀는 모델에 있는 대부분의 변수가 유용할 때 가장 잘 작동합니다.
샘플 데이터가 다중 공선성을 보일 때 두 가지 원치 않는 일이 발생합니다.
- 예측 변수 계수의 최소 제곱 추정은 높은 오류를 제공합니다.
- 표준 오차에는 인플레이션이 있습니다.
릿지 회귀는 다중 공선성이 있는 경우 회귀 계수를 안정화하는 기술입니다.
올가미 회귀
올가미는 "최소 절대 수축 및 선택 연산자"를 나타냅니다. 올가미 회귀는 쓸모없는 변수가 많을 때 가장 잘 수행됩니다. 올가미 회귀는 릿지 회귀와 유사하지만 몇 가지 차이점이 있습니다.
능선 회귀 및 올가미 회귀는 다중 공선성이 존재하는 동일한 시나리오에 적용됩니다. 그러나 릿지 회귀는 장기 예측에 적합합니다.
올가미 회귀는 데이터에 축소를 적용합니다. 데이터 값은 중앙값 또는 평균과 같은 중심점을 향해 축소됩니다.
데이터 모델의 단순화와 희소성은 올가미 회귀가 가장 잘하는 기능입니다. 즉, 데이터 모델은 정확한 결과를 위한 최적의 매개변수를 가져야 합니다.
주성분 회귀분석(PCR)
주성분 분석에는 데이터의 차원을 줄이는 x 변수에 대한 응용 프로그램이 있습니다. 여기에는 반복 프로세스에서 가장 많은 변형이 있는 데이터 세트의 추출이 포함됩니다.
프로세스가 반복적이어서 다차원 데이터 세트를 분석할 수 있기 때문에 주성분 회귀는 일반 최소 제곱 회귀에 존재하는 차원 및 공선성 문제를 극복합니다.
탄력적 순 회귀
Elastic Net Regression은 해석의 용이성을 위해 모델을 단순화합니다. 모델에는 수많은 변수(매개변수라고도 함)가 있을 수 있습니다. 특정 모델에서 최대 수백만 개에 이를 수 있습니다. 그러한 모델에서는 어떤 변수가 유용하고 어떤 것이 쓸모가 없는지 결정할 수 없습니다.
이러한 경우 능선 회귀 및 올가미 회귀 중에서 어떤 회귀 유형을 선택해야 할지 모릅니다. 여기에서 모델을 단순화하기 위해 Elastic Net Regression이 작동합니다.
Elastic-Net Regression은 Ridge Regression 패널티와 Lasso Regression 패널티를 결합하여 두 가지 장점을 모두 제공합니다. 또한 상관 변수와 함께 더 잘 작동합니다.
부분 최소 제곱(PLS)
부분 최소 제곱은 설명 변수와 종속 변수를 모두 고려합니다. 이 회귀 유형의 기본 원리는 x 및 y 변수가 반복 프로세스에서 잠재적 구조로 분해된다는 것입니다.
PLS는 다중 공선성을 처리할 수 있습니다. x 및 y와 관련된 데이터 구조를 고려하여 데이터 해석을 위한 정교한 시각적 결과를 제공합니다. 여러 변수를 고려할 수 있습니다.
지원 벡터 회귀
SVR(Support Vector Regression)은 연속 함수와 함께 작동하는 알고리즘입니다. 이러한 의미에서 Support Vector Machine(SVM)이 분류 문제를 다루는 것은 Support Vector Machine과 대조됩니다. SVR은 연속 순서 변수를 예측합니다.
단순 회귀에서는 지원 벡터 회귀가 오류의 임계값을 찾는 동안 오류를 최소화하는 데 중점을 두어야 합니다.
순서 회귀
Logistics Regression은 두 가지 범주를 처리하지만 Ordinal Regression(일명 Ordinal Logistics Regression)에서는 명확한 순서를 가정하고 세 개 이상의 범주가 사용됩니다.
순서 회귀는 하나 이상의 독립 변수가 있을 때 순서 종속 변수를 예측하는 데 도움이 됩니다.
포아송 회귀
포아송 회귀에서 이벤트가 발생하는 횟수 또는 비율이 주요 초점입니다.
Poisson Regression에서 이벤트가 발생하는 비율을 측정합니다. 즉, 시간 경과에 따라 이벤트가 발생한 횟수(카운트)를 모델링합니다. 포아송 회귀에서 시간은 일정하고 이벤트의 개수를 측정합니다.
음의 이항 회귀
이산(개수) 데이터 세트를 모델링하는 것이 유용합니다. 같은 메모에서 음의 이항 회귀는 데이터가 평균에 비해 분산이 더 높을 때 도움이 됩니다. 즉, 데이터를 플로팅할 때 분산이 너무 많습니다.
음의 이항 모델은 포아송 회귀에 기반한 모델이 만드는 것처럼 변수가 평균과 같다고 가정하지 않습니다.
준 푸아송 회귀
준 푸아송 회귀는 푸아송 회귀의 일반화입니다. 이전에 언급했듯이 푸아송 회귀 모델은 분산이 평균과 같다는 일반적으로 불공정한 가정에 의존합니다.
유사 포아송 모델은 분산이 평균의 선형 함수이고 평균보다 높을 때 작동합니다. Quasi Poisson이 적용하기에 더 적합한 시나리오입니다.
콕스 회귀
Cox 회귀(일명 비례 위험 회귀)는 지정된 이벤트가 발생하는 데 걸리는 시간 동안 여러 변수의 영향을 조사합니다.
Cox 회귀 분석이 유용한 다음 이벤트를 고려하십시오.
- 첫 번째 심장마비 후 두 번째 심장마비까지 걸린 시간입니다.
- 첫 번째 사고 이후 두 번째 사고까지 걸린 시간입니다.
- 암 발견 후 사망까지 걸린 시간.
이벤트까지의 시간 데이터는 콕스 회귀 분석의 적용에 매우 중요합니다.
토빗 회귀
Tobit 회귀 분석은 종속 변수에서 중도절단이 발견될 때 선형 관계를 추정하는 데 유용합니다. 중도절단은 모든 독립 변수의 관찰입니다. 종속 변수 값의 실제 설명은 제한된 관찰 범위에만 있습니다.
베이지안 회귀
베이지안 회귀는 점 추정보다는 확률 분포를 기반으로 합니다. 결과적으로 출력 또는 "y"는 단일 값이 아닙니다. 확률분포입니다. 확률 분포는 값이 아니라 수학 함수라는 것을 알고 있습니다. 확률 분포는 실험에서 가능한 결과를 제공합니다.
확률분포를 기반으로 선형회귀모형의 공식을 구성하면 다음과 같은 식을 얻는다.
y ~ N(β^TX,σ^2 나)- 출력(y)은 평균과 분산에 따라 일반 가우스 분포에서 계산됩니다.
- 가중치 행렬(β)의 전치(T)는 예측 행렬(X)과 곱하여 얻습니다.
- 분산은 표준 편차의 제곱(σ^2 )에 단위 행렬(I)을 곱한 것입니다.
(모델의 다차원 공식화 검토 중)
최소 절대 편차(LAD) 회귀
최소 절대 편차는 선형 모델을 분석하기 위해 최소 제곱 방법에 대한 가장 널리 알려진 대안입니다. 최소 제곱법에서는 제곱 오차의 합을 최소화하지만 LAD에서는 오차의 절대값 합을 최소화한다는 것을 알고 있습니다. 데이터 집합에 가장 잘 맞는 함수를 찾으려고 합니다.
데이터가 단순한 경우 최소 절대 편차는 2차원 데카르트 평면에서 직선입니다.
최소 절대값의 공식은 이해하기 매우 간단합니다. 데이터 세트가 두 개의 변수 포인트( (x_i ,y_i)와 i=1,2,3,4,5…
우리의 목표는 아래와 같이 (~)와 거의 같은 함수 f를 찾는 것입니다.
f(x_i) ~ y_i
주장은 함수 f가 우리가 계산해야 하는 일부 매개변수를 포함하는 특정 형식이라는 것입니다. 여기서 주목해야 할 점은 함수 f가 I개의 x 매개변수(또는 독립 변수 또는 설명 변수)를 가질 수 있다는 것입니다.
우리는 오차(또는 잔차)의 절대값의 다음 합을 최소화할 매개변수의 값을 찾으려고 시도할 것입니다.
S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i) )생태 회귀
생태학적 회귀는 주로 정치 과학 및 역사와 같은 주제에서 유용합니다. 이 기술을 사용하면 거시적 수준에서 계산하고 미시적 수준에서 예측할 수 있습니다.
생태 회귀는 다른 파벌과 사회 그룹 사이에서 개인의 투표 행동을 결정할 수 있습니다. 추정치는 이전 계정에서 수집된 데이터를 기반으로 합니다.
생태학적 데이터는 특정 지역, 그룹, 개체 또는 시간 경과에 따른 개수를 기반으로 합니다. 요컨대, 집계 데이터는 개인으로 좁혀진 행동에 대해 배우는 데 도움이 됩니다.
회귀 분석은 무엇에 사용됩니까?
회귀 분석은 여러 비즈니스 목표를 달성하는 데 유용합니다.
예측 분석
가장 눈에 띄는 애플리케이션 중 하나는 특정 비즈니스 이벤트를 보다 정확하게 예측할 수 있는 예측 분석입니다. 예측 분석의 한 유형은 제품 판매 증가를 측정하는 "수요 분석"입니다. 새로 출시된 제품과 실행 중인 제품의 성공은 시장에서 올바르게 포지셔닝될 수 있습니다.
또 다른 예로 회귀 분석에는 제품 및 서비스 광고에 응용 프로그램이 있습니다. 회귀 분석을 통해 얼마나 많은 구매자가 광고를 접할 가능성이 있는지 예측할 수 있습니다. 영업 및 마케팅 전문가가 판촉 자료의 입찰가를 설정하는 데 도움이 됩니다.
회귀 분석은 보험 회사에 유용한 도구이기도 합니다. 보험 회사는 이를 사용하여 보험 계약자의 신용을 파악하고 고객이 제기할 수 있는 청구 건수를 추정합니다.
운영 효율성
조직은 회귀 분석을 사용하여 운영을 최적화하는 중대한 결정을 내립니다.
데이터 기반 결정은 의심스러운 결정, 직감에 따른 부정확한 추측, 기업 정치를 배제할 수 있습니다.
회귀 분석은 관리 기술을 과학으로 전환하고 있습니다. 예를 들어 발신자의 대기 시간을 콜센터나 고객 관리 부서의 불만 건수와 연관시킬 수 있습니다.
의사결정 지원
오늘날 조직에는 재무, 마케팅, 운영 및 기타 여러 부서와 관련된 많은 양의 데이터가 있습니다. 최고 의사 결정권자는 추측을 없애고 정보에 입각한 의사 결정을 내리기 위해 데이터 분석 및 데이터 과학에 더 많이 의존하고 있습니다.
회귀 분석의 도움으로 빅 데이터는 보다 정확한 의사 결정으로 가는 길을 열어주는 행동 지향적 린 정보를 위해 압축될 수 있습니다. 회귀 분석은 관리자를 제거하거나 대체하지 않습니다. 대신, 그 어느 때보다 영향력 있고 효율적인 결정을 내릴 수 있는 강력한 도구를 제공합니다.
오류 수정
회귀 분석은 또한 비즈니스 관리자의 판단 및 의사 결정에서 직관적인 오류를 식별하는 데 도움이 됩니다.
예를 들어, 상점 관리자는 새 직원을 고용하기로 결정한 야간 시간에 상점을 계속 열어두기로 결정할 수 있습니다.
회귀 분석은 직원의 비용과 야간에 발생하는 총 매출을 고려하면 상호 정당화될 수 없음을 정확하게 나타낼 수 있습니다. 따라서 회귀 분석을 정량적으로 적용하면 잘못된 의사 결정을 배제할 수 있습니다.
실행 가능한 통찰력
기업은 데이터의 가치와 회귀 분석 기법으로 달성할 수 있는 것을 이해하고 인정하지만 많은 기업이 이 데이터를 실행 가능한 통찰력으로 전환하지 못합니다. 원시 데이터에서 인사이트를 도출하는 것은 쉬운 일이 아닙니다. Forrester의 보고서에 따르면 74%의 기업이 데이터 입력으로 결정하기를 원하지만 29%만이 유익한 결정을 내릴 수 있는 분석을 얻는 데 성공합니다.
비즈니스 세계의 중요한 사례 연구 중 하나는 Konica Minolta입니다. Konica는 가장 성공적인 카메라 제조업체 중 하나였습니다. 2000년에 대부분의 사진가와 카메라 애호가는 디지털 카메라로 전환했습니다.
Konica의 최고 의사 결정 기관은 Konica가 첫 번째 카메라를 출시한 2004년까지 충분히 빠른 결정을 내리지 못했습니다. Nikon 및 Canon과 같은 대부분의 경쟁업체는 새로운 디지털 카메라 시장에서 확고한 입지를 다졌습니다. 그 결과 2006년 회사는 막대한 손실을 입었고 기술과 자산의 대부분을 Sony에 매각했습니다.
Konica가 회귀 분석 및 유사한 기술을 통해 처리된 원시 상업 및 시장 데이터에서 통찰력을 가지고 있었다면 Konica는 적시에 올바른 결정을 내릴 수 있었을 것입니다.
실행 가능한 통찰력을 제공하는 데이터 회귀 분석은 현실 세계의 판도를 바꿀 수 있는 의사 결정권자의 손에 완전한 힘을 부여합니다.
올바른 회귀 모델을 선택하는 방법은 무엇입니까?
회귀에는 수백 가지 유형이 있으며 가장 인기 있는 유형을 다뤘습니다.
현실 세계는 매우 복잡하고 모델 작성자는 많은 변수를 측정하지만 모델에는 몇 가지만 포함합니다. 분석가는 종속 변수 또는 결과에 거의 또는 전혀 영향을 미치지 않는 독립 변수를 제외합니다.
회귀 모델을 선택할 때 회귀 방정식에 올바른 수의 독립 변수를 넣어 균형을 유지하려면 다음과 같은 간단한 사실을 염두에 두어야 합니다.
- 독립변수가 너무 적으면 지정되지 않은 모델이 편향이 됩니다.
- 너무 많은 독립 변수, 지정되지 않은 모델은 정밀도를 잃습니다.
- 올바른 모델은 수학 용어가 편향되지 않고 가장 정확할 때 생성됩니다.
마지막 생각들
회귀분석은 100년 역사의 통계학에서 출발했지만 최근 빅데이터가 폭발하면서 주목받고 있다. 회귀 분석은 거의 모든 조직에서 데이터 분석, 데이터 과학 및 해당 응용 프로그램의 통계를 통해 방법을 찾고 있습니다.
회귀 분석으로 생성된 회귀 모델은 예측 가능성, 운영 효율성, 정보에 입각한 의사 결정, 오류 방지, 잘못된 결정 방지 및 더 나은 통찰력 제공을 위한 필수 도구입니다.
기타 유용한 리소스:
비즈니스에서 회귀 분석의 중요성
회귀 분석에 대한 완전한 가이드