단순 회귀 분석이란 무엇입니까? - 가이드
게시 됨: 2020-08-06단순회귀분석 은 비즈니스에서 다양한 용도로 활용될 수 있다는 사실을 알고 계십니까? 사실, 미래의 기회와 위험을 예측하는 것은 비즈니스에서 회귀 분석의 주요 응용 프로그램 중 하나입니다. 또한 기업은 선형 회귀 모델을 사용하여 방대한 양의 원시 데이터를 실행 가능한 정보로 줄여 비즈니스 프로세스를 최적화합니다.
- 단순 회귀 분석 정의
- 단순 선형 회귀 모델
- 수행 방법
- 알아야 할 주요 부분
- 단순 선형 회귀의 가정
- 단순 선형 회귀 분석의 예
- 제한 사항
단순회귀분석이란?
기본적으로 단순회귀분석 은 과거에 수행된 관찰을 기반으로 단일 독립변수와 단일 종속변수 간의 관계를 정량화하는 데 사용되는 통계적 도구입니다. 평신도의 해석에서 이것이 의미하는 바는 조직의 생산 기계(독립 변수)의 시간 변화가 결과적으로 조직의 전기 비용을 어떻게 변화시키는지를 입증하는 데 간단한 선형 회귀 분석을 활용할 수 있다는 것입니다. .
단순 선형 회귀 모델
기본적으로 단순선형회귀모형은 단순회귀식과 같은 값으로 표현할 수 있다.
y = β 0 + β 1 X+ ε.
단순 선형 회귀 모델에서는 하나의 독립 변수와 종속 변수 간의 모델링을 고려합니다. 일반적으로 선형 회귀 모델에 단일 독립 변수가 있는 경우 모델을 일반적으로 단순 선형 회귀 모델이라고 합니다. 하나 이상의 독립 변수가 있을 때 다중 선형 회귀 모델이 된다는 점을 염두에 두십시오.
단순 선형 회귀 모델에서 y는 연구 또는 종속 변수를 나타내고 X는 설명 또는 독립 변수를 나타냅니다. 표현식 β 0 및 β 1 은 선형 회귀 모델의 매개변수입니다. β 0 매개변수는 절편 항으로 간주되고 β 1 매개변수는 기울기 매개변수로 간주됩니다. 이러한 매개변수의 일반 용어는 회귀 계수로 알려져 있습니다.
'ε'이라는 표현은 데이터가 직선을 유지할 수 없는 것을 설명하는 관찰할 수 없는 오류입니다. 또한 'y'의 관찰된 실현과 실제 실현 사이의 변동을 나타냅니다.
이러한 차이점에는 여러 가지 이유가 있습니다. 예를 들어, 변수는 관찰에서 고유한 무작위성이고 정성적일 수 있으며 모델에서 삭제된 모든 변수의 영향도 차이에 기여합니다. 따라서 ε은 평균이 0이고 분산이 일정한 q²를 갖는 독립적이고 동일하게 분포된 랜덤 변수로 관찰된다고 가정합니다. 이어서 ε이 정규분포를 한다고 가정한다.
선형 회귀 모델의 독립 변수는 실험자가 통제하는 것으로 보입니다. 이것이 비확률적(non-stochastic)으로 간주되는 반면 y는 다음과 같은 확률 변수로 간주되는 이유입니다.
E(y) = β 0 + β 1 X. 및
변수(y) = q²
어떤 경우에는 X가 확률 변수로 기능할 수 있습니다. 이러한 상황에서 y의 표본 분산과 표본 평균보다는 X = x가 다음과 같이 제공된 y의 조건부 평균에 대해 고려할 것입니다.
ε(y) = β0 및 β1
y의 조건부 분산은 X = x를 다음과 같이 제공했습니다.
변수(y|x) = q².
따라서 단순회귀분석 모델은 β 0 , β 1 , q² 의 값을 알 때 완전하게 표현됩니다. 일반적으로 매개변수 β 0 , β 1 및 q²는 실제로 알려져 있지 않으며 ε은 관찰되지 않습니다. 따라서 통계 모델 y = β 0 + β 1 X + ε의 결정은 β 0 , β 1 및 q²의 결정(즉, 추정)을 기반으로 함을 알 수 있습니다. 이러한 매개변수의 값을 확인하기 위해 (X, y)에 대한 n 쌍의 관찰(x, y)( = 1,…, n)이 관찰/수집되고 이러한 미지의 매개변수를 결정하는 데 사용됩니다.
대체로 매개변수의 추정치를 결정하는 데 다양한 추정 방법을 사용할 수 있습니다. 가장 널리 사용되는 방법은 최소 제곱 추정과 최대 가능도 추정 방법입니다.
단순 회귀 분석을 수행하는 방법
사람들이 단순 회귀 분석을 수행하는 가장 일반적인 방법은 통계 프로그램을 사용하여 데이터를 빠르게 분석하는 것입니다.
R에서 단순 선형 회귀 수행
R은 단순 선형 회귀 분석을 수행하는 데 사용되는 통계 프로그램입니다. 널리 사용되며 강력하며 무료입니다. 작동 방식은 다음과 같습니다.
먼저 income.data 데이터 세트를 R 환경에 로드해야 합니다. 그런 다음 아래 명령을 실행하여 행복과 소득 간의 관계를 보여주는 라이브러리 모델을 만듭니다.
일부 선형 회귀에 대한 R 코드
income.happiness.lm <- lm(행복~수입, 데이터 = 수입.데이터)
기본적으로 이 코드는 수집된 데이터 "data = income.data"를 가져온 다음 선형 모델에 대한 방정식인 lm()을 사용하여 독립 변수 "income"이 종속 변수 "happiness"에 미치는 영향을 평가합니다.
결과를 해석하는 방법
모델의 결과를 보려면 R의 "summary()" 함수를 사용할 수 있습니다.
요약(수입.행복.lm)
이 함수가 하는 일은 선형 모델에서 가장 중요한 매개변수를 가져와 테이블에 배치하는 것입니다.
이 결과 테이블은 처음에 결과 생성('호출')에 사용된 공식을 반복합니다. 그런 다음 모델 잔차('잔차')를 요약합니다. 이렇게 하면 모델이 원본 데이터에 얼마나 적절하게 맞는지에 대한 통찰력을 제공하는 데 도움이 됩니다.
그런 다음 '계수' 테이블로 이동합니다. 첫 번째 행은 y절편의 추정치를 제공하고 두 번째 행은 모델의 회귀 계수를 제공합니다.
테이블의 첫 번째 행에는 "(절편)"이라는 레이블이 지정됩니다. 이것은 0.20의 값을 갖는 회귀 방정식의 y절편입니다. 분석한 소득 범위에 걸쳐 행복의 가치를 예측하려면 이것을 회귀 방정식에 통합할 수 있습니다.
행복 = 0.20 + 0.71*수입±0.018
'계수' 테이블의 다음 행은 소득입니다. 이 행은 보고된 행복에 대한 소득의 예상 효과를 설명합니다.
"추정" 열은 예상 효과입니다. r² 값 또는 회귀 계수라고도 합니다. 표의 숫자(0.713)는 소득이 1단위 증가할 때마다(소득 단위가 $10,000인 경우) 보고된 행복도(행복을 1의 척도로 간주)에 해당하는 0.71단위 증가가 있음을 알려줍니다. 10).
"Std. 오차” 열은 추정치의 표준 오차를 설명합니다. 이 숫자는 행복과 소득 간의 관계에 대한 추정치의 변동 수준을 보여줍니다.
테스트 통계는 "t 값" 열에 표시됩니다. 달리 지정하지 않으면 선형 회귀 분석에 사용된 검정 통계량이 양측 t-검정의 t-값으로 유지됩니다. 검정 통계량이 높을수록 결과가 우연히 발생할 확률이 낮아집니다.
"pr(>| t |)" 열은 p-값을 설명합니다. 이 그림은 효과가 없다는 귀무 가설이 정확할 경우 추정된 소득 효과가 행복에 미칠 확률을 보여줍니다.
p-값이 매우 낮기 때문에(p < 0.001) 귀무가설을 기각하고 소득이 행복에 통계적으로 유의한 영향을 미친다는 결론에 도달할 수 있습니다.
모델 요약의 마지막 세 줄은 모델 전체에 대한 통계입니다. 여기서 유념해야 할 가장 중요한 것은 모델의 p-값입니다. 여기에서 관련성이 높아집니다(p < 0.001). 이는 이 모델이 관찰된 데이터에 대한 표준 적합임을 의미합니다.
결과 발표
결과 보고서에 p-값, 추정치의 표준 오차 및 추정된 효과(즉, 회귀 계수)를 추가합니다. 또한 회귀 계수의 의미가 무엇인지 독자에게 생생하게 전달하기 위해 숫자를 해석해야 합니다.
결과
소득과 행복 사이에는 관련 관계(p < 0.001)가 있었으며(R² = 0.71±0.018), 소득이 $10,000 증가할 때마다 보고된 행복이 0.71단위 증가했습니다.
또한 결과와 함께 그래프를 추가하는 것이 좋습니다. 단순 선형 회귀 분석 의 경우 x 및 y축에 관측값을 표시하기만 하면 됩니다. 그런 다음 회귀 함수와 회귀선을 추가합니다.
단순 선형 회귀 공식
단순 선형 회귀 공식은 다음과 같습니다.
y = β 0 + β 1 + ε
단순 회귀 분석의 주요 부분
R²
이것은 연관성의 척도입니다. X 값을 이해하여 표시할 수 있는 Y 값의 분산 백분율을 나타내는 역할을 합니다. R²는 최소 0.0(분산이 전혀 설명되지 않는 경우)에서 최대 +1.0까지 다양합니다. (여기서 모든 분산이 설명됨).
세브
b에 등록된 값의 표준오차를 나타냅니다. 계수의 통계적 중요성에 대한 t-검정은 b 값을 표준 오차로 나누어 수행합니다. 경험에 따르면 2.0보다 높은 t-값은 일반적으로 통계적으로 관련이 있지만 확실하게 하려면 t-표를 참조해야 합니다.
t-값에 따라 b 계수가 통계적으로 관련이 있다는 표시가 있는 경우 이는 X의 독립 변수가 회귀 방정식에서 유보되어야 함을 의미합니다. 이는 특히 종속 변수 또는 Y와 통계적으로 관련이 있는 관계를 특징으로 하기 때문입니다. 관계가 통계적으로 관련이 없는 경우 'b 계수' 값은 0(통계적으로 말함)과 같을 것입니다.
에프
이것은 전체 회귀 방정식의 통계적 관련성에 대한 테스트입니다. 설명된 분산을 설명되지 않은 분산으로 나누어 생성됩니다. 경험의 법칙에 따르면 4.0보다 높은 모든 F 값은 통계적으로 가장 관련이 있습니다. 그럼에도 불구하고, 확실히 하기 위해서는 F-table을 참조해야 합니다. F가 관련이 있는 경우 회귀 방정식은 X와 Y 사이의 관계를 아는 데 도움이 됩니다.
단순 선형 회귀의 가정
- 분산의 동질성: 이는 동질성이라고도 할 수 있습니다. 이 가정의 핵심은 독립 변수 값 전반에 걸쳐 예측 오류의 크기에 큰 변화가 없다는 것입니다.
- 관측치의 독립성: 여기서 통계적으로 유효한 샘플링 방법을 사용하여 데이터 세트의 관측치를 수집했으며 관측치 간에 알려지지 않은 관계가 존재하지 않습니다.
- 정규성: 이것은 단순히 데이터가 정규 분포를 따른다고 가정합니다.
단순 선형 회귀 예제
여기서는 단순 회귀 분석 의 구현 예로서 역할을 하는 시나리오를 인용할 것입니다.
2명의 고속도로 순찰대가 배치되었을 때의 평균 속도가 75mph 또는 10명의 고속도로 순찰대가 배치되었을 때 35mph라고 가정해 봅시다. 따라서 문제는 5명의 고속도로 순찰대가 배치되었을 때 고속도로에서 자동차의 평균 속도는 얼마입니까?
따라서 간단한 회귀 분석 공식 을 사용하여 값을 계산하고 다음 방정식을 도출할 수 있습니다. Y = 85 + (-5) X, Y는 고속도로에서 자동차의 평균 속도입니다. A = 85 또는 X = 0일 때의 평균 속도
B = (-5), Y에 배치된 각 추가 순찰차의 영향
X = 배치된 패트롤 없음
따라서 고속도로 순찰대가 0인 경우(X=0) 고속도로에서 자동차의 평균 속도는 85mph입니다. 고속도로 순찰차가 추가로 작동할 때마다 평균 속도는 시속 5마일로 감소합니다. 따라서 5대의 순찰차(X = 5)의 경우 Y = 85 + (-5) (5) = 85 – 25 = 60mph입니다.
단순 선형 회귀의 한계
아무리 좋은 데이터라도 완벽함을 주지는 않습니다. 일반적으로 단순 선형 회귀 분석 은 연구에서 변수 사이에 존재하는 관계를 표시하는 데 널리 사용됩니다. 그러나 상관관계가 인과관계로 해석되지 않기 때문에 두 변수 간의 관계가 한 변수가 다른 변수를 발생시킨다는 의미는 아닙니다. 사실, 데이터 포인트를 잘 설명하는 단순 선형 회귀의 선은 인과 관계를 일으키지 않을 수 있습니다.
간단한 회귀 분석 예제 를 사용하면 변수 사이에 관계가 있는지 여부를 알 수 있습니다. 따라서 관계가 정확히 무엇인지, 그리고 한 변수가 다른 변수로 이어지는지 확인하려면 추가적인 통계적 분석과 연구가 필요합니다.
마지막 생각들
전반적으로 오늘날의 기업은 경영 의사 결정에 탁월한 지원을 제공하고 판단 오류를 식별하는 옵션이 필요한 경우 단순 회귀 분석 을 고려해야 합니다. 적절한 분석을 통해 기업이 시간이 지남에 따라 축적한 많은 양의 비정형 데이터가 기업에 귀중한 통찰력을 제공할 가능성이 있습니다.
기타 유용한 리소스:
알아야 할 다양한 유형의 회귀 분석
비즈니스에서 회귀 분석의 중요성