Что такое простой регрессионный анализ? - Руководство

Опубликовано: 2020-08-06

Знаете ли вы, что простой регрессионный анализ можно использовать для различных целей в бизнесе? На самом деле прогнозирование будущих возможностей и рисков является одним из основных применений регрессионного анализа в бизнесе. Кроме того, компании используют модели линейной регрессии для оптимизации своих бизнес-процессов, превращая огромные объемы необработанных данных в полезную информацию.

В этой статье
  • Простое определение регрессионного анализа
  • Простая модель линейной регрессии
  • Как выполнять
  • Ключевые части, которые нужно знать
  • Предположения простой линейной регрессии
  • Примеры простого линейного регрессионного анализа
  • Ограничения

Что такое простой регрессионный анализ

По сути, простой регрессионный анализ — это статистический инструмент, который используется для количественной оценки взаимосвязи между одной независимой переменной и одной зависимой переменной на основе наблюдений, которые были выполнены в прошлом. В непрофессиональной интерпретации это означает, что простой линейный регрессионный анализ может быть использован для демонстрации того, как изменение количества часов производственной машины организации (которая является независимой переменной) впоследствии приведет к изменению стоимости электроэнергии организации. .

Простая модель линейной регрессии

По сути, модель простой линейной регрессии может быть выражена тем же значением, что и формула простой регрессии .

y = β 0 + β 1 X+ ε.

В простой модели линейной регрессии мы рассматриваем моделирование между одной независимой переменной и зависимой переменной. Обычно модель обычно называют простой моделью линейной регрессии, когда в модели линейной регрессии есть только одна независимая переменная. Имейте в виду, что она становится моделью множественной линейной регрессии, когда имеется более одной независимой переменной.

В простой модели линейной регрессии y относится к исследованию или зависимой переменной, а X является объясняющей или независимой переменной. Выражения β 0 и β 1 являются параметрами модели линейной регрессии. Параметр β 0 рассматривается как член пересечения, тогда как параметр β 1 рассматривается как параметр наклона. Общий термин для этих параметров известен как коэффициенты регрессии.

Выражение «ε» — это ненаблюдаемая ошибка, которая объясняет неспособность данных оставаться на прямой линии. Он также представляет разницу между наблюдаемой и истинной реализацией «y».

Эти различия можно объяснить несколькими причинами. Например, переменные могут быть качественными, присущей наблюдениям случайности, а влияние всех удаленных переменных в модели также вносит свой вклад в различия. Таким образом, предполагается, что ε наблюдается как независимая и одинаково распределенная случайная величина с нулевым средним и постоянной дисперсией q². В дальнейшем будем предполагать, что ε распределено нормально.

Независимые переменные в модели линейной регрессии рассматриваются как контролируемые экспериментатором. Вот почему он считается нестохастическим, тогда как y рассматривается как случайная величина с:

E(y) = β 0 + β 1 X. и

Вар(у) = q²

В некоторых случаях X может функционировать как случайная величина. В этих ситуациях мы будем рассматривать не выборочную дисперсию и выборочное среднее значение y, а условное среднее значение y при условии, что X = x как

ε(y) = β0 и β1

и условная дисперсия y при условии, что X = x как

Вар(у|х) = q².

Следовательно, простая модель регрессионного анализа полностью выражается, когда известны значения β 0 , β 1 и q². Как правило, параметры β 0 , β 1 и q² на практике неизвестны, а ε не наблюдается. Следовательно, вы видите, что определение статистической модели y = β 0 + β 1 X + ε основано на определении (то есть оценке) β 0 , β 1 и q². Чтобы установить значения этих параметров, наблюдают/собирают n пар наблюдений (x, y) (= 1,…, n) на (X, y) и используют для определения этих неизвестных параметров.

В целом, при определении оценок параметров могут использоваться различные методы оценки. Наиболее популярным методом является оценка методом наименьших квадратов и методом максимального правдоподобия.

Как выполнить простой регрессионный анализ

Самый распространенный способ выполнения простого регрессионного анализа — использование статистических программ для быстрого анализа данных.

Выполнение простой линейной регрессии в R

R — это статистическая программа, которая используется для проведения простого линейного регрессионного анализа. Он широко используется, мощный и бесплатный. Вот как это работает.

Во-первых, вам нужно загрузить набор данных yield.data в вашу среду R. Затем вы запускаете приведенную ниже команду, чтобы создать модель библиотеки, демонстрирующую взаимосвязь между счастьем и доходом.

Код R для некоторой линейной регрессии

доход.счастье.лм <- лм(счастье ~ доход, данные = доход.данные)

По сути, этот код берет собранные данные «данные = доход.данные», а затем оценивает влияние независимой переменной «доход» на зависимую переменную «счастье», используя уравнение для линейной модели: lm().

Как интерпретировать результаты

Чтобы просмотреть результат модели, вы можете использовать функцию «summary()» в R:

резюме (доход.счастье.lm)

Что делает эта функция, так это берет наиболее важные параметры из линейной модели и помещает их в таблицу.

Эта таблица результатов изначально повторяет формулу, которая использовалась при формировании результатов («Вызов»). После этого он суммирует остатки модели («Остатки»). Это помогает понять, насколько модель соответствует исходным данным.

Затем переходим к таблице «Коэффициенты». В первой строке представлены оценки точки пересечения по оси y, а во второй строке — коэффициент регрессии модели.

Первая строка таблицы помечена как «(Intercept)». Это y-пересечение уравнения регрессии, имеющее значение 0,20. Вы можете включить это в уравнение вашей регрессии, если хотите сделать прогноз значений счастья в диапазоне доходов, который вы проанализировали:

счастье = 0,20 + 0,71 * доход ± 0,018

Следующая строка в таблице «Коэффициенты» — доход. Эта строка объясняет предполагаемое влияние дохода на сообщаемое счастье.

Колонка «Оценка» — предполагаемый эффект. Его также можно назвать значением r² или коэффициентом регрессии. Число в таблице (0,713) сообщает нам, что на каждую единицу увеличения дохода (принимая единицу дохода за 10 000 долларов США) соответствует увеличение сообщаемого счастья на 0,71 единицы (принимая счастье за ​​шкалу 1). до 10).

«Стд. Столбец «Ошибка» описывает стандартную ошибку оценки. Это число демонстрирует уровень вариации в нашей оценке взаимосвязи между счастьем и доходом.

Статистика теста отображается в столбце «значение t». Если не указано иное, тестовая статистика, используемая в линейной регрессии, остается t-значением из двустороннего t-теста. Чем выше статистика теста, тем ниже вероятность того, что наши результаты произошли случайно.

Столбец «pr(>| t |)» описывает p-значение. На рисунке показана вероятность предполагаемого влияния дохода на счастье, если бы нулевая гипотеза об отсутствии эффекта была верна.

Поскольку p-значение очень низкое (p < 0,001), мы можем отклонить нулевую гипотезу и прийти к выводу, что доход оказывает статистически значимое влияние на счастье.

Последние 3 строки сводки модели представляют собой статистику по всей модели. Самое важное, о чем здесь следует помнить, — это p-значение модели. Это становится актуальным здесь (p < 0,001), что означает, что эта модель стандартно подходит для наблюдаемых данных.

Представление результатов

В отчет о результатах добавьте значение p, стандартную ошибку оценки и предполагаемый эффект (то есть коэффициент регрессии). Также необходимо, чтобы вы интерпретировали свои цифры, чтобы ваши читатели могли понять, что означает коэффициент регрессии.

Результат

Между доходом и счастьем существовала релевантная связь (p < 0,001) ( R² = 0,71 ± 0,018) с увеличением сообщаемого счастья на 0,71 единицы на каждые 10 000 долларов увеличения дохода.

Кроме того, было бы неплохо добавить график вместе с вашими результатами. Для простой линейной регрессии все, что вам нужно сделать, это отложить наблюдения по осям x и y. Затем вы добавляете функцию регрессии и линию регрессии.

Простая формула линейной регрессии

Формула простой линейной регрессии:

у = β 0 + β 1 + ε

Ключевые части простого регрессионного анализа

Это мера ассоциации. Он служит представлением процента дисперсии значений Y, который можно отобразить, поняв значение X. R² варьируется от минимума 0,0 (где никакая дисперсия вообще не объясняется) до максимума +1,0. (в котором объясняется каждая дисперсия).

Себ

Это относится к стандартной ошибке зарегистрированного значения b. Стьюдентный критерий статистической значимости коэффициента проводится путем деления значения b на его стандартную ошибку. Согласно эмпирическому правилу, t-значение выше 2,0 обычно является статистически значимым, однако для уверенности необходимо свериться с t-таблицей.

Если по t-значению есть указание на то, что коэффициент b статистически значим, то это означает, что независимая переменная X должна быть зарезервирована в уравнении регрессии. Это особенно связано с тем, что он имеет статистически значимую связь с зависимой переменной или Y. В случае, когда связь не является статистически значимой, значение «коэффициента b» будет точно таким же, как ноль (статистически говоря).

Ф

Это тест на статистическую релевантность всего уравнения регрессии. Он генерируется путем деления описанной дисперсии на необъяснимую дисперсию. Согласно эмпирическому правилу, любое значение F выше 4,0 чаще всего является статистически значимым. Тем не менее, вы должны обратиться к F-таблице, чтобы быть уверенным. Если F релевантно, то уравнение регрессии помогает нам узнать взаимосвязь между X и Y.

Предположения простой линейной регрессии

  • Однородность дисперсии: это также можно назвать гомоскедастичностью. Суть этого предположения состоит в том, что нет существенного изменения размера ошибки в нашем прогнозе по значениям независимой переменной.
  • Независимость наблюдений: здесь для сбора наблюдений в наборе данных использовались статистически достоверные методы выборки, и между наблюдениями не существует неизвестных взаимосвязей.
  • Нормальность: это просто предполагает, что данные следуют нормальному распределению.

Примеры простой линейной регрессии

Здесь мы приведем сценарий, который служит примером реализации простого регрессионного анализа .

Предположим, что средняя скорость при развертывании 2 дорожных патрулей составляет 75 миль в час или 35 миль в час при развертывании 10 дорожных патрулей. Таким образом, вопрос заключается в том, какова средняя скорость автомобилей на автостраде, когда развернуты 5 дорожных патрулей?

Таким образом, используя нашу простую формулу регрессионного анализа , мы можем вычислить значения и вывести следующее уравнение: Y = 85 + (-5) X, учитывая, что Y — это средняя скорость автомобилей на шоссе. A = 85, или средняя скорость при X = 0

B = (-5), влияние каждой дополнительной патрульной машины на Y

И X = количество развернутых патрулей

Таким образом, средняя скорость автомобилей на шоссе при нулевом патрулировании (X=0) будет составлять 85 миль в час. Для каждой дополнительной патрульной машины средняя скорость уменьшится на 5 миль в час. Следовательно, для 5 патрульных машин (X = 5) имеем Y = 85 + (-5) (5) = 85 – 25 = 60 миль в час.

Пределы простой линейной регрессии

Даже самые лучшие данные не дают совершенства. Как правило, простой линейный регрессионный анализ широко используется в исследованиях для выявления связи, существующей между переменными. Однако, поскольку корреляция не интерпретируется как причинно-следственная связь, связь между двумя переменными не означает, что одна вызывает появление другой. На самом деле, линия в простой линейной регрессии, которая хорошо описывает точки данных, может не привести к причинно-следственной связи.

Использование простого примера регрессионного анализа позволит вам выяснить, существует ли вообще связь между переменными. Следовательно, необходим дополнительный статистический анализ и исследование, чтобы определить, какова именно взаимосвязь и ведет ли одна переменная к другой.

Последние мысли

В общем, современным предприятиям необходимо рассматривать простой регрессионный анализ , если им нужен вариант, который обеспечивает превосходную поддержку управленческих решений, а также выявляет ошибки в суждениях. При надлежащем анализе большие объемы неструктурированных данных, которые были накоплены предприятиями с течением времени, могут дать предприятиям ценную информацию.

Другие полезные ресурсы:

Различные типы регрессионного анализа, которые нужно знать

Важность регрессионного анализа в бизнесе