Что такое простой регрессионный анализ? - Руководство
Опубликовано: 2020-08-06Знаете ли вы, что простой регрессионный анализ можно использовать для различных целей в бизнесе? На самом деле прогнозирование будущих возможностей и рисков является одним из основных применений регрессионного анализа в бизнесе. Кроме того, компании используют модели линейной регрессии для оптимизации своих бизнес-процессов, превращая огромные объемы необработанных данных в полезную информацию.
- Простое определение регрессионного анализа
- Простая модель линейной регрессии
- Как выполнять
- Ключевые части, которые нужно знать
- Предположения простой линейной регрессии
- Примеры простого линейного регрессионного анализа
- Ограничения
Что такое простой регрессионный анализ
По сути, простой регрессионный анализ — это статистический инструмент, который используется для количественной оценки взаимосвязи между одной независимой переменной и одной зависимой переменной на основе наблюдений, которые были выполнены в прошлом. В непрофессиональной интерпретации это означает, что простой линейный регрессионный анализ может быть использован для демонстрации того, как изменение количества часов производственной машины организации (которая является независимой переменной) впоследствии приведет к изменению стоимости электроэнергии организации. .
Простая модель линейной регрессии
По сути, модель простой линейной регрессии может быть выражена тем же значением, что и формула простой регрессии .
y = β 0 + β 1 X+ ε.
В простой модели линейной регрессии мы рассматриваем моделирование между одной независимой переменной и зависимой переменной. Обычно модель обычно называют простой моделью линейной регрессии, когда в модели линейной регрессии есть только одна независимая переменная. Имейте в виду, что она становится моделью множественной линейной регрессии, когда имеется более одной независимой переменной.
В простой модели линейной регрессии y относится к исследованию или зависимой переменной, а X является объясняющей или независимой переменной. Выражения β 0 и β 1 являются параметрами модели линейной регрессии. Параметр β 0 рассматривается как член пересечения, тогда как параметр β 1 рассматривается как параметр наклона. Общий термин для этих параметров известен как коэффициенты регрессии.
Выражение «ε» — это ненаблюдаемая ошибка, которая объясняет неспособность данных оставаться на прямой линии. Он также представляет разницу между наблюдаемой и истинной реализацией «y».
Эти различия можно объяснить несколькими причинами. Например, переменные могут быть качественными, присущей наблюдениям случайности, а влияние всех удаленных переменных в модели также вносит свой вклад в различия. Таким образом, предполагается, что ε наблюдается как независимая и одинаково распределенная случайная величина с нулевым средним и постоянной дисперсией q². В дальнейшем будем предполагать, что ε распределено нормально.
Независимые переменные в модели линейной регрессии рассматриваются как контролируемые экспериментатором. Вот почему он считается нестохастическим, тогда как y рассматривается как случайная величина с:
E(y) = β 0 + β 1 X. и
Вар(у) = q²
В некоторых случаях X может функционировать как случайная величина. В этих ситуациях мы будем рассматривать не выборочную дисперсию и выборочное среднее значение y, а условное среднее значение y при условии, что X = x как
ε(y) = β0 и β1
и условная дисперсия y при условии, что X = x как
Вар(у|х) = q².
Следовательно, простая модель регрессионного анализа полностью выражается, когда известны значения β 0 , β 1 и q². Как правило, параметры β 0 , β 1 и q² на практике неизвестны, а ε не наблюдается. Следовательно, вы видите, что определение статистической модели y = β 0 + β 1 X + ε основано на определении (то есть оценке) β 0 , β 1 и q². Чтобы установить значения этих параметров, наблюдают/собирают n пар наблюдений (x, y) (= 1,…, n) на (X, y) и используют для определения этих неизвестных параметров.
В целом, при определении оценок параметров могут использоваться различные методы оценки. Наиболее популярным методом является оценка методом наименьших квадратов и методом максимального правдоподобия.
Как выполнить простой регрессионный анализ
Самый распространенный способ выполнения простого регрессионного анализа — использование статистических программ для быстрого анализа данных.
Выполнение простой линейной регрессии в R
R — это статистическая программа, которая используется для проведения простого линейного регрессионного анализа. Он широко используется, мощный и бесплатный. Вот как это работает.
Во-первых, вам нужно загрузить набор данных yield.data в вашу среду R. Затем вы запускаете приведенную ниже команду, чтобы создать модель библиотеки, демонстрирующую взаимосвязь между счастьем и доходом.
Код R для некоторой линейной регрессии
доход.счастье.лм <- лм(счастье ~ доход, данные = доход.данные)
По сути, этот код берет собранные данные «данные = доход.данные», а затем оценивает влияние независимой переменной «доход» на зависимую переменную «счастье», используя уравнение для линейной модели: lm().
Как интерпретировать результаты
Чтобы просмотреть результат модели, вы можете использовать функцию «summary()» в R:
резюме (доход.счастье.lm)
Что делает эта функция, так это берет наиболее важные параметры из линейной модели и помещает их в таблицу.
Эта таблица результатов изначально повторяет формулу, которая использовалась при формировании результатов («Вызов»). После этого он суммирует остатки модели («Остатки»). Это помогает понять, насколько модель соответствует исходным данным.
Затем переходим к таблице «Коэффициенты». В первой строке представлены оценки точки пересечения по оси y, а во второй строке — коэффициент регрессии модели.
Первая строка таблицы помечена как «(Intercept)». Это y-пересечение уравнения регрессии, имеющее значение 0,20. Вы можете включить это в уравнение вашей регрессии, если хотите сделать прогноз значений счастья в диапазоне доходов, который вы проанализировали:
счастье = 0,20 + 0,71 * доход ± 0,018
Следующая строка в таблице «Коэффициенты» — доход. Эта строка объясняет предполагаемое влияние дохода на сообщаемое счастье.
Колонка «Оценка» — предполагаемый эффект. Его также можно назвать значением r² или коэффициентом регрессии. Число в таблице (0,713) сообщает нам, что на каждую единицу увеличения дохода (принимая единицу дохода за 10 000 долларов США) соответствует увеличение сообщаемого счастья на 0,71 единицы (принимая счастье за шкалу 1). до 10).
«Стд. Столбец «Ошибка» описывает стандартную ошибку оценки. Это число демонстрирует уровень вариации в нашей оценке взаимосвязи между счастьем и доходом.
Статистика теста отображается в столбце «значение t». Если не указано иное, тестовая статистика, используемая в линейной регрессии, остается t-значением из двустороннего t-теста. Чем выше статистика теста, тем ниже вероятность того, что наши результаты произошли случайно.
Столбец «pr(>| t |)» описывает p-значение. На рисунке показана вероятность предполагаемого влияния дохода на счастье, если бы нулевая гипотеза об отсутствии эффекта была верна.
Поскольку p-значение очень низкое (p < 0,001), мы можем отклонить нулевую гипотезу и прийти к выводу, что доход оказывает статистически значимое влияние на счастье.
Последние 3 строки сводки модели представляют собой статистику по всей модели. Самое важное, о чем здесь следует помнить, — это p-значение модели. Это становится актуальным здесь (p < 0,001), что означает, что эта модель стандартно подходит для наблюдаемых данных.
Представление результатов
В отчет о результатах добавьте значение p, стандартную ошибку оценки и предполагаемый эффект (то есть коэффициент регрессии). Также необходимо, чтобы вы интерпретировали свои цифры, чтобы ваши читатели могли понять, что означает коэффициент регрессии.
Результат
Между доходом и счастьем существовала релевантная связь (p < 0,001) ( R² = 0,71 ± 0,018) с увеличением сообщаемого счастья на 0,71 единицы на каждые 10 000 долларов увеличения дохода.
Кроме того, было бы неплохо добавить график вместе с вашими результатами. Для простой линейной регрессии все, что вам нужно сделать, это отложить наблюдения по осям x и y. Затем вы добавляете функцию регрессии и линию регрессии.
Простая формула линейной регрессии
Формула простой линейной регрессии:
у = β 0 + β 1 + ε
Ключевые части простого регрессионного анализа
R²
Это мера ассоциации. Он служит представлением процента дисперсии значений Y, который можно отобразить, поняв значение X. R² варьируется от минимума 0,0 (где никакая дисперсия вообще не объясняется) до максимума +1,0. (в котором объясняется каждая дисперсия).
Себ
Это относится к стандартной ошибке зарегистрированного значения b. Стьюдентный критерий статистической значимости коэффициента проводится путем деления значения b на его стандартную ошибку. Согласно эмпирическому правилу, t-значение выше 2,0 обычно является статистически значимым, однако для уверенности необходимо свериться с t-таблицей.
Если по t-значению есть указание на то, что коэффициент b статистически значим, то это означает, что независимая переменная X должна быть зарезервирована в уравнении регрессии. Это особенно связано с тем, что он имеет статистически значимую связь с зависимой переменной или Y. В случае, когда связь не является статистически значимой, значение «коэффициента b» будет точно таким же, как ноль (статистически говоря).
Ф
Это тест на статистическую релевантность всего уравнения регрессии. Он генерируется путем деления описанной дисперсии на необъяснимую дисперсию. Согласно эмпирическому правилу, любое значение F выше 4,0 чаще всего является статистически значимым. Тем не менее, вы должны обратиться к F-таблице, чтобы быть уверенным. Если F релевантно, то уравнение регрессии помогает нам узнать взаимосвязь между X и Y.
Предположения простой линейной регрессии
- Однородность дисперсии: это также можно назвать гомоскедастичностью. Суть этого предположения состоит в том, что нет существенного изменения размера ошибки в нашем прогнозе по значениям независимой переменной.
- Независимость наблюдений: здесь для сбора наблюдений в наборе данных использовались статистически достоверные методы выборки, и между наблюдениями не существует неизвестных взаимосвязей.
- Нормальность: это просто предполагает, что данные следуют нормальному распределению.
Примеры простой линейной регрессии
Здесь мы приведем сценарий, который служит примером реализации простого регрессионного анализа .
Предположим, что средняя скорость при развертывании 2 дорожных патрулей составляет 75 миль в час или 35 миль в час при развертывании 10 дорожных патрулей. Таким образом, вопрос заключается в том, какова средняя скорость автомобилей на автостраде, когда развернуты 5 дорожных патрулей?
Таким образом, используя нашу простую формулу регрессионного анализа , мы можем вычислить значения и вывести следующее уравнение: Y = 85 + (-5) X, учитывая, что Y — это средняя скорость автомобилей на шоссе. A = 85, или средняя скорость при X = 0
B = (-5), влияние каждой дополнительной патрульной машины на Y
И X = количество развернутых патрулей
Таким образом, средняя скорость автомобилей на шоссе при нулевом патрулировании (X=0) будет составлять 85 миль в час. Для каждой дополнительной патрульной машины средняя скорость уменьшится на 5 миль в час. Следовательно, для 5 патрульных машин (X = 5) имеем Y = 85 + (-5) (5) = 85 – 25 = 60 миль в час.
Пределы простой линейной регрессии
Даже самые лучшие данные не дают совершенства. Как правило, простой линейный регрессионный анализ широко используется в исследованиях для выявления связи, существующей между переменными. Однако, поскольку корреляция не интерпретируется как причинно-следственная связь, связь между двумя переменными не означает, что одна вызывает появление другой. На самом деле, линия в простой линейной регрессии, которая хорошо описывает точки данных, может не привести к причинно-следственной связи.
Использование простого примера регрессионного анализа позволит вам выяснить, существует ли вообще связь между переменными. Следовательно, необходим дополнительный статистический анализ и исследование, чтобы определить, какова именно взаимосвязь и ведет ли одна переменная к другой.
Последние мысли
В общем, современным предприятиям необходимо рассматривать простой регрессионный анализ , если им нужен вариант, который обеспечивает превосходную поддержку управленческих решений, а также выявляет ошибки в суждениях. При надлежащем анализе большие объемы неструктурированных данных, которые были накоплены предприятиями с течением времени, могут дать предприятиям ценную информацию.
Другие полезные ресурсы:
Различные типы регрессионного анализа, которые нужно знать
Важность регрессионного анализа в бизнесе