Различные типы регрессионного анализа, которые нужно знать

Опубликовано: 2020-03-05

Регрессионный анализ — это методология, которая пытается установить взаимосвязь между зависимой переменной и одной или несколькими независимыми переменными.

Регрессия изначально является статистической концепцией, но она находит применение во многих областях, связанных с бизнесом, таких как финансы, инвестиции, фондовые рынки, а также в таких областях, как наука и техника.

Есть несколько многообещающих приложений регрессионного анализа в форме науки о данных, машинного обучения и искусственного интеллекта, которые определяют будущее человечества.

В этой статье
  • Терминология
  • Различные типы регрессионного анализа
  • Для чего это используется?
  • Как выбрать правильную модель

Терминология, связанная с регрессией

Чтобы понять типы регрессионного анализа, полезно понять соответствующие термины.

  • Выбросы

    Выбросы видны с графиками данных на графике. В регрессионном анализе (1) выбросы — это точки на графике, которые значительно выходят за пределы облака, состоящего из других точек. Выбросы важны, потому что они могут сильно повлиять на результат регрессионного анализа. Чтобы понять эту концепцию, давайте предположим, что здание заполнено профессионалами со средним финансовым опытом с точки зрения их доходов.

    Все они имеют среднюю зарплату около ста тысяч долларов в год. Внезапно в здание входят Билл Гейтс и Джефф Безос, и если вы включите зарплаты этих двух миллиардеров, средняя зарплата станет совершенно неточной. Зарплаты этих двух известных джентльменов в этом примере выпадают.

  • Мультиколлинеарность

    В регрессионном анализе, рассматривая корреляцию между двумя или более входными переменными, можно заметить, что когда происходит добавление одной или нескольких входных переменных, модель не может сделать вещи более прозрачными в реальном мире.

    Крайне важно выяснить, как входные переменные соотносятся друг с другом. Измерение мультиколлинеарности регрессионной модели — это способ найти взаимосвязь между входными переменными. что определяет заработную плату человека в конкретном возрасте. Рассмотрены независимые переменные (факторы), такие как уровень образования, возраст и многие другие факторы, влияющие на среднюю заработную плату человека.

    Но, прежде чем вы пойдете дальше и бросите все факторы под солнцем в своей модели, вам нужно знать, как они соотносятся (взаимоассоциируются). Если мультиколлинеарность становится слишком высокой, это вызывает искажение данных, и модель разваливается.

  • гетероскедастичность

    Гетероскедастичность (иногда пишется как гетероскедастичность) возникает, когда значение стандартной ошибки (SE) переменной, измеренное в течение заданного времени, непостоянно.

    Любой регрессионный анализ таких данных, демонстрирующих гетероскедастичность, дает, как минимум, смещенные коэффициенты и портит результаты.

  • Переоснащение

    Переобучение в регрессионном анализе — это случай, когда переменные начинают показывать случайные ошибки, а не эффективно описывают взаимосвязь между переменными. Переоснащение производит много шума, а не истинное представление населения. Результат модели больше не реалистичен. Вам нужно сделать свою модель максимально приближенной к реальности. Как пример экипировки из реального мира. Лучшее слово, описывающее экипировку из реального примера, — «чрезмерное обобщение». Когда ошибка или погрешность увеличиваются, реалистичные значения не могут быть определены как результат.

  • Недооснащение

    Недообучение происходит, когда количество переменных едва соответствует заданной модели, и результат не остается точным. Чтобы получить успешные результаты регрессионного анализа, вам нужны оптимальные значения переменных, чтобы полученная модель была близка к реальности. Короче говоря, когда переменные не оптимизированы или модель не соответствует данным эффективно, это называется недоучка.

Типы регрессионного анализа

В любой форме регрессии есть два типа переменных. Одним из них являются независимые переменные, или их также называют независимыми переменными, они используются в качестве входных данных. Другой тип переменной — это зависимая переменная, также известная как предиктор. Это значение, которое вы пытаетесь найти, или результат модели.

Ниже описаны различные типы регрессионного анализа.

  • Линейная регрессия

    Линейная регрессия имеет дело с двумя типами переменных. Одна переменная называется независимой переменной, а переменная другого типа является зависимой переменной.

    Независимая переменная изменяется по оси x декартовой плоскости, а зависимая переменная изменяется по оси y. Этими переменными являются «x» и «y» соответственно. Значение у зависит от х. Когда x изменяется, «y» либо увеличивается, либо уменьшается.
    Существует два типа линейной регрессии.

    1. Простая линейная регрессия
    2. Множественная линейная регрессия
  • Простая линейная регрессия: в простой линейной регрессии есть только одна зависимая переменная и одна зависимая переменная.
    Уравнение простой линейной регрессии: y=β_0+β_1 xЗдесь, x представляет собой независимую переменную, представляет собой наклон линии регрессии и является точкой пересечения с осью y. «y» — зависимая переменная или результат.
  • Множественная линейная регрессия: в множественной линейной регрессии зависимая переменная одна, но у вас есть несколько независимых переменных.
    Следующее уравнение представляет множественную линейную регрессию: y= β_0+β_1 x_1+⋯β_n x_n+ εЗдесь y — зависимая переменная, точка пересечения с осью y. обозначают несколько независимых переменных в модели. является «предвзятостью» или «ошибкой». Минимизация предвзятости или ошибки — наша основная цель, чтобы создать модель, максимально приближенную к реальной ситуации.
  • Многомерная регрессия

    Многомерная регрессия отличается от множественной линейной регрессии тем, что она имеет несколько зависимых переменных с входом нескольких независимых переменных. Зависимые переменные ( y_1, y_2 , y_3 …. y_n) находятся в разных формулах. И у него есть более одной независимой переменной (x_1, x_2, ….x_m) для прогнозирования Ys. В многомерной регрессии используемые данные в основном относятся к тому же типу, что и в других типах регрессионного анализа.

  • Логистическая регрессия

    Логистическая регрессия является второй по популярности формой регрессии после линейной регрессии, и ее использование охватывает биостатистику, медицину и социальные науки.
    Логистическая регрессия имеет дело с логическими значениями, такими как:

    • правда или ложь
    • Да или нет
    • большой или маленький
    • один или ноль

    Логистическая регрессия используется для классификации таких объектов, как электронная почта, как «спам» или «не спам».

    Короче говоря, в логистической регрессии есть один результат, который может быть либо «Истинным», либо «Ложным». Более того, в моделях логистической регрессии может быть один вход или несколько входов.

  • Полиномиальная регрессия

    Бывают случаи, когда приходится иметь дело с переменными, связь которых нелинейна. В таком случае наша модель представляет собой кривую, а не линию, как в линейной регрессии. Таким образом, у нас есть еще одна форма регрессии, известная как полиномиальная регрессия.

    Уравнение полиномиальной регрессии представляет собой возрастающую степень входной переменной x, обобщение которой приведено ниже.

    y= β_0+ β_1 x+〖β 〗_2 x^2+〖 β〗_3 〖 x〗^3+⋯β_n x^n+ ε

  • Квантильная регрессия

    Определение квантильной регрессии сильно отличается от того, что есть на практике. Квантиль — это другое название медианы в статистике.

    Квантиль — это точка или линия, которая делит выходные данные на две равные части. Представьте себе некоторый набор данных в виде линии на оси Y. Набор данных делится ровно на две равные части. Значение квантиля составляет 0,5 или 50% в точке разделения.

    В том же примечании два поровну разделенных фрагмента данных снова поровну разделены по оси Y. На этот раз мы получили данные, разделенные на четыре равные части, и новые точки разделения на нижней оси Y графика составляют 0,25 или 25%.

    Точно так же верхний квантиль разделения по оси Y составляет 0,75 или 75%. В общем, квантили — это просто линии или точки, которые разбивают данные на равные фрагменты или группы.

    Квантиль распределяет данные по сотням групп одинакового размера. Но в реальном мире определение квантиля гораздо более гибкое.

    Квантильная регрессия полезна, когда в модели присутствует высокая гетероскедастичность, а линейная регрессия недостаточно точна для прогнозирования результата, поскольку линейная модель опирается на средние значения, а квантили могут быть более точными с медианными значениями.

  • Ридж-регрессия

    Гребневая регрессия использует метод, который называется «Регуляризация». Регуляризация подходит для моделей, которые терпят неудачу при тестировании данных, но передают обучающие данные.

    Гребневая регрессия работает лучше всего, когда большинство переменных в модели полезны.

    Когда выборочные данные показывают множественную коллинеарность, происходят две нежелательные вещи:

    1. Оценки методом наименьших квадратов коэффициентов предикторов дают большие ошибки.
    2. Существует инфляция стандартных ошибок.

    Ридж-регрессия — это метод стабилизации коэффициентов регрессии при наличии мультиколлинеарности.

  • Лассо-регрессия

    Лассо расшифровывается как «Оператор наименьшего абсолютного сокращения и выбора». Лассо-регрессия работает лучше всего, когда у вас много бесполезных переменных. Регрессия Лассо напоминает регрессию Риджа, но некоторые отличия делают ее уникальной.

    Ридж-регрессия и регрессия Лассо применимы к одним и тем же сценариям, в которых присутствует мультиколлинеарность. Однако Ридж-регрессия подходит для долгосрочных прогнозов.

    Лассо-регрессия применяет сжатие к данным. Значения данных уменьшаются по направлению к центральной точке, такой как медиана или среднее значение.

    Упрощение и разреженность моделей данных — это функции, в которых регрессия Лассо работает лучше всего. Другими словами, модели данных должны иметь оптимальные параметры для получения точных результатов.

  • Регрессия основных компонентов (PCR)

    Анализ главных компонентов применяется к переменной x, уменьшая размерность данных. Он включает в себя извлечение набора данных с наибольшим количеством вариаций в итеративном процессе.

    Поскольку процесс является итеративным, поэтому он может анализировать многомерный набор данных, регрессия главных компонентов преодолевает проблемы размерности и коллинеарности, присутствующие в обычной регрессии наименьших квадратов.

  • Эластичная чистая регрессия

    Эластичная сетевая регрессия упрощает модель для простоты интерпретации. Модель может иметь множество переменных (параметров); они могут варьироваться до миллионов в конкретных моделях. В такой модели невозможно определить, какие переменные полезны, а какие бесполезны.

    В таком случае вы не знаете, какой тип регрессии выбрать из гребенчатой ​​регрессии или регрессии Лассо. Здесь в игру вступает эластичная сетевая регрессия, чтобы упростить модель.

    Регрессия Elastic-Net сочетает в себе штраф за регрессию гребня и штраф за регрессию лассо и дает лучшее из обоих миров. Он также лучше работает с коррелированными переменными.

  • Частичные наименьшие квадраты (PLS)

    Частичный метод наименьших квадратов учитывает как объясняющие, так и зависимые переменные. Основополагающий принцип этого типа регрессии заключается в том, что переменные x и y подвергаются декомпозиции на скрытые структуры в итеративном процессе.

    PLS может иметь дело с мультиколлинеарностью. Он учитывает структуры данных, связанные с x и y, предоставляя вам детально проработанные визуальные результаты для интерпретации данных. Можно принять во внимание несколько переменных.

  • Опорная векторная регрессия

    Регрессия опорных векторов (SVR) — это алгоритм, работающий с непрерывной функцией. В отличие от машины опорных векторов в этом смысле машина опорных векторов (SVM) занимается проблемами классификации. SVR предсказывает непрерывные упорядоченные переменные.

    В простой регрессии акцент должен быть сделан на минимизации ошибки, в то время как регрессия опорных векторов определяет порог ошибки.

  • Порядковая регрессия

    Логистическая регрессия имеет дело с двумя категориями, но в порядковой регрессии (также известной как порядковая логистическая регрессия) в игру вступают три или более категорий при допущении однозначного порядка.

    Порядковая регрессия помогает прогнозировать порядковую зависимую переменную при наличии одной или нескольких независимых переменных.

  • Регрессия Пуассона

    В регрессии Пуассона основное внимание уделяется подсчету или скорости, с которой происходит событие.

    Мы измеряем скорость, с которой происходит событие, в регрессии Пуассона. Другими словами, мы моделируем количество раз, когда событие происходит (количество) с течением времени. В регрессии Пуассона время постоянно, и мы измеряем количество событий.

  • Отрицательная биномиальная регрессия

    Полезно моделировать набор дискретных (счетных) данных. В то же время отрицательная биномиальная регрессия помогает, когда данные имеют более высокую дисперсию по сравнению со средним значением, когда дисперсия данных слишком велика, когда вы рисуете ее.

    Отрицательная биномиальная модель не предполагает, что переменная равна среднему значению, как это делает модель, основанная на регрессии Пуассона.

  • Квазипуассоновская регрессия

    Квазипуассоновская регрессия является обобщением пуассоновской регрессии. Как упоминалось ранее, модель регрессии Пуассона основывается на обычно несправедливом предположении, что дисперсия равна среднему значению.

    Модель квазипуассона вступает в игру, когда дисперсия является линейной функцией среднего значения и также выше среднего значения. Это сценарий, когда квазипуассоновская модель более уместна.

  • Кокса регрессия

    Регрессия Кокса (также известная как регрессия пропорциональных рисков) исследует влияние нескольких переменных в течение времени, необходимого для возникновения определенного события.

    Рассмотрим следующие события, в которых регрессия Кокса может оказаться полезной:

    • Время, которое потребовалось для второго сердечного приступа после первого сердечного приступа.
    • Время, которое потребовалось для второй аварии после первой аварии.
    • Время, прошедшее с момента обнаружения рака до смерти.

    Данные о времени до события жизненно важны для применения регрессии Кокса.

  • Тобит-регрессия

    Тобит-регрессия удобна для оценки линейной зависимости, когда в зависимой переменной обнаружена цензура. Цензурирование — это наблюдение за всеми независимыми переменными. Фактический учет значения зависимой переменной осуществляется только в ограниченном диапазоне наблюдений.

  • Байесовская регрессия

    Байесовская регрессия основана на распределении вероятностей, а не на точечной оценке. В результате выход или «y» не является единственным значением. Это распределение вероятностей. Поскольку мы знаем, что распределение вероятностей является математической функцией, а не значением. Распределение вероятностей дает возможные результаты эксперимента.

    Когда мы составляем формулировку модели линейной регрессии на основе распределения вероятностей, мы получаем следующее выражение.
    у ˜ N (β ^ TX, σ ^ 2 I)

    • Выход (y) рассчитывается из нормального распределения Гаусса в зависимости от среднего значения и дисперсии.
    • Транспонирование (T) весовой матрицы (β) получается путем ее умножения на предикторную матрицу (X).
    • Дисперсия представляет собой квадрат стандартного отклонения (σ^2), умноженный на матрицу идентичности (I).

    (Многомерная формулировка модели находится в стадии рассмотрения)

  • Регрессия наименьшего абсолютного отклонения (LAD)

    Наименьшее абсолютное отклонение является наиболее широко известной альтернативой методу наименьших квадратов для анализа линейных моделей. Мы знаем, что в методе наименьших квадратов мы минимизируем сумму квадратов ошибок, но в LAD мы минимизируем сумму абсолютных значений ошибок. Он пытается найти функцию, которая точно соответствует набору данных.

    В случае, когда наши данные просты, наименьшее абсолютное отклонение представляет собой прямую линию в двумерной декартовой плоскости.

    Формулировка Наименьшего Абсолюта очень проста для понимания. Предположим, наш набор данных состоит из двух переменных точек ( (x_i, y_i) и i=1,2,3,4,5……n.

    Наша цель — найти функцию f, которая приблизительно равна (~), как показано ниже.

    е (х_я) ~ у_я

    Утверждение состоит в том, что функция f имеет определенную форму, содержащую некоторые параметры, которые нам нужно вычислить. Здесь следует отметить, что функция f может иметь I число параметров x (или независимых переменных, или независимых переменных).

    Попытаемся найти значения параметров, минимизирующих следующую сумму абсолютных значений ошибок (или невязок).
    S = ∑_(i=1)^n▒〖|y_i 〗-f(x_(i))

  • Экологическая регрессия

    Экологическая регрессия играет важную роль в таких предметах, как политические науки и история. Этот метод позволяет нам проводить подсчеты на макроуровне и делать прогнозы на микроуровне.

    Экологическая регрессия может определять поведение людей при голосовании между различными фракциями и группами обществ. Оценка основана на данных, собранных из предыдущих учетных записей.

    Экологические данные основаны на подсчетах в конкретном регионе, группах, объектах или во времени. Короче говоря, совокупные данные помогают нам узнать о поведении, ограниченном отдельными людьми.

Для чего используется регрессионный анализ?

Регрессионный анализ полезен для достижения нескольких бизнес-целей.

  • Предиктивный анализ

    Одним из наиболее известных приложений является прогнозный анализ, который позволяет более точно прогнозировать конкретные бизнес-события. Одним из видов прогнозного анализа является «анализ спроса», который измеряет увеличение продаж продукта. Успех только что запущенного продукта, а также уже запущенных продуктов можно правильно позиционировать на рынке.

    Другой пример: регрессионный анализ применяется в рекламе товаров и услуг. С помощью регрессионного анализа можно предсказать, сколько покупателей могут столкнуться с рекламой. Это помогает специалистам по продажам и маркетингу устанавливать значение ставки для рекламных материалов.

    Регрессионный анализ также является полезным инструментом для страховых компаний. Страховые компании используют его, чтобы выяснить кредитоспособность держателей полисов и оценить количество претензий, которые могут быть выдвинуты их клиентами.

  • Операционная эффективность

    Организации принимают серьезные решения, используя регрессионный анализ для оптимизации своей деятельности.

    Решения, основанные на данных, могут исключить сомнительные решения, неточные догадки с интуицией и корпоративную политику.

    Регрессивный анализ превращает искусство управления в науку. Например, можно связать время ожидания звонящего с количеством жалоб в колл-центре или отделе обслуживания клиентов.

  • Поддержка принятия решений

    Сегодня в организациях имеется множество данных, касающихся финансов, маркетинга, операций и многих других отделов. Лица, принимающие решения, больше склоняются к анализу данных и науке о данных, чтобы принимать более обоснованные решения, исключая догадки.

    С помощью регрессионного анализа большие данные могут подвергаться сжатию для ориентированной на действия бережливой информации, открывающей путь к более точному принятию решений. Регрессионный анализ не удаляет и не заменяет менеджеров; вместо этого он дает им в руки мощный инструмент для принятия более действенных и эффективных решений, чем когда-либо прежде.

  • Исправление ошибки

    Регрессионный анализ также помогает бизнес-менеджерам выявлять интуитивные ошибки в суждениях и принятии решений.

    Например, менеджер магазина может решить оставить магазин открытым в ночное время, для чего он решает нанять новый персонал.

    Регрессионный анализ может точно указать, что учет расходов на персонал и общего объема продаж, которые он генерирует в ночное время, не может иметь взаимного оправдания. Таким образом, количественное применение регрессионного анализа позволяет исключить принятие ошибочных решений.

  • Полезная информация

    Компании понимают и признают ценность данных и того, чего можно достичь с помощью методов регрессионного анализа, но многим не удается преобразовать эти данные в полезные идеи. Получение информации из необработанных данных — непростая задача. В отчете Forrester утверждается, что 74% компаний хотят принимать решения на основе входных данных, но только 29% удается получить аналитику, которая позволяет им принимать плодотворные решения.

    Одним из важных примеров из делового мира является Konica Minolta. Konica была одним из самых успешных производителей фотоаппаратов. В 2000 году большинство фотографов и любителей фотоаппаратов перешли на цифровые камеры.

    Высший руководящий орган Konica не принимал решения достаточно быстро, в результате к 2004 году, когда Konica выпустила свою первую камеру, большинство конкурентов, таких как Nikon и Canon, хорошо зарекомендовали себя на рынке новых цифровых камер. В результате в 2006 году компания понесла такие большие убытки, что продала большую часть своих технологий и активов Sony.

    Если бы у Konica была информация из необработанных коммерческих и рыночных данных, обработанных с помощью регрессионного анализа и аналогичных методов, Konica смогла бы принять правильное решение в нужное время.

    Регрессионный анализ данных, обеспечивающий полезную информацию, дает в руки лиц, принимающих решения, огромную власть, которая может изменить правила игры в реальном мире.

Как выбрать правильную модель регрессии?

Существуют сотни типов регрессии, и мы рассмотрели самые популярные из них.

Реальный мир очень сложен, и создатели моделей измеряют множество переменных, но включают в модель лишь некоторые из них. Аналитики исключают независимые переменные, которые практически не влияют на зависимую переменную или результат.

При выборе регрессионной модели следует помнить о следующем простом факте, чтобы сохранить баланс путем включения правильного количества независимых переменных в уравнение регрессии.

  • Слишком мало независимых переменных, неопределенная модель становится предвзятой.
  • Слишком много независимых переменных, неопределенная модель теряет свою точность.
  • Именно Правильная модель рождается, когда математические термины не предвзяты и максимально точны.

Последние мысли

Регрессионный анализ берет свое начало в статистике, которой сто лет как науке, но в последнее время он привлек к себе внимание, поскольку большие данные стремительно растут. Регрессионный анализ находит свое применение в статистике в области анализа данных, науки о данных и их приложений почти во всех организациях.

Регрессионные модели, созданные с помощью регрессионного анализа, являются незаменимым инструментом для улучшенного обеспечения предсказуемости, эффективности операций, принятия обоснованных решений, предотвращения ошибок, предотвращения неправильных решений и лучшего понимания.

Другой полезный ресурс:

Важность регрессионного анализа в бизнесе

Полное руководство по регрессионному анализу