Корреляционный и регрессионный анализ
Регрессионный анализ (regression analysis) – это метод изучения статистической взаимосвязи между одной зависимой количественной зависимой переменной от одной или нескольких независимых количественных переменных. Зависимая переменная в регрессионном анализе называется результирующей, а переменные факторы – предикторами или объясняющими переменными.
Взаимосвязь между средним значением результирующей переменной и средними значениями предикторов выражается в виде уравнения регрессии. Уравнение регрессии – математическая функция, которая подбирается на основе исходных статистических данных зависимой и объясняющих переменных. Чаще всего используется линейная функция. В этом случае говорят о линейном регрессионном анализе.
Регрессионный анализ очень тесно связан с корреляционным анализом. В корреляционном анализе исследуется направление и теснота связи между количественными переменными. В регрессионном анализе исследуется форма зависимости между количественными переменными. Т.е. фактически оба метода изучают одну и ту же взаимосвязь, но с разных сторон, и дополняют друг друга. На практике корреляционный анализ выполняется перед регрессионным анализом. После доказательства наличия взаимосвязи методом корреляционного анализа можно выразить форму этой связи с помощью регрессионного анализа.
Цель регрессионного анализа – с помощью уравнения регрессии предсказать ожидаемое среднее значение результирующей переменной.
Основные задачи регрессионного анализа следующие:
- определения вида и формы зависимости;
- оценка параметров уравнения регрессии;
- проверка значимости уравнения регрессии;
- проверка значимости отдельных коэффициентов уравнения;
- построение интервальных оценок коэффициентов;
- исследование характеристик точности модели;
- построение точечных и интервальных прогнозов результирующей переменной.
Как и корреляционный анализ, регрессионный анализ отражает только количественные зависимости между переменными. Причинно-следственные зависимости регрессионный анализ не отражает. Гипотезы о причинно-следственной связи переменных должны формулироваться и обосновываться исходя из теоретического анализа содержания изучаемого явления.
Вам может быть интересно …
Онлайн курс «Углубленные методы статистического анализа данных в IBM SPSS Statistics»
При оценке недвижимости в рамках сравнительного подхода широко используются элементы корреляционно-регрессионного анализа. Корреляционно-регрессионный анализ как общее понятие включает измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ). Корреляционно-регрессионный анализ может быть представлен двумя методами: методом парной корреляции и методом множественной корреляции (многофакторный анализ).
Для того чтобы провести корреляционно-регрессионный анализ, необходимо ознакомиться с основными терминами теории статистики. Термины приведены согласно .
Статистическая совокупность – множество однородных по качеству элементов (строений, помещений, площадей и объемов конкретного назначения), рассматриваемое как целое.
Единица совокупности – единичный элемент, принадлежащий данному множеству.
Генеральная совокупность – множество всех единиц совокупности с заданным определяющим признаком (множество однокомнатных квартир, множество домов со стенами из кирпича и т.д.). Число единиц генеральной совокупности определяется по результатам сплошного статистического обследования.
Выборочная совокупность, выборка – подмножество нескольких (двух и более) единиц совокупности, входящих в генеральную совокупность.
Случайная выборка – подмножество генеральной совокупности, единицы которого выбраны с соблюдением принципа случайности.
Объем выборки (n) – число единиц генеральной совокупности, вошедших в выборку. Объем выборки, достаточный для оценки какого-либо признака с заданной точностью, определяется опытным путем или задается методикой оценки.
Объем выборки, достаточный для взаимопогашения случайностей и получения статистических характеристик закономерного характера, равен 30. Выборка такого объема называется малой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний.
Минимальный объем выборки, позволяющий получить средние значения признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми.
Средняя величина – обобщающая характеристика совокупности фактов, полученная по результатам единичных испытаний. В средней величине проявляется действие закона больших чисел, ограничивающее случайности путем их взаимопогашения.
Расчет средних величин
В качестве среднего значения СВ могут использоваться различные величины, например, медиана, мода, среднее арифметическое выборки.
Медиана () – это одно из значений СВ в выборке, относительно которого половина значений превышает медиану, а другая половина не превышает (для расчета медианы выборку следует проранжировать, т.е. выстроить в числовом порядке от большего к меньшему или наоборот).
Мода () – это наиболее часто встречающееся значение в выборке.
Среднее арифметическое – это расчетная величина, определяемая по формуле (34).
Наиболее простой задачей, которую можно решать с использованием данных о ценах на единичные объекты Х1, Х2 … Xn, накопленных за определенный промежуток времени, является определение средней цены объекта в выборке .
(34) |
где n – число накопленных значений цен (объем выборки).
Размерность данного показателя – денежный эквивалент в целом, руб., долл. и т.п. Если использовать другую размерность – руб./кв. м или долл./кв. м, можно получить целую систему показателей среднего значения.
Расчет величин разброса
Средние величины характеризуют статистический ряд числом, но не отражают изменчивость наблюдавшихся значений признака, т. е. вариацию. Разброс (рассеяние) СВ может оцениваться различными величинами, например, размахом (диапазоном разброса), дисперсией или среднеквадратическим отклонением, доверительным интервалом, показателем вариации.
Размах СВ – это разность между максимальным и минимальным ее значением:
(35) |
Дисперсия СВ (или) – расчетная величина, определяемая по формулам (36) или (38) и характеризующая степень отклонения каждого из значений СВ от среднего в квадрате.
Среднеквадратическое отклонение (или, иначе стандартное отклонение) – расчетная величина, определяемая по формулам (37) или (39) и характеризующая степень отклонения каждого из значений СВ от среднего.
Среднеквадратическое отклонение генеральной совокупности обозначается греческой буквой «сигма», выборки – латинской s («эс»).
(36)
(37)
(38)
(39)
Доверительный интервал – это размах СВ, определенный не по всем ее значениям, а по заданной доле значений, примыкающих к среднему. Доверительный интервал строится влево и вправо по вычисленным показателям плюс/минус среднеквадратическое отклонение от среднего арифметического (среднеарифметическое в данном случае служит точкой отсчета и отложения доверительных интервалов). Доля значений, по которой определяется доверительный интервал, называется доверительной вероятностью.
После расчетов необходимо посмотреть, сколько значений выборки попало в доверительный интервал плюс/минус три среднеквадратических отклонения (это соответствует разработанному в математической статистике «правилу трех сигм»). Обычно для правильно подобранной выборки доверительная вероятность равна 0,977. Таким образом, примерно 2% значений, попавших в выборку, являются «всплесками», т.е. «выскакивающими значениями». Их необходимо исключить из выборки и заново рассчитать указанные выше параметры выборки.
Показатель вариации () – расчетная величина, определяемая по формулам (40) или (41) (в зависимости от того, что анализируется – генеральная совокупность или выборка) и характеризующая степень отклонения каждого из значений СВ от среднего в процентах.
(40)
(41)
Рекомендуемое значение показателя вариации для жилых объектов недвижимости при развитом рынке жилищной недвижимости 10% .
Парная корреляция5– связь между двумя признаками (результативным и факторным или двумя факторными). Парная корреляция подразумевает выявление наличия и формы корреляционной зависимости между результативным показателем (ценой) и одним из анализируемых факторных признаков (характеристикой). При этом предполагается условное равенство всех прочих характеристик в сравниваемых объектах, а результативный показатель есть функция от значения анализируемой ценообразующей характеристики аналогичных объектов:
(42)
По общему направлению корреляционная связь может быть прямой или обратной. При прямой связи увеличение факторного признака приводит к повышению результативного, и наоборот, если при повышении факторного признака результативный уменьшается, это говорит о наличии обратной связи. Одним из главных статистических показателей, знак при котором указывает направление корреляционной связи, является коэффициент корреляции (знак «+» говорит о наличии прямой связи, «-» – об обратной). Коэффициент корреляции является мерой тесноты связи между ценой и анализируемой характеристикой.
Например, для определения тесноты парной линейной зависимости применяется линейный коэффициент корреляции (r).
Линейный коэффициент корреляции рассчитывается следующим образом:
(43)
Линейный коэффициент корреляции изменяется в пределах от -1 до +1. Чем ближе его значение по модулю к 1, тем теснее связь. В силу того, что сравниваемые объекты имеют, как правило, несколько ценообразующих характеристик, линейный коэффициент корреляции может использоваться для выделения какой-либо одной из них, оказывающей максимальное влияние на формирование цен выбранных объектов-аналогов.
Кроме коэффициента корреляции в корреляционно-регрессионном анализе используются и другие статистические показатели: среднеквадратическое отклонение, среднеквадратичная ошибка, коэффициент вариации, достоверность и пр.
Одним из важных этапов корреляционно-регрессионного анализа является выбор уравнения регрессии. Выбор уравнения регрессии, с помощью которого производится расчет стоимости оцениваемого объекта, осуществляется на основе значений коэффициента корреляции и (или) достоверности каждого анализируемого вида регрессионного уравнения. При этом могут быть использованы следующие основные виды корреляционной зависимости (уравнений регрессии):
-
линейная ;
-
степенная
-
логарифмическая
-
показательная
-
экспоненциальная
-
квадратическая (полиномиальная второй степени)
-
гиперболическая
Оценка меры достоверности анализируемого уравнения регрессии
Мера достоверности (D) анализируемого уравнения регрессии оценивается с помощью процентного соотношения среднеквадратической ошибки уравнения (Se) и математического ожидания по результативному признаку ():
(44)
Среднеквадратическая ошибка находится по формуле
(45)
где – фактическое значение ценыi– го объекта-аналога;
–расчетное значение цены i– го объекта-аналога по выбранному уравнению регрессии;
–количество объектов в выборке;
i– число параметров уравнения регрессии.
В случае, если максимальное значение D не превышает 15%, анализируемое уравнение регрессии достаточно корректно отображает корреляционную связь и может быть использовано для расчета стоимости оцениваемой недвижимости.
Многофакторный анализ предполагает выявление наличия и формы корреляционной зависимости между результативным показателем и несколькими факторными признаками (параметрами):
(46)
Применение факторного анализа для расчета стоимости оцениваемого объекта дает более точные результаты по сравнению с парной корреляцией и поэтому в большинстве случаев является более приоритетным. К тому же метод парной корреляции в оценке недвижимости применим в основном для расчета отдельных поправок, а метод множественной корреляции позволяет рассчитать стоимость оцениваемой недвижимости в целом. Например, может быть использована линейная регрессия вида
(47)
–стоимость объекта оценки;
–основные ценообразующие характеристики сравниваемых объектов;
–коэффициенты регрессии.
Рассмотрим применение однофакторного корреляционно-регрессионного анализа для расчета стоимости недвижимости методом парной корреляции на следующем примере.
Следует сказать, что на практике однофакторные модели взаимосвязи встречаются редко, т.к. в большинстве случаев стоимость недвижимости зависит от нескольких переменных. Применение однофакторной модели допустимо при условии схожести всех остальных характеристик.
Объект оценки – офис общей площадью 160 кв.м. Имеется информация об объектах-аналогах в отношении их общей площади и цены продажи.
Таблица 31
Корреляционно-регрессионный анализ — один из наиболее широко распространенных и гибких приемов обработки статистических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчитал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать
французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине—конце XIX в. идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Германия), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.
Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависимость признака от определяющих его факторов.
Корреляционно-регрессионный анализ предполагает следующие этапы:
• предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных факторов);
• сбор информации и ее первичная обработка;
• построение модели (один из важнейших этапов);
• оценка и анализ модели.
Задачи корреляционного анализа сводятся к выделению важнейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неизвестных причин связей и оценке факторов, оказывающих максимальное влияние на результат.
Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его использовании для оценки неизвестных значений зависимой переменной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.
При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Все факторные признаки должны иметь количественное (цифровое) выражение.
3. Необходимо наличие массовости значений изучаемых показателей.
4. Причинно-следственные связи между явлениями и процессами могут быть описаны линейной или приводимой к линейной формой зависимости.
5. Не должно быть количественных ограничений на параметры модели связи.
6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.
Корреляция — статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция — связь между двумя признаками (результативным и факторным).
2. Частная корреляция — зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков.
3. Множественная корреляция — зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционная связь — частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Обязательное условие применения корреляционного метода — массовость значений изучаемых показателей, что позволяет выявить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чисел, влияние других факторов сглаживается, нейтрализуется. Наличие корреляционной связи присуще многим общественным явлениям.
Показатели тесноты связи между признаками называют коэффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:
1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);
2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);
3) количественная шкала используется для описания количественных показателей — например, линейный коэффициент корреляции и корреляционное отношение.
Корреляционный анализ — метод статистического исследования экспериментальных данных, позволяющий определить степень линейной зависимости между переменными.
Парная линейная корреляция — простейшая система корреляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении одного важнейшего фактора, который и определяет вариацию результативного признака.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются различные варианты формул расчета данного коэффициента:
, где ,
где n — число наблюдений.
При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:
,
где r принимает значения в пределах от -1 до 1.
Чем ближе линейный коэффициент корреляции по абсолютной величине к I, тем теснее связь. С другой стороны, если он равен 1, то зависимость является не стохастической, а функциональной. Знак при нем указывает направление связи: знак «-» соответствует обратной зависимости, «+» — прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Степень взаимного влияния факторов в зависимости от коэффициента корреляции приведена в табл. 1.
Таблица 1
Количественная оценка тесноты связи
при различных значениях коэффициента корреляции
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.
Термин «регрессия» (произошел от латинского regression — отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с анализом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему удалось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом населения и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различных значений среднего роста родителей, он получил почти прямую линию, проходящую через нанесенные точки.
Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а линию, проходящую через точки на графике, — линией регрессии.
Регрессивный анализ применяется в тех случаях, когда необходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, независимую от факторов дисперсию и стандартное отклонение.
Одна из проблем построения уравнения регрессии — размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.
Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой.
Линейная регрессия сводится к нахождению уравнения вида:
где х — индивидуальное значение факторного признака; а0, а1 — параметры уравнения прямой (уравнения регрессии); ух — теоретическое значение результирующего фактора.
Данное уравнение показывает среднее значение изменения результативного признака х на одну единицу его измерения. Знак параметра показывает направление этого изменения. На практике построение линейной регрессии сводится к оценке ее параметров а0, а1.
При классическом подходе параметры уравнения а0, а1 находятся методом наименьших квадратов, который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных, теоретических (ух) была бы минимальной.
Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
где
В уравнении прямой параметр а0 экономического смысла не имеет, параметр а1 является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного на единицу.
Или по следующим формулам:
, где , , ,
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выраженная формулой
Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности по формуле:
где у’х — первая производная уравнения регрессии.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные (средние) коэффициенты эластичности.
Различия в единицах измерения факторов устраняют с помощью частных (средних) коэффициентов эластичности, которые рассчитываются по формуле:
где аi — коэффициент регрессии при факторе х; — средние значения факторного и результативного признаков.
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном положении других факторов.
Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерминации, представляющий собой квадрат линейного коэффициента корреляции r2. Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредственно указывает степень влияния независимого фактора на результативный показатель.
Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
С помощью теоретического корреляционного отношения измеряется теснота связи любой формы, а посредством линейного коэффициента корреляции — только прямолинейной связи.
Теоретическое корреляционное отношение рассчитывается по формулам:
где — факторная дисперсия; — общая дисперсия.
Для упрощения расчетов меры тесноты корреляционной связи часто применятся индекс корреляционной связи, который определяется по формулам:
где — остаточная дисперсия.
Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания — максимального правдоподобия, наименьших квадратов и моментов — дают оптимальные решения и соответственно приводят к оценкам, обладающим линейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с одинаково высокой степенью достоверности описывать многообразные процессы, происходящие в реальности, их дополняет большой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оценивания предпочтительным остается приведение к простой линейной форме.
Добавить комментарий