Корреляционный и регрессионный анализ

Корреляционный и регрессионный анализ

Регрессионный анализ (regression analysis) – это метод изучения статистической взаимосвязи между одной зависимой количественной зависимой переменной от одной или нескольких независимых количественных переменных. Зависимая переменная в регрессионном анализе называется результирующей, а переменные факторы – предикторами или объясняющими переменными.

Взаимосвязь между средним значением результирующей переменной и средними значениями предикторов выражается в виде уравнения регрессии. Уравнение регрессии – математическая функция, которая подбирается на основе исходных статистических данных зависимой и объясняющих переменных. Чаще всего используется линейная функция. В этом случае говорят о линейном регрессионном анализе.

Регрессионный анализ очень тесно связан с корреляционным анализом. В корреляционном анализе исследуется направление и теснота связи между количественными переменными. В регрессионном анализе исследуется форма зависимости между количественными переменными. Т.е. фактически оба метода изучают одну и ту же взаимосвязь, но с разных сторон, и дополняют друг друга. На практике корреляционный анализ выполняется перед регрессионным анализом. После доказательства наличия взаимосвязи методом корреляционного анализа можно выразить форму этой связи с помощью регрессионного анализа.

Цель регрессионного анализа – с помощью уравнения регрессии предсказать ожидаемое среднее значение результирующей переменной.

Основные задачи регрессионного анализа следующие:

  • определения вида и формы зависимости;
  • оценка параметров уравнения регрессии;
  • проверка значимости уравнения регрессии;
  • проверка значимости отдельных коэффициентов уравнения;
  • построение интервальных оценок коэффициентов;
  • исследование характеристик точности модели;
  • построение точечных и интервальных прогнозов результирующей переменной.

Как и корреляционный анализ, регрессионный анализ отражает только количественные зависимости между переменными. Причинно-следственные зависимости регрессионный анализ не отражает. Гипотезы о причинно-следственной связи переменных должны формулироваться и обосновываться исходя из теоретического анализа содержания изучаемого явления.

Вам может быть интересно …

Онлайн курс «Углубленные методы статистического анализа данных в IBM SPSS Statistics»

При оценке недвижимости в рамках сравнительного подхода широко используются элементы корреляционно-регрессионного анализа. Корреляционно-регрессионный анализ как общее понятие включает измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ). Корреляционно-регрессионный анализ может быть представлен двумя методами: методом парной корреляции и методом множественной корреляции (многофакторный анализ).

Для того чтобы провести корреляционно-регрессионный анализ, необходимо ознакомиться с основными терминами теории статистики. Термины приведены согласно .

Статистическая совокупность – множество однородных по качеству элементов (строений, помещений, площадей и объемов конкретного назначения), рассматриваемое как целое.

Единица совокупности – единичный элемент, принадлежащий данному множеству.

Генеральная совокупность – множество всех единиц совокупности с заданным определяющим признаком (множество однокомнатных квартир, множество домов со стенами из кирпича и т.д.). Число единиц генеральной совокупности определяется по результатам сплошного статистического обследования.

Выборочная совокупность, выборка – подмножество нескольких (двух и более) единиц совокупности, входящих в генеральную совокупность.

Случайная выборка – подмножество генеральной совокупности, единицы которого выбраны с соблюдением принципа случайности.

Объем выборки (n) – число единиц генеральной совокупности, вошедших в выборку. Объем выборки, достаточный для оценки какого-либо признака с заданной точностью, определяется опытным путем или задается методикой оценки.

Объем выборки, достаточный для взаимопогашения случайностей и получения статистических характеристик закономерного характера, равен 30. Выборка такого объема называется малой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний.

Минимальный объем выборки, позволяющий получить средние значения признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми.

Средняя величина – обобщающая характеристика совокупности фактов, полученная по результатам единичных испытаний. В средней величине проявляется действие закона больших чисел, ограничивающее случайности путем их взаимопогашения.

Расчет средних величин

В качестве среднего значения СВ могут использоваться различные величины, например, медиана, мода, среднее арифметическое выборки.

Медиана () – это одно из значений СВ в выборке, относительно которого половина значений превышает медиану, а другая половина не превышает (для расчета медианы выборку следует проранжировать, т.е. выстроить в числовом порядке от большего к меньшему или наоборот).

Мода () – это наиболее часто встречающееся значение в выборке.

Среднее арифметическое – это расчетная величина, определяемая по формуле (34).

Наиболее простой задачей, которую можно решать с использованием данных о ценах на единичные объекты Х1, Х2 … Xn, накопленных за определенный промежуток времени, является определение средней цены объекта в выборке .

(34)

где n – число накопленных значений цен (объем выборки).

Размерность данного показателя – денежный эквивалент в целом, руб., долл. и т.п. Если использовать другую размерность – руб./кв. м или долл./кв. м, можно получить целую систему показателей среднего значения.

Расчет величин разброса

Средние величины характеризуют статистический ряд числом, но не отражают изменчивость наблюдавшихся значений признака, т. е. вариацию. Разброс (рассеяние) СВ может оцениваться различными величинами, например, размахом (диапазоном разброса), дисперсией или среднеквадратическим отклонением, доверительным интервалом, показателем вариации.

Размах СВ – это разность между максимальным и минимальным ее значением:

(35)

Дисперсия СВ (или) – расчетная величина, определяемая по формулам (36) или (38) и характеризующая степень отклонения каждого из значений СВ от среднего в квадрате.

Среднеквадратическое отклонение (или, иначе стандартное отклонение) – расчетная величина, определяемая по формулам (37) или (39) и характеризующая степень отклонения каждого из значений СВ от среднего.

Среднеквадратическое отклонение генеральной совокупности обозначается греческой буквой  «сигма», выборки – латинской s («эс»).

(36)

(37)

(38)

(39)

Доверительный интервал – это размах СВ, определенный не по всем ее значениям, а по заданной доле значений, примыкающих к среднему. Доверительный интервал строится влево и вправо по вычисленным показателям плюс/минус среднеквадратическое отклонение от среднего арифметического (среднеарифметическое в данном случае служит точкой отсчета и отложения доверительных интервалов). Доля значений, по которой определяется доверительный интервал, называется доверительной вероятностью.

После расчетов необходимо посмотреть, сколько значений выборки попало в доверительный интервал плюс/минус три среднеквадратических отклонения (это соответствует разработанному в математической статистике «правилу трех сигм»). Обычно для правильно подобранной выборки доверительная вероятность равна 0,977. Таким образом, примерно 2% значений, попавших в выборку, являются «всплесками», т.е. «выскакивающими значениями». Их необходимо исключить из выборки и заново рассчитать указанные выше параметры выборки.

Показатель вариации () – расчетная величина, определяемая по формулам (40) или (41) (в зависимости от того, что анализируется – генеральная совокупность или выборка) и характеризующая степень отклонения каждого из значений СВ от среднего в процентах.

(40)

(41)

Рекомендуемое значение показателя вариации для жилых объектов недвижимости при развитом рынке жилищной недвижимости 10% .

Парная корреляция5– связь между двумя признаками (результативным и факторным или двумя факторными). Парная корреляция подразумевает выявление наличия и формы корреляционной зависимости между результативным показателем (ценой) и одним из анализируемых факторных признаков (характеристикой). При этом предполагается условное равенство всех прочих характеристик в сравниваемых объектах, а результативный показатель есть функция от значения анализируемой ценообразующей характеристики аналогичных объектов:

(42)

По общему направлению корреляционная связь может быть прямой или обратной. При прямой связи увеличение факторного признака приводит к повышению результативного, и наоборот, если при повышении факторного признака результативный уменьшается, это говорит о наличии обратной связи. Одним из главных статистических показателей, знак при котором указывает направление корреляционной связи, является коэффициент корреляции (знак «+» говорит о наличии прямой связи, «-» – об обратной). Коэффициент корреляции является мерой тесноты связи между ценой и анализируемой характеристикой.

Например, для определения тесноты парной линейной зависимости применяется линейный коэффициент корреляции (r).

Линейный коэффициент корреляции рассчитывается следующим образом:

(43)

Линейный коэффициент корреляции изменяется в пределах от -1 до +1. Чем ближе его значение по модулю к 1, тем теснее связь. В силу того, что сравниваемые объекты имеют, как правило, несколько ценообразующих характеристик, линейный коэффициент корреляции может использоваться для выделения какой-либо одной из них, оказывающей максимальное влияние на формирование цен выбранных объектов-аналогов.

Кроме коэффициента корреляции в корреляционно-регрессионном анализе используются и другие статистические показатели: среднеквадратическое отклонение, среднеквадратичная ошибка, коэффициент вариации, достоверность и пр.

Одним из важных этапов корреляционно-регрессионного анализа является выбор уравнения регрессии. Выбор уравнения регрессии, с помощью которого производится расчет стоимости оцениваемого объекта, осуществляется на основе значений коэффициента корреляции и (или) достоверности каждого анализируемого вида регрессионного уравнения. При этом могут быть использованы следующие основные виды корреляционной зависимости (уравнений регрессии):

  1. линейная ;

  2. степенная

  3. логарифмическая

  4. показательная

  5. экспоненциальная

  6. квадратическая (полиномиальная второй степени)

  7. гиперболическая

Оценка меры достоверности анализируемого уравнения регрессии

Мера достоверности (D) анализируемого уравнения регрессии оценивается с помощью процентного соотношения среднеквадратической ошибки уравнения (Se) и математического ожидания по результативному признаку ():

(44)

Среднеквадратическая ошибка находится по формуле

(45)

где – фактическое значение ценыi– го объекта-аналога;

–расчетное значение цены i– го объекта-аналога по выбранному уравнению регрессии;

–количество объектов в выборке;

i– число параметров уравнения регрессии.

В случае, если максимальное значение D не превышает 15%, анализируемое уравнение регрессии достаточно корректно отображает корреляционную связь и может быть использовано для расчета стоимости оцениваемой недвижимости.

Многофакторный анализ предполагает выявление наличия и формы корреляционной зависимости между результативным показателем и несколькими факторными признаками (параметрами):

(46)

Применение факторного анализа для расчета стоимости оцениваемого объекта дает более точные результаты по сравнению с парной корреляцией и поэтому в большинстве случаев является более приоритетным. К тому же метод парной корреляции в оценке недвижимости применим в основном для расчета отдельных поправок, а метод множественной корреляции позволяет рассчитать стоимость оцениваемой недвижимости в целом. Например, может быть использована линейная регрессия вида

(47)

–стоимость объекта оценки;

–основные ценообразующие характеристики сравниваемых объектов;

–коэффициенты регрессии.

Рассмотрим применение однофакторного корреляционно-регрессионного анализа для расчета стоимости недвижимости методом парной корреляции на следующем примере.

Следует сказать, что на практике однофакторные модели взаимосвязи встречаются редко, т.к. в большинстве случаев стоимость недвижимости зависит от нескольких переменных. Применение однофакторной модели допустимо при условии схожести всех остальных характеристик.

Объект оценки – офис общей площадью 160 кв.м. Имеется информация об объектах-аналогах в отношении их общей площади и цены продажи.

Таблица 31

Корреляционно-регрессионный анализ — один из наиболее широко распространенных и гибких приемов обработки стати­стических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчи­тал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать

французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине—конце XIX в. идеи о количественном измерении связей явлений. В раз­ное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Герма­ния), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.

Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависи­мость признака от определяющих его факторов.

Корреляционно-регрессионный анализ предполагает сле­дующие этапы:

• предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки ре­зультативного показателя и перечень наиболее существенных факторов);

• сбор информации и ее первичная обработка;

• построение модели (один из важнейших этапов);

• оценка и анализ модели.

Задачи корреляционного анализа сводятся к выделению важ­нейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неиз­вестных причин связей и оценке факторов, оказывающих макси­мальное влияние на результат.

Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его ис­пользовании для оценки неизвестных значений зависимой пере­менной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.


При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.

1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

2. Все факторные признаки должны иметь количественное (цифровое) выражение.

3. Необходимо наличие массовости значений изучаемых по­казателей.

4. Причинно-следственные связи между явлениями и процес­сами могут быть описаны линейной или приводимой к линейной формой зависимости.

5. Не должно быть количественных ограничений на парамет­ры модели связи.

6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.

Корреляция — статистическая зависимость между случай­ными величинами, не имеющими строго функционального харак­тера, при которой изменение одной из случайных величин приво­дит к изменению математического ожидания другой.

В статистике принято различать следующие варианты зави­симостей.

1. Парная корреляция — связь между двумя признаками (ре­зультативным и факторным).

2. Частная корреляция — зависимость между результатив­ным и одним из факторных признаков при фиксированном значе­нии других факторных признаков.

3. Множественная корреляция — зависимость результатив­ного и двух или более факторных признаков, включенных в ис­следование.

Корреляционная связь — частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.

Обязательное условие применения корреляционного метода — массовость значений изучаемых показателей, что позволяет вы­явить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чи­сел, влияние других факторов сглаживается, нейтрализуется. На­личие корреляционной связи присуще многим общественным явлениям.

Показатели тесноты связи между признаками называют ко­эффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:

1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);

2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);

3) количественная шкала используется для описания количе­ственных показателей — например, линейный коэффициент кор­реляции и корреляционное отношение.

Корреляционный анализ — метод статистического исследо­вания экспериментальных данных, позволяющий определить сте­пень линейной зависимости между переменными.

Парная линейная корреляция — простейшая система корре­ляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении од­ного важнейшего фактора, который и определяет вариацию ре­зультативного признака.

Для определения степени тесноты парной линейной зависи­мости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются раз­личные варианты формул расчета данного коэффициента:

, где ,

где n — число наблюдений.

При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:

,

где r принимает значения в пределах от -1 до 1.

Чем ближе линейный коэффициент корреляции по абсолют­ной величине к I, тем теснее связь. С другой стороны, если он ра­вен 1, то зависимость является не стохастической, а функциональ­ной. Знак при нем указывает направление связи: знак «-» соответ­ствует обратной зависимости, «+» — прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

Степень взаимного влияния факторов в зависимости от ко­эффициента корреляции приведена в табл. 1.

Таблица 1

Количественная оценка тесноты связи

при различных значениях коэффициента корреляции

После того, как с помощью корреляционного анализа выяв­лено наличие статистических связей между переменными и оце­нена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.

Термин «регрессия» (произошел от латинского regression — отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с ана­лизом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему уда­лось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом насе­ления и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различ­ных значений среднего роста родителей, он получил почти пря­мую линию, проходящую через нанесенные точки.

Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а ли­нию, проходящую через точки на графике, — линией регрессии.

Регрессивный анализ применяется в тех случаях, когда необ­ходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, не­зависимую от факторов дисперсию и стандартное отклонение.

Одна из проблем построения уравнения регрессии — размер­ность, то есть определение числа факторных признаков, вклю­чаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепен­ных, несущественных факторов позволяет получить модель, бы­стрее и качественнее реализуемую. В то же время построение мо­дели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.

При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.

Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависи­мость является линейной и выражается уравнением прямой.

Линейная регрессия сводится к нахождению уравнения вида:

где х — индивидуальное значение факторного признака; а0, а1 — параметры уравнения прямой (уравнения регрессии); ух — теоре­тическое значение результирующего фактора.

Данное уравнение показывает среднее значение изменения ре­зультативного признака х на одну единицу его измерения. Знак па­раметра показывает направление этого изменения. На практике по­строение линейной регрессии сводится к оценке ее параметров а0, а1.

При классическом подходе параметры уравнения а0, а1 нахо­дятся методом наименьших квадратов, который позволяет полу­чить такие оценки параметров, при которых сумма квадратов от­клонений фактических значений результативного признака у от расчетных, теоретических (ух) была бы минимальной.

Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где

В уравнении прямой параметр а0 экономического смысла не имеет, параметр а1 является коэффициентом регрессии и показы­вает изменение результативного признака при изменении фак­торного на единицу.

Или по следующим формулам:

, где , , ,

Между линейным коэффициентом корреляции и коэффици­ентом регрессии существует определенная зависимость, выра­женная формулой

Часто исследуемые признаки имеют разные единицы измере­ния, поэтому для оценки влияния факторного признака на ре­зультативный применяется коэффициент эластичности. Он рас­считывается для каждой точки и в среднем по всей совокупности по формуле:

где у’х — первая производная уравнения регрессии.

Коэффициент эластичности показывает, на сколько процен­тов изменяется результативный признак при изменении фактор­ного признака на 1%.

Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них за­ложены, должны быть вычислены частные (средние) коэффициенты эластичности.

Различия в единицах измерения факторов устраняют с помо­щью частных (средних) коэффициентов эластичности, которые рассчитываются по формуле:

где аi — коэффициент регрессии при факторе х; — средние значения факторного и результативного признаков.

Частные коэффициенты эластичности показывают, на сколь­ко процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном поло­жении других факторов.

Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерми­нации, представляющий собой квадрат линейного коэффициента корреляции r2. Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредст­венно указывает степень влияния независимого фактора на ре­зультативный показатель.

Степень тесноты связи полностью соответствует теоретиче­скому корреляционному отношению, которое является универ­сальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

С помощью теоретического корреляционного отношения из­меряется теснота связи любой формы, а посредством линейного коэффициента корреляции — только прямолинейной связи.

Теоретическое корреляционное отношение рассчитывается по формулам:

где — факторная дисперсия; — общая дисперсия.

Для упрощения расчетов меры тесноты корреляционной свя­зи часто применятся индекс корреляционной связи, который оп­ределяется по формулам:

где — остаточная дисперсия.

Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания — максимального правдопо­добия, наименьших квадратов и моментов — дают оптимальные решения и соответственно приводят к оценкам, обладающим ли­нейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с оди­наково высокой степенью достоверности описывать многообраз­ные процессы, происходящие в реальности, их дополняет боль­шой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оце­нивания предпочтительным остается приведение к простой ли­нейной форме.

admin

Добавить комментарий