Значение коэффициента множественной корреляции рассчитывается по формуле. Множественный коэффициент корреляции и коэффициент детерминации. Оценка качества построенной модели

Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.

Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:

  • 0 – 0,3 – связь отсутствует;
  • 0,3 – 0,5 – связь слабая;
  • 0,5 – 0,7 – средняя связь;
  • 0,7 – 0,9 – высокая;
  • 0,9 – 1 – очень сильная.

Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.

Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.

Этап 1: активация пакета анализа

Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.


После указанного действия пакет инструментов «Анализ данных» будет активирован.

Этап 2: расчет коэффициента

Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.


Этап 3: анализ полученного результата

Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.

Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.

Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.

Коэффициент множественной корреляции

Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно существует корреляционная взаимосвязь, то в этом случае построение множественного коэффициента корреляции считается целесообразным.

С помощью множественного коэффициента корреляции характеризуется совокупное влияние всех факторных переменных на результативную переменную в модели множественной регрессии.

Формула для определения коэффициента корреляции уравнения множественной регрессии через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

Определитель матрицы межфакторной корреляции.

Как видно из формул, величина множественного коэффициента корреляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корреляции, не обращаясь при этом к уравнению множественной регрессии, а используя лишь парные коэффициенты корреляции.

Таблица 17 - Результаты расчетов множественного коэффициента корреляции

Оценка качества построенной модели

Коэффициентом множественной детерминации R 2 называется квадрат множественного коэффициента корреляции.

Коэффициент множественной детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии. Чем больше значение коэффициента множественной детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными.

Для коэффициента множественной детерминации всегда выполняется неравенство вида:

Следовательно, включение в линейную модель регрессии дополнительной факторной переменной не снижает значения коэффициента множественной детерминации.

Таблица 18 - Рассчитанные коэффициенты детерминации

Для того чтобы не допустить преувеличения тесноты связи, применяется скорректированный индекс множественной детерминации, который содержит поправку на число степеней свободы и рассчитывается по формуле:

где n - объем выборки, m - число переменных в уравнении множественной регрессии. При небольшом числе наблюдений нескорректированная величина коэффициента множественной детерминации R 2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель.

Таблица 19 - Скорректированный индекс множественной детерминации

Высокие величины коэффициентов детерминации R 2 указывают на то, что модели регрессии хорошо аппроксимируют исходные данные и такими регрессионными моделями можно воспользоваться для прогноза значений результативного показателя.

Проверить значимость (качество) уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным, достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели, по каждому наблюдению из относительных отклонений определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 12-15% (максимально допустимое значение).

Формула для расчета средней ошибки аппроксимации:

где n - число переменных в уравнении множественной регрессии; f(x i1 , x i2 , …, x in) - i-е расчетное значение переменной y; - i-е опытное значение переменной y.

Таблица 20 - Средняя ошибка аппроксимации

Как видно из результата расчетов, средние ошибки аппроксимации не превышают допустимые значения в 12-15%, что говорит об адекватности полученных моделей.

Проверка значимости коэффициентов линейного уравнения множественной регрессии.

Проверка значимости отдельных коэффициентов уравнения означает, что если коэффициент при некоторой переменной незначим, то доверять влиянию этой переменной на значения результирующей функции y нельзя. Незначимый коэффициент следует положить равным нулю, т.е. соответствующую переменную следует исключить из дальнейшего рассмотрения.

Для проверки значимости каждого из коэффициентов a 0 , a 1 ,…, a n используется t-статистика Стьюдента, опытное значение которой вычисляется по формуле:

, (i=0,1,…,n), (18)

где a i - коэффициент при переменной x i , - среднеквадратическая ошибка этого коэффициента,

где - среднее квадратичное отклонение для значений переменной y; - среднее квадратичное отклонение для значений x i ; - коэффициент множественной детерминации для уравнения регрессии в целом; - коэффициент множественной детерминации, характеризующий зависимость между фактором x i и остальными факторами (x 1 , x 2 ,…, x i-1 , x i+1 ,…, x n)уравнения регрессии.

Каждое из опытных значений статистики сравнивают с критическим значением (i=1,2,…,n), которое ищется по таблице распределения Стьюдента при заданном уровне значимости б и числе степеней свободы k, равном k=m-n-1. В данном случае при уровне значимости б=0,05 и k=13-3-1=9 =2,26.

Таблица 21 - Рассчитанные опытные значения t - статистики Стьюдента

Если > , то гипотеза о значимости коэффициента a i не отвергается, и соответствующая переменная x i остается в уравнении. В противном случае коэффициент a i считается незначимым и соответствующую ему переменную следует исключить из уравнения регрессии. Таким образом, сравнив полученные опытные значения с критическим, можно сделать вывод, что незначимых коэффициентов во всех четырех уравнениях нет.

Проверка значимости линейного уравнения множественной регрессии в целом

Если окажется, что при заданном уровне значимости б уравнение незначимо, то пользоваться им нельзя, а найденной зависимостью следует пренебречь.

Для проверки значимости уравнения регрессии используется опытная F-статистика Фишера:

где m - объем выборки; n - число переменных в уравнении множественной регрессии; f(x i1 , x i2 , …, x in) - i-е расчетное значение переменной y; - среднее опытных значений случайной величины Y.

Полученные опытные значения критерия Фишера сравниваются с критическими значениями =F(б;k 1 ;k 2) при выбранном уровне значимости б. Число степеней свободы k 1 = m - n - 1, k 2 = n.

При выбранном уровне значимости б=0,05 и числе степеней свободы k 1 = 13 - 3 - 1= 9, k 2 = 3 =8,81

Таблица 22 - Рассчитанные опытные значения критерия Фишера

При сравнении опытных значений критериев Фишера с критическим (при уровне значимости б=0,05 F кр =8,81), все они удовлетворяют неравенству F оп > F кр и делается вывод, что с вероятностью p=1-б=0,95 все уравнения значимы, и мы получаем определенные основания доверять построенным уравнениям регрессии.

Оценка точности линейного уравнения множественной регрессии

Заключительная статистическая процедура - оценка точности построенных уравнений регрессии.

Оценка близости опытных значений y i случайной величины Y и ее расчетных значений f(x i), получаемых с помощью уравнения линейной регрессии, выполняется с помощью среднеквадратической погрешности по следующей формуле:

Таблица 23 - Результаты расчета среднеквадратичной погрешности уравнений

Общее качество уравнения множественной регрессии оценивается с помощью коэффициента множественной корреляции и его квадрата – коэффициента множественной детерминации.

По аналогии с парной регрессией коэффициент множественной детерминации можно определить как долю дисперсии результата, объясненную вариацией включенных в модель факторов, в его общей дисперсии:

Значения коэффициента множественной детерминации изменяются от нуля до единицы (0≤R 2 y x 1 x 2… x p ≤1). Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение результата.

характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иными словами, оценивает тесноту связи совместного влияния факторов на результат.

Коэффициент множественной корреляции может быть найден как корень квадратный из коэффициента множественной детерминации:

Значения коэффициентов множественной корреляции изменяются от нуля до единицы (0≤R yx 1 x 2… x p ≤1). Чем ближе коэффициент единице, тем теснее связь между результатом и всеми факторами в совокупности и уравнение регрессии лучше описывает фактические данные. Если множественный коэффициент корреляции R yx 1 x 2… x p близок к нулю, то уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое влияние на результат.

Значение коэффициента множественной корреляции больше или равно величине максимального коэффициента парной корреляции:

R y x1x2…x p ≥ І r y x i (max) І , где i = 1,р.

Если в уравнении регрессии учитывается какой-либо фактор, оказывающий наиболее сильное воздействие на результативный признак, то частный коэффициент корреляции будет достаточно близок к коэффициенту множественной корреляции, но ни в коем случае не больше него.

Иногда для расчета коэффициента множественной корреляции используется еще одна формула (она применима только для линейной множественной регрессии):

где Det ІR + І, Det ІR І - определители матриц соответственно парных коэффициентов корреляции и межфакторной корреляции.

Эти определители будут иметь следующий вид для уравнения линейной множественной регрессии с р числом факторов:

1 r yx1 r yx2 r yx p

r yx1 1 r x1x2 r x1x p

Det ІR + І = r yx2 r x1x2 1 … r x2x p ,

… … … … …

r yx p r x1x p r x2x p … 1

т.е. матрица включает все парные коэффициенты корреляции для уравнения регрессии;

1 r x1x2 r x1x p

Det ІR І = r x1x2 1 … r x 2 x p

… … … … ,

r x 1 x p r x 2 x p … 1

т.е. данная матрица получается из предыдущей матрицы путем исключения коэффициентов парной корреляции факторов с результатом (вычеркиваются первая строка и первый столбец).

Для того, чтобы не допустить возможного преувеличения тесноты связи, обычно применяется скорректированный коэффициент множественной корреляции . Он содержит поправку на число степеней свободы. Ocтaточная сумма квадратов отклонений делится на число степеней свободы остаточной вариации (п - т - 1), а общая сумма квадратов отклонений - на число степеней свободы в целом по совокупности (п - 1). Формула скорректированного коэффициента множественной корреляции имеет следующий вид:

где т - число параметров при переменных х (в линейной зависимости оно будет равно числу включаемых в модель факторов = p ); п - число наблюдений.

Коэффициент множественной корреляции (R ) характеризует тесноту связи между результативным показателем и набором фактор­ных показателей:

где σ 2 - общая дисперсия эмпирического ряда, характеризующая общую вариацию результативного показателя (у) за счет факторов;

σ ост 2 - остаточная дисперсия в ряду у, отражающая влияния всех факто­ров, кроме х;

у - среднее значение результативного показателя, вычисленное по ис­ходным наблюдениям;

s - среднее значение результативного показателя, вычисленное по уравнению регрессии.

Коэффициент множественной корреляции принимает только поло­жительные значения в пределах от 0 до 1. Чем ближе значение коэффи­циента к 1, тем больше теснота связи. И, наоборот, чем ближе к 0, тем за­висимость меньше. При значении R < 0,3 говорят о малой зависимости между величинами. При значении 0,3 < R < 0,6 говорят о средней тесноте связи. При R > 0,6 говорят о наличии существенной связи.

Квадрат коэффициента множественной корреляции называется коэффициентом детерминации (D ): D = R 2 . Коэффициент детермина­ции показывает, какая доля вариации результативного показателя свя­зана с вариацией факторных показателей. В основе расчета коэффици­ента детерминации и коэффициента множественной корреляции лежит правило сложения дисперсий, согласно которому общая дисперсия (σ 2) равна сумме межгрупповой дисперсии (δ 2) и средней из групповых дис­персий σ i 2):

σ 2 = δ 2 + σ i 2 .

Межгрупповая дисперсия характеризует колеблемость результа­тивного показателя за счет изучаемого фактора, а средняя из групповых дисперсий отражает колеблемость результативного показателя за счет всех прочих факторов, кроме изучаемого.

Математические модели корреляционного анализа в форме коэф­фициентов имеют ограниченные аналитические возможности. Зная лишь направление ковариации показателей и тесноту связи, невозмож­но определить закономерности формирования уровня результативного показателя под влиянием исследуемых факторов, оценить интенсив­ность их влияния, классифицировать факторы на основные и второсте­пенные. Для этих целей используются модели регрессионного анализа. Линейная модель (уравнение) регрессионного анализа может быть пред­ставлена в виде

у = bo + b 1 x 1 + b 2 x 2 +... + b n x n ,

где у - результативный показатель;

x 1 , x 2 , ..., x n - факторные модели;

b 0 , b 1 , b 2 , ..., b n - коэффициенты регрессии.

Смотрите также:

При изучении сложных явлений необходимо учитывать более двух случайных факторов. Правильное представление о природе связи между этими факторами можно получить только в том случае, если подвергнуть исследованию сразу все рассматриваемые случайные факторы. Совместное изучение трех и более случайных факторов позволит исследователю установить более или менее обоснованные предположения о причинных зависимостях между изучаемыми явлениями. Простой формой множественной связи является ли­нейная зависимость между тремя признаками. Случайные факторы обозначаются как X 1 , X 2 и X 3 . Парный коэффициенты корреляции между X 1 и X 2 обозначается как r 12 , соответственно между X 1 и X 3 - r 12 , между X 2 и X 3 - r 23 . В качестве меры тесноты линей­ной связи трех признаков используют множественные ко­эф-фициенты корреляции, обозначаемые R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 и частные коэффициенты корреляции, обозначаемые r 12.3 , r 13.2 , r 23.1 .

Множественный коэффициент корреляции R 1.23 трех факторов - это показатель тесноты линейной свя­зи между одним из факторов (индекс перед точкой) и совокупностью двух других факторов (индексы после точ­ки).

Значения коэффициента R всегда находятся в преде­лах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается.

Между коэффициентом множественной корреляции, например R 2 ּ 13 , и двумя коэффициентами парной корреляции r 12 и r 23 существует соот­ношение: каждый из парных коэффициентов не может превы­шать по абсолютной величине R 2 ּ 13 .

Формулы для вычисления множественных коэффициентов корреляции при известных значениях коэффициен­тов парной корреляции r 12 , r 13 и r 23 имеют вид:

Квадрат коэффициента множественной корреляции R 2 назы­вается коэффициентом множественной детерминации. Он пока­зывает долю вариации зависимой переменной под воздействием изучаемых факторов.

Значимость множественной корреляции оценивается по F -критерию:

n – объем выборки; k – число факторов. В нашем случае k = 3.

нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (h o :r =0)принимается, если f ф <f t , и отвергается, если
f ф ³ f т.

теоретическое значение f -критерия определяется для v 1 = k - 1 и v 2 = n - k степеней свободы и принятого уровня значимости a (при­ложение 1).

Пример вычисления коэффициента множественной корреляции . При изучении взаимосвязи между факторами были получены коэффициенты парной корреляции (n =15): r 12 ==0,6; г 13 = 0,3; r 23 = - 0,2.

Необходимо выяснить зависимость признака X 2 от признака X 1 и X 3 , т. е. рассчитать коэффициент множественной кор­реляции:

Табличное значение F -критерия при n 1 = 2 и n 2 = 15 – 3 = 12 степенях свободы при a = 0,05 F 0,05 = 3,89 и при a = 0,01 F 0,01 = 6,93.

Таким образом, взаимосвязь между признаками R 2.13 = 0,74 значима на
1%-ном уровне значимости F ф > F 0,01 .

Судя по коэффициенту множественной детерминации R 2 = (0,74) 2 = 0,55, вариация признака X 2 на 55% связана с действием изучаемых факторов, а 45% вариации (1-R 2) не может быть объяснено влиянием этих переменных.

Частная линейная корреляция

Частный коэффициент корреляции - это показа­тель, измеряющий степень сопряженности двух признаков.

Математическая статистика позволяет установить корреля­цию между двумя признаками при постоянном значении третье­го, не ставя специального эксперимента, а используя парные ко­эффициенты корреляции r 12 , r 13 , r 23 .

Частные коэффициенты корреляции рассчитывают по формулам:

Цифры перед точкой указывают, между ка­кими признаками изучается зависимость, а цифра после точки - влияние какого признака исключается (элиминируется). Ошиб­ку и критерий значимости частной корреляции определяют по тем же формулам, что и парной корреляции:

.

Теоретическое значение t- критерия определяется для v = n – 2 степеней свободы и принятого уровня значимости a (при­ложение 1).

Нулевая гипотеза о равенстве частного коэффициента корреляции в совокупности нулю (H o : r = 0)принимается, если t ф < t т, и отвергается, если
t ф ³ t т.

Частные коэф­фициенты могут принимать значения, заключенные между -1 и+1. Частные коэффициенты детерминации находят путем возве­дения в квадрат частных коэффициентов корреляции:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Определение степени частного воздействия отдельных факторов на результативный признак при исключении (элимини­ровании) связи его с другими признаками, искажающими эту корреляцию, часто представляет большой интерес. Иногда бывает, что при постоянном значении элиминируемого признака нельзя подметить его статистического влияния на изменчивость других признаков. Чтобы уяснить технику расчета частного коэффици­ента корреляции, рассмотрим пример. Имеются три параметра X , Y и Z . Для объема выборки n = 180 определены парные коэффициенты корреляции

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Определим частные ко­эффициенты корреляции:

Частный коэффициент корреляции между параметром X и Y Z (r хуּz = 0,720) показывает, что лишь незначительная часть взаимосвязи этих признаков в общей корреляции (r xy = 0,799) обусловлена влиянием третьего признака (Z ). Аналогичное заключение необходимо сделать и в отношении частного коэффициента корреляции между параметром X и параметром Z с постоянным значением параметраY (r х z ּу = 0,318 и r xz = 0,57). Напротив, частный коэффициент корреляции между параметрами Y и Z с постоянным значением параметра X r yz ּx = 0,105 значительно от­личается от общего коэффициента корреляции r у z = 0,507. Из это­го видно, что если подобрать объекты с одинаковым значением параметра X , то связь между признаками Y и Z у них будет очень слабой, так как значительная часть в этой взаимосвязи обуслов­лена варьированием параметра X .

При некоторых обстоятельствах частный коэффициент корре­ляции может оказаться противоположным по знаку парному.

Например, при изучении взаимосвязи между признаками X, У и Z - были получены парные коэффициенты корреляции (при n = 100): r ху = 0,6; r х z = 0,9;
r у z = 0,4.

Частные коэффициенты корреляции при исключении влияния третьего признака:

Из примера видно, что значения парного коэффициента и частного коэффициента корреляции разнятся в знаке.

Метод частной корреляции дает возможность вычислить частный коэффициент корреляции второго порядка. Этот коэф­фициент указывает на взаимосвязь между первым и вторым признаком при постоянном значении третьего и четвертого. Оп­ределение частного коэффициента второго порядка ведут на ос­нове частных коэффициентов первого порядка по формуле:

где r 12 . 4 , r 13 ּ4 , r 23 ּ4 - частные коэффициенты, значение кото­рых определяют по формуле частного коэффициента, используя коэффициенты парной корреляции r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

Что еще почитать