Матрица парной корреляции. Матрица парных коэффициентов корреляции

Матрица парных коэффициентов корреляции представляет собой матрицу, элементами которой являются парные коэффициенты корреляции. Например, для трех переменных эта матрица имеет вид:
- y x 1 x 2 x 3
y 1 r yx1 r yx2 r yx3
x 1 r x1y 1 r x1x2 r x1x3
x 2 r x2y r x2x1 1 r x2x3
x 3 r x3y r x3x1 r x3x2 1

Вставьте в поле матрицу парных коэффициентов.

Пример . По данным 154 сельскохозяйственных предприятий Кемеровской области 2003 г. изучить эффективность производства зерновых (табл. 13).

  1. Определите факторы, формирующие рентабельность зерновых в сельскохозяйственных предприятий в 2003 г.
  2. Постройте матрицу парных коэффициентов корреляции. Установите, какие факторы мультиколлинеарны.
  3. Постройте уравнение регрессии, характеризующее зависимость рентабельности зерновых от всех факторов.
  4. Оцените значимость полученного уравнения регрессии. Какие факторы значимо воздействуют на формирование рентабельности зерновых в этой модели?
  5. Оцените значение рентабельности производства зерновых в сельскохозяйственном предприятии № 3.

Решение получаем с помощью калькулятора Уравнение множественной регрессии :

1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Матрица Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Матрица X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Умножаем матрицы, (X T X)
Находим определитель det(X T X) T = 34.35
Находим обратную матрицу (X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Вектор оценок коэффициентов регрессии равен
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Уравнение регрессии (оценка уравнения регрессии)
Y = 0.1565 + 0.3375X 1 + 0.0043X 2 + 0.2986X 3

Матрица парных коэффициентов корреляции

Число наблюдений n = 22. Число независимых переменных в модели ровно 3, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 5. Матрица, независимых переменных Х имеет размерность (22 х 5). Матрица Х T Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Транспонированная матрица.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Матрица A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Полученная матрица имеет следующее соответствие:

Найдем парные коэффициенты корреляции.
Для y и x 1

Средние значения



Дисперсия





Коэффициент корреляции

Для y и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для y и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 2 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Матрица парных коэффициентов корреляции.
- y x 1 x 2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x 2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых r yxi < 0.5 исключают из модели.
Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(x j y) > r(x k x j) ; r(x k y) > r(x k x j).
Если одно из неравенств не соблюдается, то исключается тот параметр x k или x j , связь которого с результативным показателем Y оказывается наименее тесной.
3. Анализ параметров уравнения регрессии.
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Дисперсии параметров модели определяются соотношением S 2 i = K ii , т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности , которые определяются по формуле:


Частные коэффициент эластичности E 1 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 2 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 3 < 1. Следовательно, его влияние на результативный признак Y незначительно.
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X умеренная
Коэффициент детерминации
R 2 = 0.62 2 = 0.38
т.е. в 38.0855 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;a) = (18;0.05) = 1.734
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим
Интервальная оценка для коэффициента корреляции (доверительный интервал)

Доверительный интервал для коэффициента корреляции
r(0.3882;0.846)
5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика


Статистическая значимость коэффициента регрессии b 0 не подтверждается

Статистическая значимость коэффициента регрессии b 1 не подтверждается

Статистическая значимость коэффициента регрессии b 2 не подтверждается

Статистическая значимость коэффициента регрессии b 3 не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b i - t i S i ; b i + t i S i)
b 0: (-0.7348;1.0478)
b 1: (-2.9781;3.6531)
b 2: (-0.4466;0.4553)
b 3: (-4.8459;5.4431)

2) F-статистика. Критерий Фишера


Fkp = 2.93
Поскольку F < Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Проверка на наличие гетероскедастичности методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X i , а по оси ординат квадраты отклонения e i 2 .

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02

Контрольная работа №2

Вариант№5

Задание1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель………………………..…..3

1.1 Построение корреляционного поля ………………………………………4

1.2 Построение матрицы коэффициентов парной корреляции……………6

1.3 Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel…………………………………………………………………………...6

1.4 Построение линейной однофакторной регрессионной модели……….10

1.5 Выводы………………………………………………………………………15

Задание 2. Используя компьютерные технологии, решить задачи линейного программирования……………………………………………….18

а) Задача оптимального планирования производства……………….19

1. Математическую постановку задачи……………………………………..19

2. Размещение на рабочем листе ТП MS Excel исходных данных, расчёт значений ограничений, расчёт значений целевой функции……………...19

3. Формулировка математической модели задачи в терминах ячеек рабочего листа ТП MS Excel…………………………………………………..20

4. Поиск оптимального решения поставленной задачи средствами надстройки «Поиск решения»………………………………………………..20

5. Анализ результатов………………………………………………………….21

б) Задача оптимизации плана перевозок (транспортная задача)…23

1. Математическую постановку задачи……………………………………..23

2. Размещение данных на рабочем листе ТП MS Excel …………………...24

3. Постановка задачи в терминах рабочего листа Excel для использования утилиты «Поиск решения»….…………………………25

4. Анализ результатов………………………………………………………….26

Список использованной литературы………………………………………..28

Задание 1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель.

В качестве инструментария исследования использовать:



Инструменты надстройки Пакет Анализа ТП MS Excel;

Встроенные функции библиотеки Stats (Statistics) CKM Maple.

Условия задания 1:

По выборочным данным исследовать влияние факторов X1, X2 и Х3 на результативный признак Y.

Построить корреляционное поле и сделать предположение о наличии и типе связи между исследуемыми факторами;

Оценив тесноту связи между исследуемыми факторами, построить многофакторную (однофакторную) линейную регрессионную модель вида Y=f(X1,X2 Х3)или вида Y=f(X).

Оценить:

Адекватность уравнения регрессии по значению коэффициента детерминированности R 2 ;

Значимость коэффициентов уравнения регрессии по t- критерию Стьюдента при заданном уровне доверительной вероятности р=0,05;

Степень случайности связи между каждым факторам Х и признаком Y (критерий Фишера);

Зависимость между показателями Х 1 , Х 2 , Х 3 основных фондов и объемом валовой продукции У предприятия одной из отраслей промышленности характеризуется следующими данными:

Вариант 5

X 1 1.5 2.6 3.5 4.8 5.9 6.3 7.2 8.9 9.5 11.1 15.0
X 2 10.2 15.3 18.4 20.5 24.7 25.6 27.3 28.3 29.6 30.1 31.0
X 3 1.1 2.3 3.5 4.1 5.7 6.6 7.3 8.5 9.8 10.1 12.0
Y

Решение задания 1.

Решение задания 1 предполагает.

1. Построение корреляционного поля.

2. Построение матрицы коэффициентов парной корреляции.

3. Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel.

4. Построение линейных однофакторных регрессионных моделей средствами надстройки «Пакет анализа».

5. Выводы.

Построение корреляционного поля.

Разместим таблицу с исходными данными в ячейках A3:D15 рабочего листа Excel.

Приложение1.1
Y X1 X2 X3
1,5 10,2 1,1
2,6 15,3 2,3
3,5 18,4 3,5
4,8 20,5 4,1
5,9 24,7 5,7
6,3 25,6 6,6
7,2 27,3 7,3
8,9 28,3 8,5
9,5 29,6 9,8
11,1 30,1 10,1
?

Используя возможности мастера диаграмм ТП MS Excel, построим корреляционное поле, то есть представим графически связь между результирующим признаком Y и каждым из факторов X. Из графиков видно, что между результирующим признаком Y и каждым из факторов X существует прямо пропорциональная зависимость, приближающаяся к линейной.

.

.

Исследуем тесноту и характер связи между факторами.

Построение матрицы коэффициентов парной корреляции.

Используя надстройку «Пакет анализа» ТП MS Excel (Сервис – Анализ данных – Корреляция), построим матрицу коэффициентов парной корреляции. Окно инструмента «Корреляция» представлено на рисунке 1. Матрица коэффициентов парной корреляции представлена на рисунке 2.

Рис.1. –Окно «Корреляция»

Рис.2. – Матрица коэффициентов парной корреляции.

Из этой матрицы видно, что все рассматриваемые факторы X1 – X3 имеют тесную связь с результативным признаком Y. Кроме того, все факторы Х между собой мультиколлинеарны. Поэтому построение многофакторной модели вида Y=f(Х1,Х2,Х3) невозможно.

Z 1 (t)

Z 2 (t)

t

y(t)

Z 1 (t)

Z 2 (t)

t

y(t)

Основная задача, стоящая при выборе факторов включаемых в корреляционную модель, заключается в том, чтобы ввести в анализ все основные факторы, влияющие на уровень изучаемого явления. Однако, введение в модель большого числа факторов нецелесообразно, правильнее отобрать только сравнительно небольшое число основных факторов, находящихся предположительно в корреляционной зависимости с выбранным функциональным показателем.

Это можно сделать с помощью так называемого двух стадийного отбора. В соответствии с ним в модель включаются все предварительно отобранные факторы. Затем среди них на основе специальной количественной оценки и дополнительно качественного анализа выявляются несущественно влияющие факторы, которые постепенно отбрасываются пока не останутся те, относительно которых можно утверждать, что имеющийся статистический материал согласуется с гипотезой об их совместном существенном влиянии на зависимую переменную при выбранной форме связи.

Свое наиболее законченное выражение двух стадийный отбор получил в методике так называемого многошагового регрессионного анализа, при котором отсев несущественных факторов происходит на основе показателей их значимости, в частности на основе величины t ф - расчетном значении критерия Стьюдента.

Рассчитаем t ф по найденным коэффициентам парной корреляции и сравним их с t критическим для 5% уровня значимости (двустороннего) и 18 степенями свободы (ν = n-2).

где r – значение коэффициента парной корреляции;

n – число наблюдений (n=20)

При сравнении t ф для каждого коэффициента с t кр = 2,101 получаем, что найденные коэффициенты признаются значимыми, т.к. t ф > t кр.

t ф для r yx 1 = 2, 5599 ;

t ф для r yx 2 = 7,064206 ;

t ф для r yx 3 = 2,40218 ;

t ф для r х1 x 2 = 4,338906 ;

t ф для r х1 x 3 = 15,35065;

t ф для r х2 x 3 = 4,749981

При отборе факторов включаемых в анализ к ним предъявляются специфические требования. Прежде всего, показатели, выражающие эти факторы должны быть количественно измеримы.

Факторы, включаемые в модель, не должны находиться между собой в функциональной или близкой к ней связи. Наличие таких связей характеризуется мультиколлинеарностью.

Мультиколлинеарность свидетельствует о том, что некоторые факторы характеризуют одну и ту же сторону изучаемого явления. Поэтому их одновременное включение в модель нецелесообразно, так как они в определённой степени дублируют друг друга. Если нет особых предположений говорящих в пользу одного из этих факторов, следует отдавать предпочтение тому из них, который характеризуется большим коэффициентом парной (или частной) корреляции.

Считается, что предельным является значение коэффициента корреляции между двумя факторами, равное 0,8.

Мультиколлинеарность обычно приводит к вырождению матрицы переменных и, следовательно, к тому, что главный определитель уменьшает свое значение и в пределе становится близок к нулю. Оценки коэффициентов уравнения регрессии становятся сильно зависимыми от точности нахождения исходных данных и резко изменяют свои значения при изменении количества наблюдений.

Коллинеарными являются факторы …

И коллинеарны.

4. В модели множественной регрессии определитель матрицы парных коэффициентов корреляции между факторами , и близок к нулю. Это означает, что факторы , и … мультиколлинеарность факторов.

5. Для эконометрической модели линейного уравнения множественной регрессии вида построена матрица парных коэффициентов линейной корреляции (y – зависимая переменная; х (1) , х (2) , х (3) , x (4) – независимые переменные):


Коллинеарными (тесно связанными) независимыми (объясняющими) переменными не являются x (2) и x (3)

1. Дана таблица исходных данных для построения эконометрической регрессионной модели:

Фиктивными переменными не являются

стаж работы

производительность труда

2. При исследовании зависимости потребления мяса от уровня дохода и пола потребителя можно рекомендовать …

использовать фиктивную переменную – пол потребителя

разделить совокупность на две: для потребителей женского пола и для потребителей мужского пола

3. Изучается зависимость цены квартиры (у ) от ее жилой площади (х ) и типа дома. В модель включены фиктивные переменные, отражающие рассматриваемые типы домов: монолитный, панельный, кирпичный. Получено уравнение регрессии: ,
где ,
Частными уравнениями регрессии для кирпичного и монолитного являются …

для типа дома кирпичный

для типа дома монолитный

4. При анализе промышленных предприятий в трех регионах (Республика Марий Эл, Республика Чувашия, Республика Татарстан) были построены три частных уравнения регрессии:

для Республики Марий Эл;

для Республики Чувашия;

для Республики Татарстан.

Укажите вид фиктивных переменных и уравнение с фиктивными переменными, обобщающее три частных уравнения регрессии.

5. В эконометрике фиктивной переменной принято считать …

переменную, принимающую значения 0 и 1

описывающую количественным образом качественный признак

1. Для регрессионной модели зависимости среднедушевого денежного дохода населения (руб., у ) от объема валового регионального продукта (тыс. р., х 1 ) и уровня безработицы в субъекте (%, х 2 ) получено уравнение . Величина коэффициента регрессии при переменной х 2 свидетельствует о том, что при изменении уровня безработицы на 1% среднедушевой денежный доход ______ рубля при неизменной величине валового регионального продукта.

изменится на (-1,67)

2. В уравнении линейной множественной регрессии: , где – стоимость основных фондов (тыс. руб.); – численность занятых (тыс. чел.); y – объем промышленного производства (тыс. руб.) параметр при переменной х 1 , равный 10,8, означает, что при увеличении объема основных фондов на _____ объем промышленного производства _____ при постоянной численности занятых.


на 1 тыс. руб. … увеличится на 10,8 тыс. руб.

3. Известно, что доля остаточной дисперсии зависимой переменной в ее общей дисперсии равна 0,2. Тогда значение коэффициента детерминации составляет … 0,8

4. Построена эконометрическая модель для зависимости прибыли от реализации единицы продукции (руб., у ) от величины оборотных средств предприятия (тыс. р., х 1 ): . Следовательно, средний размер прибыли от реализации, не зависящий от объема оборотных средств предприятия, составляет _____ рубля. 10,75

5. F-статистика рассчитывается как отношение ______ дисперсии к ________ дисперсии, рассчитанных на одну степень свободы. факторной … остаточной

1. Для эконометрической модели уравнения регрессии ошибка модели определяется как ______ между фактическим значением зависимой переменной и ее расчетным значением. Разность

2. Величина называется … случайной составляющей

3. В эконометрической модели уравнения регрессии величина отклонения фактического значения зависимой переменной от ее расчетного значения характеризует … ошибку модели

4. Известно, что доля объясненной дисперсии в общей дисперсии равна 0,2. Тогда значение коэффициента детерминации составляет … 0,2

5. При методе наименьших квадратов параметры уравнения парной линейной регрессии определяются из условия ______ остатков . минимизации суммы квадратов

1. Для обнаружения автокорреляции в остатках используется …

статистика Дарбина – Уотсона

2. Известно, что коэффициент автокорреляции остатков первого порядка равен –0,3. Также даны критические значения статистики Дарбина – Уотсона для заданного количества параметров при неизвестном и количестве наблюдений , . По данным характеристикам можно сделать вывод о том, что …автокорреляция остатков отсутствует

y x (1) x (2) x (3) x (4) x (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
x (1) 0.43 1.00 0.85 0.98 0.11 0.34
x (2) 0.37 0.85 1.00 0.88 0.03 0.46
x (3) 0.40 0.98 0.88 1.00 0.03 0.28
x (4) 0.58 0.11 0.03 0.03 1.00 0.57
x (5) 0.33 0.34 0.46 0.28 0.57 1.00

Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем x (4) - количество удобрений, расходуемых на 1 га ().

В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x (1)) и числом орудий поверхностной обработки почвы .

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции и . Учитывая тесную взаимосвязь показателей x (1) , x (2) и x (3) , в регрессионную модель урожайности может войти лишь один из них.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:

F набл = 121.

В скобках указаны значения исправленных оценок среднеквадратических отклонений оценок коэффициентов уравнения .

Под уравнением регрессии представлены следующие его параметры адекватности: множественный коэффициент детерминации ; исправленная оценка остаточной дисперсии , средняя относительная ошибка аппроксимации и расчетное значение -критерия F набл = 121.

Уравнение регрессии значимо, т.к. F набл = 121 > F kp = 2,85 найденного по таблице F -распределения при a=0,05; n 1 =6 и n 2 =14.

Из этого следует, что Q¹0, т.е. и хотя бы один из коэффициентов уравнения q j (j = 0, 1, 2, ..., 5) не равен нулю.

Для проверки гипотезы о значимости отдельных коэффициентов регрессии H0: q j =0, где j =1,2,3,4,5, сравнивают критическое значение t kp = 2,14, найденное по таблице t -распределения при уровне значимости a=2Q =0,05 и числе степеней свободы n=14, с расчетным значением . Из уравнения следует, что статистически значимым является коэффициент регрессии только при x (4) , так как ½t 4 ½=2,90 > t kp =2,14.



Не поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при x (1) и x (5) . Из отрицательных значений коэффициентов следует, что повышение насыщенности сельского хозяйства колесными тракторами (x (1)) и средствами оздоровления растений (x (5)) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

Для получения уравнения регрессии со значимыми коэффициентами используем пошаговый алгоритм регрессионного анализа. Первоначально используем пошаговый алгоритм с исключением переменных.

Исключим из модели переменную x (1) , которой соответствует минимальное по абсолютной величине значение ½t 1 ½=0,01. Для оставшихся переменных вновь построим уравнение регрессии:

Полученное уравнение значимо, т.к. F набл = 155 > F kp = 2,90, найденного при уровне значимости a=0,05 и числах степеней свободы n 1 =5 и n 2 =15 по таблице F -распределения, т.е. вектор q¹0. Однако в уравнении значим только коэффициент регрессии при x (4) . Расчетные значения ½t j ½ для остальных коэффициентов меньше t кр = 2,131, найденного по таблице t -распределения при a=2Q =0,05 и n=15.

Исключив из модели переменную x (3) , которой соответствует минимальное значение t 3 =0,35 и получим уравнение регрессии:

(2.9)

В полученном уравнении статистически не значим и экономически не интерпретируем коэффициент при x (5) . Исключив x (5) получим уравнение регрессии:

(2.10)

Мы получили значимое уравнение регрессии со значимыми и интерпретируемыми коэффициентами.

Однако полученное уравнение является не единственно “хорошей” и не “самой лучшей” моделью урожайности в нашем примере.

Покажем, что в условии мультиколлинеарности пошаговый алгоритм с включением переменных является более эффективным. На первом шаге в модель урожайности y входит переменная x (4) , имеющая самый высокий коэффициент корреляции с y , объясняемой переменной -r (y , x (4))=0,58. На втором шаге, включая уравнение наряду с x (4) переменные x (1) или x (3) , мы получим модели, которые по экономическим соображениям и статистическим характеристикам превосходят (2.10):

(2.11)

(2.12)

Включение в уравнение любой из трех оставшихся переменных ухудшает его свойства. Смотри, например, уравнение (2.9).

Таким образом, мы имеем три “хороших” модели урожайности, из которых нужно выбрать по экономическим и статистическим соображениям одну.

По статистическим критериям наиболее адекватна модель (2.11). Ей соответствуют минимальные значения остаточной дисперсии =2,26 и средней относительной ошибки аппроксимации и наибольшие значения и F набл = 273.

Несколько худшие показатели адекватности имеет модель (2.12), а затем - модель (2.10).

Будем теперь выбирать наилучшую из моделей (2.11) и (2.12). Эти модели отличаются друг от друга переменными x (1) и x (3) . Однако в моделях урожайностей переменная x (1) (число колесных тракторов на 100 га) более предпочтительна, чем переменная x (3) (число орудий поверхностной обработки почвы на 100 га), которая является в некоторой степени вторичной (или производной от x (1)).

В этой связи из экономических соображений предпочтение следует отдать модели (2.12). Таким образом, после реализации алгоритма пошагового регрессионного анализа с включением переменных и учета того, что в уравнение должна войти только одна из трех связанных переменных (x (1) , x (2) или x (3)) выбираем окончательное уравнение регрессии:

Уравнение значимо при a=0,05, т.к. F набл = 266 > F kp = 3,20, найденного по таблице F -распределения при a=Q =0,05; n 1 =3 и n 2 =17. Значимы и все коэффициенты регрессии и в уравнении ½t j ½>t kp (a=2Q =0,05; n=17)=2,11. Коэффициент регрессии q 1 следует признать значимым (q 1 ¹0) из экономических соображений, при этом t 1 =2,09 лишь незначительно меньше t kp = 2,11.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни (при фиксированном значении x (4)) приводит к росту урожайности зерновых в среднем на 0,345 ц/га.

Приближенный расчет коэффициентов эластичности э 1 »0,068 и э 2 »0,161 показывает, что при увеличении показателей x (1) и x (4) на 1% урожайность зерновых повышается в среднем соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (x (1) и x (4)), то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (x (2) , x (3) , x (5) , погодные условия и др.). Средняя относительная ошибка аппроксимации характеризует адекватность модели, так же как и величина остаточной дисперсии . При интерпретации уравнения регрессии интерес представляют значения относительных ошибок аппроксимации . Напомним, что - модельное значение результативного показателя, характеризует среднее для совокупности рассматриваемых районов значение урожайности при условии, что значения объясняющих переменных x (1) и x (4) зафиксированы на одном и том же уровне, а именно x (1) = x i (1) и x (4) = x i (4) . Тогда по значениям d i можно сопоставлять районы по урожайности. Районы, которым соответствуют значения d i >0, имеют урожайность выше среднего, а d i <0 - ниже среднего.

В нашем примере, по урожайности наиболее эффективно растениеводство ведется в районе, которому соответствует d 7 =28%, где урожайность на 28% выше средней по региону, и наименее эффективно - в районе с d 20 =-27,3%.


Задачи и упражнения

2.1. Из генеральной совокупности (y , x (1) , ..., x (p)), где y имеет нормальный закон распределения с условным математическим ожиданием и дисперсией s 2 , взята случайная выборка объемом n , и пусть (y i , x i (1) , ..., x i (p)) - результат i -го наблюдения (i =1, 2, ..., n ). Определить: а) математическое ожидание МНК-оценки вектора q ; б) ковариационную матрицу МНК-оценки вектора q ; в) математическое ожидание оценки .

2.2. По условию задачи 2.1 найти математическое ожидание суммы квадратов отклонений, обусловленных регрессией, т.е. EQ R , где

.

2.3. По условию задачи 2.1 определить математическое ожидание суммы квадратов отклонений, обусловленных остаточной вариацией относительно линий регрессии, т.е. EQ ост, где

2.4. Доказать, что при выполнении гипотезы Н 0: q=0 статистика

имеет F-распределение с числами степеней свободы n 1 =p+1 и n 2 =n-p-1.

2.5. Доказать, что при выполнении гипотезы Н 0: q j =0 статистика имеет t-распределение с числом степеней свободы n=n-p-1.

2.6. На основании данных (табл.2.3) о зависимости усушки кормового хлеба (y ) от продолжительности хранения (x ) найти точечную оценку условного математического ожидания в предположении, что генеральное уравнение регрессии - линейное.

Таблица 2.3.

Требуется: а) найти оценки и остаточной дисперсии s 2 в предположении, что генеральное уравнение регрессии имеет вид ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезу Н 0: q=0; в) с надежностью g=0,9 определить интервальные оценки параметров q 0 , q 1 ; г) с надежностью g=0,95 определить интервальную оценку условного математического ожидания при х 0 =6; д) определить при g=0,95 доверительный интервал предсказания в точке х =12.

2.7. На основании данных о динамике темпов прироста курса акций за 5 месяцев, приведенных в табл. 2.4.

Таблица 2.4.

месяцы (x )
y (%)

и предположения, что генеральное уравнение регрессии имеет вид , требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,01 значимость коэффициента регрессии, т.е. гипотезы H 0: q 1 =0;

в) с надежностью g=0,95 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,9 установить интервальную оценку условного математического ожидания при x 0 =4; д) определить при g=0,9 доверительный интервал предсказания в точке x =5.

2.8. Результаты исследования динамики привеса молодняка приведены в табл.2.5.

Таблица 2.5.

Предполагая, что генеральное уравнение регрессии - линейное, требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезы H 0: q=0;

в) с надежностью g=0,8 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,98 определить и сравнить интервальные оценки условного математического ожидания при x 0 =3 и x 1 =6;

д) определить при g=0,98 доверительный интервал предсказания в точке x =8.

2.9. Себестоимость (y ) одного экземпляра книги в зависимости от тиража (x ) (тыс.экз.) характеризуется данными, собранными издательством (табл.2.6). Определить МНК-оценки и параметров уравнения регрессии гиперболического вида , с надежностью g=0,9 построить доверительные интервалы для параметров q 0 и q 1 , а также условного математического ожидания при x =10.

Таблица 2.6.

Определить оценки и параметров уравнения регрессии вида , проверить при a=0,05 гипотезу Н 0: q 1 =0 и построить с надежностью g=0,9 доверительные интервалы для параметров q 0 и q 1 и условного математического ожидания при x =20.

2.11. В табл. 2.8 представленные данные о темпах прироста (%) следующих макроэкономических показателей n =10 развитых стран мира за 1992г.: ВНП - x (1) , промышленного производства - x (2) , индекса цен - x (3) .

Таблица 2.8.

Страны x и параметров уравнения регрессии, оценку остаточной дисперсии; б) проверить при a=0,05 значимость коэффициента регрессии, т.е. Н 0: q 1 =0; в) с надежностью g=0,9 найти интервальные оценки q 0 и q 1 ; г) найти при g=0,95 доверительный интервал для в точке х 0 =х i , где i =5; д) сравнить статистические характеристики уравнений регрессий: 1, 2 и 3.

2.12. Задачу 2.11 решить, приняв за объясняемую величину (у ) показатель x (1) , а за объясняющую (х ) переменную x (3) .

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник. М., ЮНИТИ, 1998 (2-е издание 2001);

2. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях: Учебник. М. ЮНИТИ – ДАНА, 2001;

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М., Финансы и статистика, 1985, 487с.;

4. Айвазян С.А., Бухштабер В. М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерностей. М., Финансы и статисика, 1989, 607с.;

5. Джонстон Дж. Эконометрические методы, М.: Статистика, 1980, 446с.;

6. Дубров А.В., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М., Финансы и статистика, 2000;

7. Мхитарян В.С., Трошин Л.И. Исследование зависимостей методами корреляции и регрессии. М., МЭСИ, 1995, 120с.;

8. Мхитарян В.С., Дубров А.М., Трошин Л.И. Многомерные статистические методы в экономике. М., МЭСИ, 1995, 149с.;

9. Дубров А.М., Мхитарян В.С., Трошин Л.И. Математическая статистика для бизнесменов и менеджеров. М., МЭСИ, 2000, 140с.;

10. Лукашин Ю.И. Регрессионные и адаптивные методы прогнозирования: Учебное пособие, М., МЭСИ, 1997.

11. Лукашин Ю.И. Адаптивные методы краткосрочного прогнозирования. ‑ М., Статистика, 1979.


ПРИЛОЖЕНИЯ


Приложение 1 . Варианты заданий для самостоятельных компьютерных исследований.