Множественная линейная регрессия. Понятие о множественной регрессии. классическая линейная модель множественной регрессии (клммр). определение параметров уравнения множественной регрессии методом наименьших квадратов

      Оценка параметров модели уравнения множественной регрессии

В реальных ситуациях поведение зависимой переменной невозможно объяснить только с помощью одной зависимой переменной. Лучшее объяснение обычно дают несколько независимых переменных. Регрессионная модель, включающая несколько независимых переменных, называется множественной регрессией. Идея вывода коэффициентов множественной регрессии сходна с парной, но обычное алгебраическое их представление и вывод становятся весьма громоздкими. Для современных вычислительных алгоритмов и наглядного представления действий с уравнением множественной регрессии используется матричная алгебра. Матричная алгебра делает возможным представление операций над матрицами аналогичным операциям над отдельными числами и, тем самым определяет свойства регрессии в ясных и сжатых терминах.

Пусть имеется набор из n наблюдений с зависимой переменной Y , k объясняющими переменными X 1 , X 2 ,..., X k . Можно записать уравнение множественной регрессии следующим образом:

В терминах массива исходных данных это выглядит так:

=
(3.2).

Коэффициенты и параметры распределения  неизвестны. Наша задача состоит в получении этих неизвестных. Уравнения, входящие в (3.2), в матричной форме имеют вид:

Y = X + , (3.3)

где Y – вектор вида (y 1 ,y 2 , … ,y n) t

X – матрица, первый столбец которой составляют n единиц, а последующие k столбцов x ij , i = 1,n;

 - вектор коэффициентов множественной регрессии;

 - вектор случайной составляющей.

Чтобы продвинуться к цели оценивания вектора коэффициентов , необходимо принять несколько предположений относительно того, как генерируются наблюдения, содержащиеся в (3.1):

E () = 0 ; (3.а)

E ( ) = 2 I n ; (3.б)

X – множество фиксированных чисел; (3.в)

 (X ) = k < n . (3.г)

Первая гипотеза означает, что E ( i ) = 0 для всех i , то есть переменные i имеют нулевую среднюю. Предположение (3.б) – компактная запись второй очень важной гипотезы. Так как – вектор-столбец размерности n 1, а  – вектор-строка, произведение  – симметрическая матрица порядка n и

E () E ( 1 2 ) ... E ( 1 n ) 2 0 ... 0

E ( ) = E ( 2 1 ) E () ... E ( 2 n ) = 0 2 ... 0

E ( n 1 ) E ( n 2 ) ... E () 0 0 ... 2

Элементы, стоящие на главной диагонали, свидетельствуют о том, что E( i 2 ) = 2 для всех i . Это означает, что все i имеют постоянную дисперсию 2 – свойство, в связи с которым говорят о гомоскедастичности. Элементы, не стоящие на главной диагонали, дают нам E( t t+s ) = 0 для s  0, так что значения i попарно некоррелированы. Гипотеза (3.в), в силу которой матрица X образована из фиксированных (неслучайных) чисел, означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора , и поэтому свойства наших оценок и критериев обусловлены матрицей наблюдений X . Последнее предположение относительно матрицы X , ранг которой принимается равным k , означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров), и что не существует строгой зависимости между объясняющими переменными. Это соглашение простирается на все переменные X j , включая переменную X 0 , значение которой всегда равно единице, что соответствует первому столбцу матрицы X .

Оценка регрессионной модели с коэффициентами b 0 , b 1 ,…,b k , которые являются оценками неизвестных параметров 0 , 1 ,…, k и наблюдаемыми ошибками e , которые являются оценками ненаблюдаемых , может быть записана в матричной форме следующим образом


(3.4).

При использовании правил матричного сложения и умноженияотношения между возможно большими массивами чисел могут быть записаны несколькими символами. Используя правило транспонирования:A = транспонированной A , мы можем представить ряд других результатов. Система нормальных уравнений (для регрессии с любым числом переменных и наблюдений) в матричном формате записывается так:

Х Хb = Х Y (3.5).

Используя правило получения обратной матрицы: A -1 = инверсия A, мы можем решить систему нормальных уравнений путем перемножения каждой стороны уравнения (3.5) с матрицей Х) -1 :

Х) -1 Х)b = (Х Х) -1 X Y

Ib = (Х Х) -1 X Y

Где I – матрица идентификации (единичная матрица), являющаяся результатом умножения матрицы на обратную. Поскольку Ib=b , мы получаем решение нормальных уравнений в терминах метода наименьших квадратов для оценки вектора b :

b = (Х Х) -1 X Y (3.6).

Отсюда, для любого числа переменных и значений данных, мы получаем вектор параметров оценки, транспонирование которых есть b 0 , b 1 ,…,b k, как результат матричных операций над уравнением (3.6).

Представим теперь и другие результаты. Предсказанное значение Y, которое мы обозначаем как , корреспондирует с наблюдаемыми значениями Y как:
(3.7).

Поскольку b = (Х Х) -1 X Y , то мы можем записать подогнанные значения в терминах трансформации наблюдаемых значений:

(3.8).

Обозначив
, можем записать
.

Все матричные вычисления осуществляются в пакетах программ по регрессионному анализу.

Матрица ковариации коэффициентов оценки b задана как:

, это следует из того, что

Поскольку неизвестно и оценивается МНК, то мы имеем оценку ковариации матрицыb как:
(3.9).

Если мы обозначим матрицу С как
, то оценка стандартной ошибки каждогоb i есть

(3.10),

где С ii – диагональ матрицы.

      Спецификация модели. Ошибки спецификации

Журнал «Quarterly Review of Economics and Business» приводит данные о вариации дохода кредитных организаций США за период 25 лет в зависимости от изменений годовой ставки по сберегательным депозитам и числа кредитных учреждений. Логично предположить, что, при прочих равных условиях, предельный доход будет положительно связан с процентной ставкой по депозиту и отрицательно с числом кредитных учреждений. Построим модель следующего вида:

,

–прибыль кредитных организаций (в процентах);

–чистый доход на один доллар депозита;

–число кредитных учреждений.

Исходные данные для модели:

Анализ данных начинаем с расчета дескриптивных статистик:

Таблица 3.1. Дескриптивныестатистики

Сравнивая значения средних величин и стандартных отклонений, находим коэффициент вариации, значения которого свидетельствуют о том, что уровень варьирования признаков находится в допустимых пределах (< 0,35). Значения коэффициентов асимметрии и эксцесса указывают на отсутствие значимой скошенности и остро-(плоско-) вершинности фактического распределения признаков по сравнению с их нормальным распределением. По результатам анализа дескриптивных статистик можно сделать вывод, что совокупность признаков – однородна и для её изучения можно использовать метод наименьших квадратов (МНК) и вероятностные методы оценки статистических гипотез.

Перед построением модели множественной регрессии рассчитаем значения линейных коэффициентов парной корреляции. Они представлены в матрице парных коэффициентов (таблица 3.2) и определяют тесноту парных зависимостей анализируемыми между переменными.

Таблица 3.2. Коэффициенты парной линейной корреляции Пирсона

В скобках: Prob > |R| under Ho: Rho=0 / N = 25

Коэффициент корреляции между исвидетельствует о значительной и статистически существенной обратной связи между прибылью кредитных учреждений, годовой ставкой по депозитам и числом кредитных учреждений. Знак коэффициента корреляции между прибылью и ставкой по депозиту имеет отрицательный знак, что противоречит нашим первоначальным предположениям, связь между годовой ставкой по депозитам и числом кредитных учреждений – положительная и высокая.

Если мы обратимся к исходным данным, то увидим, что в течение исследуемого периода число кредитных учреждений возрастало, что могло привести к росту конкуренции и увеличению предельной ставки до такого уровня, который и повлек за собой снижение прибыли.

Приведенные в таблице 3.3 линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.

Таблица 3.3. Коэффициенты частной корреляции

В скобках: Prob > |R| under Ho: Rho=0 / N = 10

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары переменных с другими переменными, представленными в модели. Наиболее тесно связаны и,
. Другие взаимосвязи существенно слабее. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости междуипроисходит некоторое завышение оценки тесноты связи между переменными.

Результаты построения уравнения множественной регрессии представлены в таблице 3.4.

Таблица 3.4. Результаты построения модели множественной регрессии

Независимые переменные

Коэффициенты

Стандартные ошибки

t - статистики

Вероятность случайного значения

Константа

x 1

x 2

R 2 = 0,87

R 2 adj =0,85

F = 70,66

Prob > F = 0,0001

Уравнение имеет вид:

y = 1,5645+ 0,2372x 1 - 0,00021x 2.

Интерпретация коэффициентов регрессии следующая:

оценивает агрегированное влияние прочих (кроме учтенных в модели х 1 и х 2 ) факторов на результат y ;

и указывают на сколько единиц изменитсяy при изменении х 1 и х 2 на единицу их значений. Для заданного числа кредитных учреждений, увеличение на 1% годовой ставки по депозитам ведет к ожидаемому увеличению на 0,237% в годовом доходе этих учреждений. При заданном уровне годового дохода на один доллар депозита, каждое новое кредитное учреждение снижает норму прибыли для всех на 0,0002%.

Значения стандартной ошибки параметров представлены в графе 3 таблицы 3.4: Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Их значения используются для расчетаt -критерия Стьюдента (графа 4)

19,705;
=4,269;
=-7,772.

Если значения t -критерия больше 2, то можно сделать вывод о существенности влияния данного значения параметра, которое формируется под влиянием неслучайных причин.

Зачастую интерпретация результатов регрессии более наглядна, если произведен расчет частных коэффициентов эластичности. Частные коэффициенты эластичности
показывают, на сколько процентов от значения своей средней
изменяется результат при изменении фактораx j на 1% от своей средней
и при фиксированном воздействии наy прочих факторов, включенных в уравнение регрессии. Для линейной зависимости
, гдекоэффициент регрессии прив уравнении множественной регрессии. Здесь

Нескорректированный множественный коэффициент детерминации
оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. В нашем примере эта доля составляет 86,53% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов. Иными словами, на весьма тесную связь факторов с результатом.

Скорректированный
(гдеn – число наблюдений, m – число переменных) определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и поэтому может сравниваться по разныммоделям с разным числом факторов. Оба коэффициента указывают на весьма высокую детерминированность результата y в модели факторами x 1 и x 2 .

Для проведения дисперсионного анализа и расчета фактического значения F -критерия заполним таблицу результатов дисперсионного анализа, общий вид которой:

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

С факт.

(SSR )


(MSR)

Остаточная

С ост.

(SSE )

(MSE)

С общ.

(SST )

n -1

Таблица 3.5. Дисперсионный анализ модели множественной регрессии

Колеблемость результативного признака

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

Остаточная

Оценку надежности уравнения регрессии в целом, его параметров и показателя тесноты связи
даетF -критерий Фишера:

Вероятность случайного значения F - критерия составляет 0,0001, что значительно меньше 0,05. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов. То есть подтверждается статистическая значимость всего уравнения, его параметров и показателя тесноты связи – коэффициента множественной корреляции.

Прогноз по модели множественной регрессии осуществляется по тому же принципу, что и для парной регрессии. Для получения прогнозных значений мы подставляем значения х i в уравнение для получения значения. Предположим, что мы хотим узнать ожидаемую норму прибыли, при условии, что годовая ставка депозита составила 3,97%, а число кредитных учреждений – 7115:

Качество прогноза – неплохое, поскольку в исходных данных таким значениям независимых переменных соответствует значение равное 0,70. Мы так же можем вычислить интервал прогноза как
- доверительный интервал для ожидаемого значенияпри заданных значениях независимых переменных:

где MSE – остаточная дисперсия, а стандартная ошибка
для случая нескольких независимых переменных имеет достаточно сложное выражение, которое мы здесь не приводим.
доверительный интервал для значенияпри средних значениях независимых переменных имеет вид:

Большинство пакетов программ рассчитывают доверительные интервалы.

      Гетероскедакстичность

Один из основных методов проверки качества подгонки линии регрессии по отношению к эмпирическим данным – анализ остатков модели.

Остатки или оценка ошибки регрессии могут быть определены как разница между наблюдаемыми y i и предсказанными значениями y i зависимой переменной для заданных значений x i , то есть
. При построении регрессионной модели мы предполагаем, что остатки её - некоррелированные случайные величины, подчиняющиеся нормальному распределению со средней равной нулю и постоянной дисперсией .

Анализ остатков позволяет выяснить:

1. Подтверждается или нет предположение о нормальности?

2. Является ли дисперсия остатков постоянной величиной?

3. Является ли распределение данных вокруг линии регрессии равномерным?

Кроме того, важным моментом анализа, является проверка того - есть ли в модели пропущенные переменные, которые должны быть включены в модель.

Для данных, упорядоченных во времени, анализ остатков может обнаружить имеет ли факт упорядочения влияние на модель, если да, то переменная, задающая временной порядок должна быть добавлена в модель.

И окончательно, анализ остатков обнаруживает верность предположения о некоррелированности остатков.

Самый простой способ анализа остатков – графический. В этом случае на оси Y откладываются значения остатков. Обычно используются, так называемые, стандартизованные (стандартные) остатки:

, (3.11),

где
,

а

В пакетах прикладных программ всегда предусмотрена процедура расчета и тестирования остатков и печати графиков остатков. Рассмотрим наиболее простые из них.

Предположение о гомоскедастичности можно проверить с помощью графика, на оси ординат которого откладывают значения стандартизованных остатков, а на оси абсцисс – значения Х. Рассмотрим гипотетический пример:

Модель с гетероскедастичностью Модель с гомоскедастичностью

Мы видим, что с увеличением значений Х увеличивается вариация остатков, то есть мы наблюдаем эффект гетероскедастичности, дефицит гомогенности (однородности) в вариации Y для каждого уровня. На графике определяем возрастают или убывают Х или Y при возрастании или убывании остатков. Если график не обнаруживает зависимости между и Х, то условие гомоскедастичности выполняется.

Если условие гомоскедастичности не выполняется, то модель не годится для прогноза. Надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

График остатков может помочь и определить есть ли в модели пропущенные переменные. Например, мы собрали данные о потреблении мяса за 20 лет - Y и оцениваем зависимость этого потребления от душевых доходов населения Х 1 и региона проживания Х 2 . Данные упорядочены во времени. После того как построена модель, полезно построить график остатков относительно временных периодов.

Если график обнаруживает наличие тенденции в распределении остатков во времени, то в модель необходимо включить объясняющую переменную t. в дополнение к Х 1 и Х 2 . Это же относится и к любым другим переменным. Если есть тренд в графике остатков, то и переменная должна быть включена в модель наряду с другими уже включенными переменными.

График остатков позволяет определить отклонения от линейности в модели. Если взаимосвязь между Х и Y носит нелинейный характер, то параметры уравнения регрессии будут указывать на плохое качество подгонки. В таком случае остатки будут вначале большими и отрицательными, затем уменьшатся, а потом станут положительными и случайными. Они указывают на криволинейность и график остатков будет иметь вид:

Ситуация может быть исправлена добавлением в модель Х 2 .

Предположение о нормальности так же может быть проверено с помощью анализа остатков. Для этого по значениям стандартных остатков строится гистограмм частот. Если линия, проведенная через вершины многоугольника, напоминает кривую нормального распределения, то предположение о нормальности подтверждается.

      Мультиколлинеарность, способы оценки и устранения

Для того, чтобы множественный регрессионный анализ, основанный на МНК, давал наилучшие результаты мы предполагаем, что значения Х -ов не являются случайными величинами и чтоx i в модели множественной регрессии не коррелированны. То есть каждая переменная содержит уникальную информацию оY , которая не содержится в другихx i . Когда такая идеальная ситуация имеет место, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна изХ может быть точно выражена в терминах другой переменнойХ для всех элементов набора данных. На практике большинство ситуаций находится между этими двумя крайними случаями. Как правило, существует некоторая степень коллинеарности между независимыми переменными. Мера коллинеарности между двумя переменными есть корреляция между ними.

Оставим в стороне предположение о том, что x i не случайные величины и измерим корреляцию между ними. Когда две независимые переменные связаны высокой корреляцией, то мы говорим об эффекте мультиколлинеарности в процедуре регрессионной оценки параметров. В случае очень высокой коллинеарности процедура регрессионного анализа становится неэффективной, большинство пакетов ППП в этом случае выдают предупреждение или прекращают процедуру. Даже, если мы получим в таком ситуации оценки регрессионных коэффициентов, то их вариация (стандартная ошибка) будут очень малы.

Простое объяснение мультиколлинеарности можно дать в матричных терминах. В случае полной мультиколлинеарности, колонки матрицы х -ов – линейно зависимы. Полная мультиколлинеарность означает, что по крайней мере две из переменных х i зависят друг от друга. Из уравнения () видно, что это означает, что колонки матрицы зависимы. Следовательно, матрица
так же мультиколлинеарна и не может быть инвертирована (её детерминант равен нулю), то есть мы не можем вычислить
и не можем получить вектор параметров оценкиb . В случае, когда мультиколлинеарность присутствует, но не полная, то матрица – обращаемая, но не стабильная.

Причинами мультиколлинеарности могут быть:

1) Способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, с помощью регрессии мы оцениваем влияние на размер жилья Y доходов семьи Х 1 и размера семьи Х 2 . Если мы соберем данные только среди семей большого размера и высокими доходами и не включим в выборку семьи малого размера и с небольшими доходами, то в результате получим модель с эффектом мультиколлинеарности. Решением проблемы в этом случае будет улучшение схемы выборки.

В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением проблемы здесь может быть исключение одной из переменных модели.

2) Другая причина мультиколлинеарности может состоять в высокой мощности X i . Например, для линеаризации модели мы вводим дополнительный термин X 2 в модель, которая содержит X i . Если разброс значений Х незначителен, то мы получим высокую мультиколлинеарность.

Каким бы ни был источник мультиколлинеарности, важно избежать его появления.

Мы уже говорили, что компьютерные пакеты обычно выдают предупреждение о мультиколлинеарности или даже останавливают вычисления. В случае не столь высокой коллинеарности компьютер выдаст нам регрессионное уравнение. Но вариация оценок будет близка к нулю. Существуют два основных метода, доступных во всех пакетах, которые помогут нам решить эту проблему.

    Вычисление матрицы коэффициентов корреляции для всех независимых переменных. Например, матрица коэффициентов корреляции между переменными в примере из параграфа 3.2 (таблица 3.2) указывает на то, что коэффициент корреляции между х 1 и х 2 очень велик, то есть эти переменные содержат много идентичной информации о y и, следовательно, коллинеарны.

Надо заметить, что не существует единого правила, согласно которому есть некоторое пороговое значение коэффициента корреляции, после которого высокая корреляция может оказать отрицательный эффект на качество регрессии.

    Мультиколлинеарность может иметь причиной более сложные взаимосвязи между переменными нежели парные корреляции между независимыми переменными. Это влечет за собой использование второго метода определения мультиколлинеарности, который называется “фактор инфляции вариации”.

Степень мультиколлинеарности, представляемая в регрессии переменной , когда переменные,,…,включены в регрессию, есть функция множественной корреляции междуи другими переменными,,…,. Предположим, что мы рассчитаем регрессию не поy , а по , как зависимой переменной, и оставшимисякак независимыми. Из этой регрессии мы получимR 2 , значение которого – мера мультиколлинеарности привносимой переменной . Повторим, что основная проблема мультиколлинеарности – обесценивание дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF “variation inflation factor”, ассоциируемый с переменной:

(3.12),

где – значение коэффициента множественной корреляции, полученное для регрессоракак зависимой переменной и остальных переменных.

Можно показать, что VIF переменной равен отношению дисперсии коэффициентаb h в регрессии с y как зависимой переменной и дисперсией оценки b h в регрессии где не коррелированна с другими переменными. VIF – это фактор инфляции дисперсии оценки по сравнению с той вариацией, которая была бы, если быне имел коллинеарности с другими x переменными в регрессии. Графически это можно изобразить так:

Как видно из рисунка 7, когда R 2 от увеличивается по отношению к другим переменным от 0,9 до 1 VIF становится очень большим. Значение VIF, например, равное 6 означает, что дисперсия регрессионных коэфиициентовb h в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Исследователи используют VIF = 10 как критическое правило для определения является ли корреляция между независимыми переменными слишком большой. В примере из параграфа 3.2 значение VIF = 8,732.

Как еще можно обнаружить эффект мультиколлинеарности без расчета корреляционной матрицы и VIF.

    Стандартная ошибка в регрессионных коэффициентах близка к нулю.

    Мощность коэффициента регрессии не та, что Вы ожидали.

    Знаки коэффициентов регрессии противоположны ожидаемым.

    Добавление или удаление наблюдений в модель сильно изменяет значения оценок.

    В некоторых ситуациях получается, что F – cущественно, а t – нет.

Насколько отрицательно сказывается эффект мультиколлинеарности на качестве модели? В дейсвительности проблема не столь страшна как кажется. Если мы используем уравнение для прогноза. То интерполяция результатов даст вполне надежные результаты. Эксторополяция приведет к значительным ошибкам. Здесь необходимы другие методы корректировки. Если мы хотим измерить влияние некоторых определенных перменных на Y, то здесь так же могут возникнуть проблемы.

Для решения проблемы мультиколлинеарности можно предпринять следующее:

    Удалить коллинеарные переменные. Это не всегда возможно в эконометрических моделях. В этом случае необходимо использовать другие методы оценки (обобщенный метод наименьших квадратов).

    Исправить выборку.

    Изменить переменные.

    Использовать гребневую регрессию.

      Гетероскедастичность, способы выявления и устранения

Если остатки модели имеют постоянную дисперсию, они называются гомоскедастичными, но если они непостоянны, то гетероскедастичными.

Если условие гомоскедастичности не выполняется, то надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

Например, нас интересуют факторы, влияющие на выпуск продукции на предприятиях определенной отрасли. Мы собрали данные о величине фактического выпуска, численности работников и стоимости основных фондов (основного капитала) предприятий. Предприятия различаются по величине и мы вправе ожидать, что для тех из них, объем выпускаемой продукции в которых выше, термин ошибки в рамках постулируемой модели будет так же в среднем больше, чем для малых предприятий. Следовательно, вариация ошибки не будет одинаковой для всех предприятий, она, скорее всего, будет возрастающей функцией от размера предприятия. В такой модели оценки не будут эффективными. Обычные процедуры построения доверительных интервалов, проверки гипотез для этих коэффициентов не будут надежными. Поэтому важно знать приемы определения гетероскедастичности.

Влияние гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то стандартные ошибки оценки будут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то стандартные ошибки оценки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу о значимости коэффициента регрессии, в то время как она должна быть отклонена.

Обсудим формальную процедуру определения гетероскедастичности, когда условие постоянства дисперсии нарушено.

Предположим, что регрессионная модель связывает зависимую переменную и с k незавввисимыми переменными в наборе из n наблюдений. Пусть
- набор коэффициентов, полученных МНК и теоретическое значение переменной есть, остатки модели:
. Нуль-гипотеза состоит в том. что остатки имеют одинаковую дисперсию. Альтернативная гипотеза состоит в том, что их дисперсия зависит от ожидаемых значений:. Для проверки гипотезы проводим оценку линейной регрессии. в которой зависимая переменная есть квадрат ошибки, то есть, а независимая переменная – теоретическое значение. Пусть
- коэффициент детерминации в этой вспомогательной дисперсии. Тогда для заданного уровня значимости нуль-гипотеза отклоняется, если
больше чем, гдеесть критическое значение СВ
с уровнем значимости и одной степенью свободы.

В случае, если мы подтвердим гипотезу о том, что дисперсия ошибки регрессии не является постоянной величиной, то метод наименьших квадратов не приводит к наилучшей подгонке. Могут быть использованы различные способы подгонки, выбор альтернатив зависит от того, как дисперсия ошибки ведет себя с другими переменными. Чтобы решить проблему гетероскедастичности, нужно исследовать взаимосвязь между значением ошибки и переменными и трансформировать регрессионную модель так, чтобы она отражала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций переменной, которая приводит к гетероскедастичности.

Одна из возможностей устранения гетероскедастичности состоит в следующем. Предположим, что вероятность ошибки прямо пропорциональна квадрату ожидаемого значения зависимой переменной при заданных значениях независимой, так что

В этом случае можно использовать простую двухшаговую процедуру оценки параметров модели. На первом шаге модель оценивается при помощи МНК обычным способом и формируется набор значений . На втором шаге оценивается регрессионное уравнение следующего вида:

Где - ошибка дисперсии, которая будет постоянной. Это уравнение будет представлять регрессионную модель, к которой зависимая переменная -, а независимые -
. Затем коэффициенты оцениваются МНК.

Появление гетероскедастичности часто вызывается тем, что оценивается линейная регрессия, в то время как необходимо оценивать лог-линейную регрессию. Если обнаружена гетероскедастичность, то можно попытаться переоценить модель в логарифмической форме, особенно если содержательный аспект модели не противоречит этому. Особенно важно использование логарифмической формы, когда ощущается влияние наблюдений с большими значениями. Этот подход весьма полезен, в случае если изучаемые данные – временные ряды таких экономических переменных, как потребление, доходы, деньги, которые имеют тенденцию к экспоненциональному распределению во времени.

Рассмотрим другой подход, например,
, где X i – независимая переменная (или какая-либо функция независимой переменной), которая предположительно является причиной гетероскедастичности, а Н отражает степень взаимосвязи между ошибками и данной переменной, например, Х 2 или Х 1/n и т.д. Следовательно, дисперсия коэффициентов запишется:
. Отсюда, если H=1 , то мы трансформируем регрессионную модель к виду:
. Если Н=2, то есть дисперсия увеличивается в пропорции к квадрату рассматриваемой переменой Х, трансформация приобретает вид:
.

Разберем пример с проверкой гетероскедастичности в модели, построенной по данным примера из параграфа 3.2. Для визуального контроля гетероскедастичности построим график остатков и предсказанных значений .

Рис.8. График распределения остатков модели, построенной по данным примера

На первый взгляд график не обнаруживает наличия зависимости между значениями остатков модели и . Для более точной проверки рассчитаем регрессию, в которой остатки модели, возведенные в квадрат, - зависимая переменная, а- независимая:
. Значение стандартной ошибки оценки равно 0,00408,
=0,027, отсюда
=250,027=0,625. Табличное значение
=2,71. Таким образом, нуль-гипотеза, о том, что ошибка регрессионного уравнения имеет постоянную дисперсию, не отклоняется на 10% уровне значимости.

В современных компьютерных пакетах по регрессионному анализу предусмотрены специальные процедуры диагностики гетераскедастичности и её устранения.

Классический метод наименьших квадратов (МНК) для модели множественной регрессии. Свойства оценок МНК для модели множественной регрессии и показатели качества подбора регрессии: коэффициент множественной корреляции, коэффициенты частной корреляции, коэффициент множественной детерминации

Мультиколлинœеарность факторов. Признаки мультиколлинœеарности и способы ее устранения. Гомоскедастичность и гетероскедастичность остатков. Графический метод обнаружения гетероскедастичности. Причины и последствия гетероскедастичности.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

На любой экономический показатель чаще всœего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. Сегодня множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определœение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что крайне важно ответить на вопрос, какие факторы следует включить в регрессию (1), а какие – исключить из неё.

Самой употребляемой и наиболее простой из моделœей множественной регрессии является линœейная модель множественной регрессии:

Параметр α принято называть свободным членом и определяет значение y в случае, когда всœе объясняющие переменные равны нулю. При этом, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу лишь при условии, что всœе остальные факторы остались неизменными. Величина ε представляет собой случайную ошибку регрессионной зависимости.

Получение оценок параметров уравнения регрессии (2) – одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии.

Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака:

Для однозначного определœения значений параметров уравнения (4) объём выборки n должен быть не меньше количества параметров, ᴛ.ᴇ. . В противном случае значения параметров не бывают определœены однозначно. В случае если n=p +1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (p +1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линœейных алгебраических уравнений (СЛАУ). При этом с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. По этой причине для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Линейная модель множественной регрессии - понятие и виды. Классификация и особенности категории "Линейная модель множественной регрессии" 2017, 2018.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

1. ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ

При построении модели множественной регрессии для отображения зависимости между объясняемой переменной Y и независимыми (объясняющими) переменнымиX 1 ,X 2 , …,X k могут использоваться показательная, параболическая и многие другие функции. Однако наибольшее распространение получили модели линейной взаимосвязи, когда факторы входят в модель линейно.

Линейная модель множественной регрессии имеет вид

где k – количество включенных в модель факторов.

Коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признакY , если переменнуюX j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения:

где Y – это вектор зависимой переменной размерности, представляющий собойn наблюдений значенийy i ;X – матрицаn наблюдений независимых переменныхX 1 , X 2 , …, X k , размерность матрицыX равна

; а - подлежащий оцениванию вектор неизвестных параметров

Таким образом,

Уравнение (1) содержит значения неизвестных параметров

. Эти величины оцениваются на основе выборочных

наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки.

Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид

Оценка параметров модели множественной регрессии проводится с помощью метода наименьших квадратов. Формулу для вычисления

параметров регрессионного уравнения приведем без вывода:

Отбор факторов, включаемых в регрессию – один из важнейших этапов построения модели регрессии. Подходы к отбору факторов могут быть разные: один из них основан на анализе матрицы коэффициентов парной корреляции, другой – на процедурах пошагового отбора факторов.

Перед построением модели множественной регрессии вычисляются парные коэффициенты линейной корреляции между всеми исследуемыми переменными Y ,X 1 , X 2 , …, X m , и из них формируется матрица

Вначале анализируют коэффициенты корреляции, отражающие тесноту связи зависимой переменной со всеми включенными в анализ факторами, с целью отсева незначимых переменных.

Затем переходят к анализу остальных столбцов матрицы с целью выявления мультиколлинеарности.

Ситуация, когда два фактора связаны между собой тесной линейной связью (парный коэффициент корреляции между ними превышает по абсолютной величине 0,8), называется коллинеарностью факторов . Коллинеарные факторы фактически дублируют друг друга в модели, существенно ухудшая ее качество.

Наибольшие трудности возникают при наличии мультикоминеарности факторов, когда тесной связью одновременно связаны несколько факторов, т.е. когда нарушается одна из предпосылок регрессионного анализа, состоящая в том, что объясняющие переменные должны быть независимы.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Мультиколлинеарность может

приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели;

стохастической , когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. В этом случае определитель матрицы не равен нулю, но очень мал. Экономическая интерпретация параметров уравнения регрессии при этом затруднена, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Оценки

параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Существует несколько способов для определения наличия или отсутствия мультиколлинеарности:

анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8:

исследование матрицы. Если определитель матрицы близок к нулю, это свидетельствует о наличии мультиколлинеарности.

Для выявления второй ситуации служит тест на мультиколлинеарность Фаррара-Глоубера. С помощью этого теста проверяют, насколько значимо определитель матрицы парных коэффициентов корреляции отличается от единицы. Если он равен нулю, то столбцы матрицыX линейно зависимы и вычислить оценку коэффициентов множественной регрессии по методу наименьших квадратов становится невозможно.

Этот алгоритм содержит три вида статистических критериев проверки наличия мультиколлинеарности:

1) всего массива переменных (критерий «хи-квадрат»);

2) каждой переменной с другими переменными (F -критерий);

3) каждой пары переменных (t -тест).

2) Вычислить наблюдаемое значение статистики Фаррара-Глоубера по формуле

Эта статистика имеет распределение (хи-квадрат).

3) Фактическое значение -критерия сравнить с табличным значением

при 0,5k (k – 1) степенях свободы и уровне значимостиα . ЕслиFG набл больше табличного, то в массиве объясняющих переменных

существует мультиколлинеарность.

2. Проверка наличия мультиколлинеарности каждой переменной другими переменными (F - критерий ):

где c ij – диагональные элементы матрицыC.

3) Фактические значения F -критериев сравнить с табличным значением

при v 1 =k ,v 2 =n – k – 1 степенях свободы и уровне значимостиα , гдеk

– количество факторов. Если F j >F табл , то соответствующая j -я независимая переменная мультиколлинеарна с другими.

3. Проверка наличия мультиколлинеарности каждой пары переменных (t -

тест).

1) Вычислить коэффициент детерминации для каждой переменной:

2) Найти частные коэффициенты корреляции:

где c ij - элемент матрицыС . содержащийся в i -й строке и j -м столбце;c ii иc jj – диагональные элементы матрицыС .

3) Вычислить t -критерии:

4) Фактические значения критериев t ij сравнить с табличнымt табл при (n –

мультиколлинеарность.

Разработаны различные методы устранения или уменьшения мультиколлинеарности. Самый простой из них, но не всегда самый эффективный, состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают исходя из экономических соображений.

Для устранения мультиколлинеарности можно также:

добавить в модель важный фактор для уменьшения дисперсии случайного члена;

изменить или увеличить выборку;

преобразовать мульти коллинеарные переменные и др.

Другой метод устранения или уменьшения мультиколлинеарности – использование стратегии шагового отбора, реализованной в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии:

метод включения – дополнительное введение фактора;

метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции. Это позволяет последовательно отбирать факторы, оказывающие существенное влияние на результативный признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий сY вторым – тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсиюY.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее по модулю значение t -критерия. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна из этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Качество модели регрессии проверяется на основе анализа остатков регрессии ε. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод опенки коэффициентов. Согласно общим предположениям регрессионного анализа остатки должны вести себя как независимые (в действительности – почти независимые) одинаково распределенные случайные величины.

Исследование полезно начинать с изучения графика остатков. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости междуY иX график

остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения – выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как они могут грубо искажать значения оценок. Чтобы устранить эффект выбросов, надо либо удалить эти точки из анализируемых данных (эта процедура называется цензурированием), либо применять методы оценивания параметров, устойчивые к подобным грубым отклонениям.

Качество модели регрессии оценивается по следующим направлениям:

проверка качества уравнения регрессии;

проверка значимости уравнения регрессии;

анализ статистической значимости параметров модели;

проверка выполнения предпосылок МНК.

Для проверки качества уравнения регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R и коэффициент детерминацииR 2 . Чем ближе к единице значения этих характеристик, тем выше качество модели.

4.1. Матричная форма регрессионной модели

Экономическое явление определяется большим числом одновременно и совокупно действующих факторов. Модель множественной регрессии запишется так:

Модель линейной множественной регрессии можно записать в матричной форме, имея в виду, что коэффициенты α и β заменены их оценками.

Матрица X T X – неособенная и её ранг равен её размеру, то есть (р +1).

4.2. Отбор факторов для моделей множественной регрессии

Факторы, включаемые в модель, должны существенным образом объяснить вариацию результативной переменной.

Существует ряд способов отбора факторов, наибольшее распространение из которых имеют метод короткой регрессии и метод длинной регрессии.

При использовании метода короткой регрессии в начале в модель включают только наиболее важные факторы с экономически содержательной точки зрения.

С этим набором факторов строится модель и для неё определяются показатели качества ESS , R 2 , F , t a , t bj . Затем в модель добавляется следующий фактор и вновь строится модель. Проводится анализ, улучшилась или ухудшилась модель по совокупности критериев. При этом возможно появление парето – оптимальных альтернатив.

Метод длинной регрессии предполагает первоначальное включение в модель всех подозрительных на существенность факторов. Затем какой-либо фактор исключают из модели и анализируют изменение её качества. Если качество улучшится, фактор удаляют и наоборот. При отборе факторов следует обращать внимание на наличие интеркорреляции и мультиколлинеарности.

Сильная корреляция между двумя факторами (интеркорреляция) не позволяет выявить изолированное влияние каждого из них на результативную переменную, то есть затрудняется интерпретация параметров регрессии и они утрачивают истинный экономический смысл. Оценки значений этих параметров становятся ненадёжными и будут иметь большие стандартные ошибки. При изменении объёма наблюдений они могут сильно изменяться, причём не только по величине, но даже и по знаку.

Мультиколлинеарность – явление, когда сильной линейной зависимостью связаны более двух переменных; она приводит к тем же негативным последствиям, о которых только что было сказано. Поэтому, при отборе факторов следует избегать наличия интеркорреляции и, тем более, мультиколлинеарности.

Для обнаружения интеркорреляции и мультиколлинеарности можно использовать анализ матрицы парных коэффициентов корреляции [r (п) ], матрицы межфакторной корреляции [r (11) ] и матрицы частных коэффициентов корреляции [r (ч) ].

Для исключения одного из двух сильно коррелирующих между собой факторов можно руководствоваться таким соображением: из модели бывает целесообразно убрать не тот фактор, который слабее связан с y , а тот, который сильнее связан с другими факторами. Это приемлемо, если связь с y для обоих факторов приблизительно одинакова. При этом возможно наличие парето – оптимальных альтернатив и тогда следует рассмотреть иные аргументы в пользу того или иного фактора.


Матрица [r (11) ] – получается путём вычёркивания первого столбца и первой строки из матрицы [r (п) ].

Матрица [r (11) ] – квадратная и неособенная, ее элементы вычисляются так:

Представляется интересным исследовать определитель det [r (11) ].

Если есть сильная мультиколлинеарность, то почти все элементы этой матрицы близки к единице и det → 0. Если все факторы практически независимы, то в главной диагонали будут стоять величины, близкие к единице, а прочие элементы будут близки к нулю, тогда det→1.

Таким образом, численное значение det [r (11) ] позволяет установить наличие или отсутствие мультиколлинеарности. Мультиколлинеарность может иметь место вследствие того, что какой-либо фактор является линейной (или близкой к ней) комбинацией других факторов.

Для выявления этого обстоятельства можно построить регрессии каждой объясняющей переменной на все остальные. Далее вычисляются соответствующие коэффициенты детерминации

и рассчитывается статистическая значимость каждой такой регрессии по F –статистике:

Критическое значение F определяется по таблице для назначенного уровня значимости γ (вероятности отвергнуть верную гипотезу Н 0 о незначимости R 2), и числа степеней свободы df 1 = p –1, df 2 = n –1.

Оценку значимости мультиколлинеарности можно также произвести путём проверки гипотезы об её отсутствии: Н 0: det [r (11) ] =1. Доказано, что величина: приближённо имеет распределение Пирсона: Если вычисленное значение χ 2 превышает табличное значение для назначенного γ и df = n (n –1)/2, то гипотеза Н 0 отклоняется и мультиколлинеарность считается установленной.

Парные коэффициенты корреляции не всегда объективно показывают действительную связь между факторами. Например, факторы могут по существу явления не быть связаны между собой, но смещаться в одну сторону под влиянием некоторого стороннего фактора, не включенного в модель. Довольно часто таким фактором выступает время. Поэтому включение (если это возможно) в модель переменной t иногда снижает степень интеркорреляции и мультиколлинеарности. Более адекватными показателями межфакторной корреляции являются частные коэффициенты корреляции. Они отражают тесноту статистической связи между двумя переменными при элиминировании влияния других факторов.

Здесь b 1 будет являться несмещенной оценкой параметра β 1 , а b 2 будет несмещенной оценкой нуля (при выполнении условий Гаусса-Маркова).

Утрата эффективности в связи с включением x 2 в случае, когда она не должна быть включена, зависит от корреляции между x 1 и x 2 .

Сравним (см. табл. 4.1).

Если выбранная в качестве объясняющей переменной величина представляет собой действительно доминирующий фактор, то соответствующая парная регрессия достаточно полно описывает механизм причинно-следственной связи. Часто изменение y связано с влиянием не одного, а нескольких факторов. В этом случае в уравнение регрессии вводятся несколько объясняющих переменных. Такая регрессия называется множественной. Уравнение множественной регрессии позволяет лучше, полнее объяснить поведение зависимой переменной, чем парная регрессия, кроме того, оно дает возможность сопоставить эффективность влияния различных факторов.

Линейная модель множественной регрессии имеет вид:

где m – количество включенных в модель факторов. Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак y , если переменную увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Уравнение линейной модели множественной регрессии в матричном виде имеет вид:

, (7.11)

где Y n х1 наблюдаемых значений зависимой переменной;

X – матрица размерности n х(m+1) наблюдаемых значений независимых переменных (дополнительно вводится фактор, состоящий из одних единиц для вычисления свободного члена);

α – вектор-столбец размерности (m+1) х1 неизвестных, подлежащих оценке коэффициентов регрессии;

ε – вектор-столбец размерности n х1 случайных отклонений.

Таким образом,

,, ,.

При применении МНК относительно случайной составляющей в модели (7.10) принимаются предположения, которые являются аналогами предположений, сделанных выше для МНК, применяемого при оценивании параметров парной регрессии. Обычно предполагается:

1. - детерминированные переменные.

2. - математическое ожидание случайной составляющей в любом наблюдении равно нулю.

3. - дисперсия случайного члена постоянна для всех наблюдений.

4. - в любых двух наблюдениях отсутствует систематическая связь между значениями случайной составляющей.

5. ~ - часто добавляется условие о нормальности распределения случайного члена.

Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется классической нормальной регрессионной моделью (Classical Normal Regression model).

Гипотезы, лежащие в основе модели множественной регрессии удобно записать в матричной форме:

1. Х – детерминированная матрица, имеет максимальный ранг (m+1) , ρ(Х)=m+1. Эта гипотеза означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора ε, поэтому свойства оценок обусловлены матрицей наблюдений Х. Предположение относительно матрицы Х, ранг которой принимается равным (m+1) ,означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров) и не существует строгой линейной зависимости между объясняющими переменными. Это соглашение распространяется на все переменные Х, включая переменную, значение которой всегда равно единице, что соответствует первому столбцу матрицы Х. Если, например, одна объясняющая переменная будет равна другой, умноженной на некоторую константу, или одна будет линейно выражаться через несколько других, то ранг матрицы окажется меньше (m+1) , следовательно, ранг матрицы Х Т Х тоже будет меньше (m+1) . Наличие линейной зависимости между столбцами матрицы Х привело бы к вырождению симметрической матрицы Х Т Х, в результате чего перестала бы существовать обратная матрица (Х Т Х) -1 , которая играет решающую роль в процедуре оценивания.



3,4. , где I n – единичная матрица размером n xn . Так как ε - вектор-столбец, размерности n х1 , а ε Т – вектор-строка, произведение εε Т есть симметрическая матрица порядка n . Матрица ковариаций:

,

Элементы, стоящие на главной диагонали, свидетельствуют о том, что для всех i , это означает, что все имеют постоянную дисперсию . Элементы, не стоящие на главной диагонали дают нам для , так что значения попарно некоррелированы.