Уравнение регрессии. Уравнение множественной регрессии

1. Модель с двумя независимыми переменными.

2. Оценка коэффициентов модели множественной регрессии методом наименьших квадратов.

3. Парная и частная корреляция в модели множественной регрессии.

4. Оценка качества модели множественной регрессии.

5. Мультиколлинеарность и методы ее устранения.

6. Интерпретация коэффициентов модели множественной регрессии.

Множественная регрессия - это уравнение статистической связи с несколькими независимыми переменными:

y = f (x 1 , x 2 , x p)

где y - зависимая переменная (результативный признак);

x 1 , x 2 , x p - независимые переменные (факторы).

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как с соответствующей остаточной дисперсией .

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй - на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

0,8 0,7 0,6
0,8 0,8 0,5
0,7 0,8 0,2
0,6 0,5 0,2

Очевидно, что факторы и дублируют друг друга. В анализ целесообразно включить фактор , а не , хотя корреляция с результатом слабее, чем корреляция фактора с , но зато значительно слабее межфакторная корреляция . Поэтому в данном случае в уравнение множественной регрессии включаются факторы , .


По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга . Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

1. Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

2. Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

.

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если , то возможно построение следующего совмещенного уравнения:

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по -критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

1. Метод исключения - отсев факторов из полного его набора.

2. Метод включения - дополнительное введение фактора.

3. Шаговый регрессионный анализ - исключение ранее введенного фактора.

2 Множественная линейная регрессия

2.1 Определение параметров уравнения регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Задача оценки статистической взаимосвязи переменных и
формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде:

, (2.2)

где
– вектор независимых (объясняющих) переменных; – вектор параметров (подлежащих определению); – случайная ошибка (отклонение); – зависимая (объясняемая) переменная.

Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии – модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений
:

Здесь
– вектор размерности
неизвестных параметров.
называется -тым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины к изменению величины , т.е. отражает влияние на условное математическое ожидание
зависимой переменной объясняющей переменной при условии, что все другие объясняющие переменные модели остаются постоянными. – свободный член, определяющий в случае, когда все объясняющие переменные равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии. Пусть имеется наблюдений вектора объясняющих переменных и зависимой переменной :

Для того чтобы однозначно можно было решить задачу нахождения параметров
(т.е. найти некоторый наилучший вектор ), должно выполняться неравенство
. Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между
и будет абсолютно точно соответствовать имеющимся наблюдениям.

Например, для однозначного определения оценок параметров уравнения регрессии достаточно иметь выборку из трех наблюдений . В этом случае найденные значения параметров
определяют такую плоскость в трехмерном пространстве, которая пройдет именно через три точки. С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка
практически наверняка будет лежать вне построенной плоскости, что потребует определенной переоценки параметров.

Число
называется числом степеней свободы . Если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность верного вывода (получения более точных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в три раза превосходило число оцениваемых параметров.

Самым распространенным методом оценки параметров уравнения множественной регрессии является метод наименьших квадратов (МНК).

Предпосылки МНК :

Как и в случае парной регрессии, истинные значения параметров по выборке получить невозможно. В этом случае вместо теоретического уравнения регрессии оценивается эмпирическое уравнение регрессии:

Здесь
– оценки теоретических значений коэффициентов регрессии (эмпирические коэффициенты регрессии); – оценка отклонения . Для индивидуальных наблюдений имеем:

При выполнении предпосылок МНК относительно ошибок оценки параметров множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

На основании (2.6): . (2.7)

Тогда по методу наименьших квадратов для нахождения оценок минимизируется следующая функция:

. (2.8)

Необходимым условием минимизации функции является равенство нулю всех ее частных производных по , т.е.:

(2.9)

Приравнивая их к нулю, получаем систему
линейных уравнений с неизвестными. Такая система обычно имеет единственное решение и называется системой нормальных уравнений. Ее решение в явном виде наиболее наглядно представимо в векторно-матричной форме.

2.2 Расчет коэффициентов множественной линейной регрессии

Данные наблюдений и соответствующие коэффициенты в матричной форме выглядят следующим образом:




.

Здесь
-мерный вектор-столбец наблюдений зависимой переменной ; – матрица размерности
, в которой -тая строка
представляет наблюдение вектора значений независимых переменных ; единица соответствует переменной при свободном члене ; – вектор-столбец размерности параметров уравнения регрессии; – вектор-столбец размерности отклонений выборочных (реальных) значений зависимой переменной от значений , получаемых по уравнению регрессии

Функция
в матричной форме представима как произведение вектор-строки
на вектор-столбец . Вектор-столбец может быть в свою очередь представлен в следующем виде:

. (2.11)

Здесь
– векторы и матрицы, транспонированные к
соответственно. При выводе формулы использовались следующие известные соотношения линейной алгебры:

Необходимым условием экстремума функции является равенство нулю ее частных производных
по всем параметрам
. Вектор-столбец частных производных в матричном виде выглядит следующим образом:

. (2.12)

Рассмотрим более подробно нахождение . Очевидно, что

от не зависит, следовательно,
.

Обозначим вектор-столбец
размерности через . Тогда
, где – соответствующий элемент вектора . Поэтому
.

Обозначим матрицу
размерности через . Тогда



.

Следовательно, частная производная
.

В результате имеем
.

Следовательно, формула (2.12) справедлива. Приравняв к нулю, получаем:

(2.13)

(2.14)

Здесь
– матрица, обратная к .

Полученные общие соотношения справедливы для уравнений регрессии с произвольным количеством
объясняющих переменных. Проанализируем полученные результаты для случаев:


,
,
, .

Из (2.11) следует: , т.е.

.

Из (2.14) следует

(2.15)


(2.16)

Решение данной системы имеет вид:

(2.17)

2.3 Анализ качества эмпирического уравнения множественной линейной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей оценкой является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки, которая проводится по следующим направлениям:

    проверка статистической значимости коэффициентов уравнения регрессии;

    проверка общего качества уравнения регрессии;

    проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Прежде чем проводить анализ качества уравнения регрессии, необходимо определить дисперсии и стандартные ошибки коэффициентов, а также интервальные оценки коэффициентов.

Выборочные дисперсии эмпирических коэффициентов регрессии можно определить следующим образом:

. (2.18)

Здесь – -тый диагональный элемент матрицы
.

При этом:

, (2.19)

где – количество объясняющих переменных модели. Иногда в формуле (2.19) знаменатель представляют в виде
, подразумевая под число параметров модели (подлежащих определению коэффициентов регрессии).

В частности, для уравнения
с двумя объясняющими переменными используются следующие формулы:

,

,

,
,
. (2.20)

Здесь – выборочный коэффициент корреляции между объясняющими переменными и
; – стандартная ошибка коэффициента регрессии; – стандартная ошибка регрессии (несмещенная оценка).

По аналогии с парной регрессией после определения точечных оценок коэффициентов (
) теоретического уравнения регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов. Доверительный интервал, накрывающий с надежностью
неизвестное значение параметра , определяется как

(2.21)

Проверка статистической значимости коэффициентов уравнения регрессии.

Как и в случае парной регрессии, статистическая значимость коэффициентов множественной линейной регрессии с объясняющими переменными проверяется на основе -статистики:

, (2.22)

имеющей в данном случае распределение Стьюдента с числом степеней свободы . При требуемом уровне значимости наблюдаемое значение -статистики сравнивается с критической точной
распределения Стьюдента.

В случае, если
, то статистическая значимость соответствующего коэффициента регрессии подтверждается. Это означает, что фактор линейно связан с зависимой переменной . Если же установлен факт незначимости коэффициента , то рекомендуется исключить из уравнения переменную . Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

При оценке значимости коэффициентов линейной регрессии на начальном этапе также можно использовать «грубое» правило, рассмотренное в главе 1.3, позволяющее не прибегать к таблицам.

Проверка общего качества уравнения регрессии

Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации
:

(2.23)

Справедливо соотношение
. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. может принимать отрицательные значения., то критерия мультиколлинеарности может быть принято... пределах. 5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии ). 1) t-статистика...

  • Аннотация дисциплины (12)

    Автореферат диссертации

    Информационная сеть Интернет. Раздел 14 . Корпоративные информационные сети. Раздел... множественной регрессии . Парная линейная регрессия . Множественная линейная регрессия . Проверка качества уравнения регрессии . Нелинейные модели регрессии и линеаризация...

  • Федеральное государственное бюджетное образовательное (44)

    Задача

    О значимости выборочного коэффициента корреляции. Проверка качества уравнения регрессии . Классическая регрессионная модель. Предпосылки... Статические оценки параметров распределения 3 6 14 ,15 4 3 3 ИЗ–6 14 Проверка статистических гипотез 3 6 16 2 1 ...

  • Суть регрессионного анализа : построение математической модели и определение ее статистической надежности.

    Вид множественной линейной модели регрессионного анализа: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i где e i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s .

    Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

    Экономический смысл параметров множественной регрессии
    Коэффициент множественной регрессии b j показывает, на какую величину в среднем изменится результативный признак Y , если переменную X j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

    Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y (n x 1) наблюдаемых значений результативного признака (y 1 , y 2 ,..., y n );
    X - матрица размерности [n x (k+1) ] наблюдаемых значений аргументов;
    b - вектор - столбец размерности [(k+1) x 1 ] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
    e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

    Задачи регрессионного анализа
    Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b 0 , b 1 ,..., b k . Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X i и Y :

    • получить наилучшие оценки неизвестных параметров b 0 , b 1 ,..., b k ;
    • проверить статистические гипотезы о параметрах модели;
    • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

    Построение моделей множественной регрессии состоит из следующих этапов:

    1. выбор формы связи (уравнения регрессии);
    2. определение параметров выбранного уравнения;
    3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
    • Множественная регрессия с одной переменной
    • Множественная регрессия с тремя переменными

    Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее.

    Количество факторов (x) 1 2 3 4 5 6 7 8 9 10 Количество строк
    .");">

    Пример решения нахождения модели множественной регрессии

    Множественная регрессия с двумя переменными

    Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
    1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2:

    Для решения системы можете воспользоваться
    2) Или использовав формулы


    Для этого строим таблицу вида:

    Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

    Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

    Здесь z" jj - j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

    Приэтом:

    где m - количество объясняющихпеременных модели.
    В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


    Или

    или
    ,,.
    Здесьr 12 - выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
    По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

    Доверительный интервал, накрывающий с надежностью (1-α ) неизвестное значение параметра β j, определяется как

    Множественная регрессия в Excel

    Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
    где Y - массив для значений Y
    где X - массив для значений X (указывается как единый массив для всех значений Х i)

    Проверка статистической значимости коэффициентов уравнения множественной регрессии

    Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

    имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
    В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента b j , то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

    Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2:

    Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
    Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

    Соотношение может быть представлено вследующем виде:

    для m>1. С ростом значения m


    Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R 2 =0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R 2 статистически значим.

    Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии

    Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
    При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

    При этом проверяется некоррелированность соседних величин e i ,i=1,2,…n..
    Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

    Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α , числа наблюдений n и количества объясняющих переменных m .

    Частные коэффициенты корреляции при множественной регрессии

    Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 и так далее и для каждой пары находится коэффициент корреляции
    Вычисления в MS Excel . Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
    1) Выполнить команду Сервис / Анализ данных / Корреляция .
    2) Указать диапозон данных;

    Проверка общего качества уравнения множественной регрессии

    Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2 :

    Справедливо соотношение 0 < =R 2 < = 1 . Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y .
    Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
    Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:

    Соотношение может быть представлено в следующем виде:

    для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R 2 = 1. может принимать отрицательные значения.
    Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
    Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
    Показатели F и R 2 равны или не равен нулю одновременно. Если F=0 , то R 2 =0, следовательно, величина Y линейно не зависит от X 1 ,X 2 ,…,X m .Расчетное значение F сравнивается с критическим Fкр. Fкр , исходя из требуемого уровня значимости α и чисел степеней свободы v 1 = m и v 2 = n - m - 1 , определяется на основе распределения Фишера. Если F > Fкр , то R 2 статистически значим.

    Проблемы множественного корреляционно-регрессионного анализа и моделирования обычно подробно изучаются в специальном курсе. В курсе «Общая теория статистики» рассматриваются только самые общие вопросы этой сложной проблемы и дается начальное представление о методике построения уравнения множественной регрессии и показателей связи. Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то проводят линеаризацию уравнения путем замены или преобразования величины факторного признака.

    Общий вид многофакторного уравнения регрессии следующий:


    9.11. Меры тесноты связей в многофакторной системе

    Многофакторная система требует уже не одного, а множества показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей является матри на парных коэффициентов корреляции (табл. 9.9).

    По этой матрице можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя все эти показатели относятся к парным связям, все же матрицу молено использовать для предварительного отбора факторов для включения их в уравнение регрессии. Не рекомендуется включать в уравнение факторы, слабо связанные с результативными признаками, но тесно связанные с другими факто-

    Вернемся к табл. 9.11. Дисперсионный анализ системы связей предназначен для оценки того, насколько надежно доказывают исходные данные наличие связи результативного признака со всеми факторами, входящими в уравнение. Для этого сравниваются дисперсии у - объясненная и остаточная: суммы соответствующих квадратов отклонений, прнхо-

    379

    381

    9.13. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

    Корреляционно-регрессионной моделью (КРМ) системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе.

    Приведенное определение КРМ включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью. В частности, полученное выше по 16 хозяйствам уравнение не отвечает последнему требованию из-за противоречащего экономике сельского хозяйства знака при факторе х2 - доля пашни. Однако в учебных целях будем рассматривать его как модель.

    1. Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов xj коэффициент рентабельности, хотя включение такого «фактора» значительно повысит коэффициент детерминации.

    2. Признаки-факторы не должны быть составными частями результативного признака или его функциями.

    3. Признаки-факторы не должны дублировать друг друга, т.е. быть коллинеарными (с коэффициентом корреляции более 0,8). Так, не следует в модель производительности труда включать энерго- и фондовооруженность рабочих, поскольку эти факторы тесно связаны друг с другом в большинстве объектов.

    4. Не следует включать в модель факторы разных уровней иерархии, т.е. фактор ближайшего порядка и его субфакторы. Например, в модель себестоимости зерна не следует включать и урожайность зерновых культур, и дозу удобрений под них или затраты на обработку гектара, показатели качества семян, плодородия почвы, т.е. субфакторы самой урожайности.

    5. Желательно, чтобы для результативного признака и факторов соблюдалось единство единицы совокупности, к которой они отнесены. Например, если у - валовой доход предприятия, то и все факторы должны относиться к предприятию: стоимость производственных фондов, уровень специализации, численность работников и т.д. Если же у - средняя зарплата рабочего на предприятии, то факторы должны относиться к рабочему: разряд или классность, стаж работы, возраст, уровень образования, энерговооруженность и т.д. Правило это некатегорическое, в модель заработной платы рабочего можно включить, к примеру, и уровень специализации предприятия. Вместе с тем нельзя забывать о предыдущей рекомендации.

    6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте. Например, такие факторы урожайности, как дозы разных удобрений, уровень плодородия, число прополок и т.п., создают прибавки величины урожайности, малозавися-Аше друг от друга; урожайность может существовать и без любого из этих факторов. Такому характеру связей отвечает аддитивное уравнение регрессии:

    Первое слагаемое в правой части равенства - это отклонение, которое возникает за счет отличия индивидуальных значений факторов у данной единицы совокупности от их средних значений по совокупности. Его можно назвать эффектом факторообеспеченности. Второе слагаемое - отклонение, которое возникает за счет не входящих в модель факторов и отличия индивидуальной эффективности факторов у данной единицы совокупности от средней эффективности факторов в совокупности, измеряемой коэффициентами ус-

    Таблица 9.12 Анализ факторообеспеченности и фактороотдачи по регрессионной модели уровня валового дохода

    ловно-чистой регрессии. Его можно назвать эффектом фактороотдачи.

    Пример. Рассмотрим расчет и анализ отклонений по ранее построенной модели уровня валового дохода в 16 хозяйствах. Знаки тех и других отклонений 8 раз совпадают и 8 раз не совпадают. Коэффициент корреляции рангов отклонений двух видов составил 0,156. Это означает, что связь вариации факторообеспеченности с вариацией фактороотдачи слабая, несущественная (табл. 9.12).

    Обратим внимание на хозяйство № 15 с высокой факто-

    рообеспеченностью (15-е место) и самой худшей фактороот-

    дачей (1-й ранг), из-за которой хозяйство недополучило по

    1 22 руб. дохода с 1 га. Напротив, хозяйство № 5 имеет фак-

    торообеспеченность ниже средней, но благодаря более эффективному использованию факторов получило на 125 руб. дохода с 1 га больше, чем было бы получено при средней по совокупности эффективности факторов. Более высокая эффективность фактора х\ (затраты труда) может означать более высокую квалификацию работников и большую заинтересованность в качестве выполняемой работы. Более высокая эффективность фактора хз с точки зрения доходности может заключаться в высоком качестве молока (жирность, охлажден-ность), благодаря которому оно реализовано по более высоким ценам. Коэффициент регрессии при х2, как уже отмечено, экономически не обоснован.

    Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака или (и) его доверительного интервала с заданной вероятностью, как уже сказано в 9.6. Сформулированные там же ограничения прогнозирования по уравнению регрессии сохраняют свое значение и для многофакторных моделей. Кроме того, необходимо соблюдать системность между подставляемыми в модель значениями факторных признаков.

    Формулы расчета средних ошибок оценки положения гиперплоскости регрессии в заданной многомерной точке и для индивидуальной величины результативного признака весьма сложны, требуют применения матричной алгебры и здесь не рассматриваются. Средняя ошибка оценки значения результативного признака, рассчитанная по программе ПЭВМ «Mi-crostat» и приведенная в табл. 9.7, равна 79,2 руб. на 1 га. Это лишь среднее квадратическое отклонение фактических значений дохода от расчетных по уравнению, не учитывающее ошибки положения самой гиперплоскости регрессии при экстраполяции значений факторных признаков. Поэтому ограничимся точечными прогнозами в нескольких вариантах (табл. 9.13).

    Для сравнения прогнозов с базисным уровнем средних по совокупности значений признаков введена первая строка таблицы. Краткосрочный прогноз рассчитан на малые изменения факторов за короткое время и снижение трудообеспечен-ности.

    Таблица 9.13 Прогнозы валового дохода по регрессионной модели

    Результат неблагоприятен: доход снижается. Долгосрочный прогноз А - «осторожный», он предполагает весьма умеренный прогресс факторов и соответственно небольшое увеличение дохода. Вариант Б - «оптимистический», рассчитан на существенное изменение факторов. Вариант 5 построен по способу, которым Агафья Тихоновна в комедии Н. В. Гоголя «Женитьба» мысленно конструирует портрет «идеального жениха»: нос взять от одного претендента, подбородок от другого, рост от третьего, характер от четвертого; вот если бы соединить все нравящиеся ей качества в одном человеке, она бы не колеблясь вышла замуж. Так и при прогнозировании мы объединяем лучшие (с точки зрения модели дохода) наблюдаемые значения факторов: берем значение Х[ от хозяйства № 10, значение х2 от хозяйства № 2, значение х3 от хозяйства № 16. Все эти значения факторов уже существуют реально в изучаемой совокупности, они не «ожидаемые», не «взятые с потолка». Это хорошо. Однако могут ли эти значения факторов сочетаться в одном предприятии, системны ли эти значения? Решение данного вопроса выходит за рамки статистики, оно требует конкретных знаний об объекте прогнозирования.

    Если, кроме количественных факторов, при многофакторном регрессионном анализе в уравнение включается и неколичественный, то применяют следующую методику: наличие неколичественного фактора у единиц совокупности обозначают единицей, его отсутствие - нулем, т.е. вводят так назы-

    Число фиктивных переменных должно быть на единицу меньше числа градаций качественного (неколичественного) фактора. С помощью данного приема можно измерять влияние уровня образования, местожительства, типа жилища и других социальных или природных, неизмеряемых количественно факторов, изолируя их от влияния количественных факторов.

    РЕЗЮМЕ

    Связи, которые проявляются не в каждом отдельном случае, а лишь в совокупности данных, называются статистическими. Они выражаются в том, что при изменении значения фактора х изменяется и условное распределение результативного признака у: разным значениям одной переменной (фактора х) соответствуют разные распределения другой переменной (результата у).

    Корреляционная связь - частный случай статистической связи, при котором разным значениям одной переменной х соответствуют разные средние значения переменной у.

    Корреляционная связь предполагает, что изучаемые переменные имеют количественное выражение.

    Статистическая связь - более широкое понятие, оно не включает ограничений на уровень измерения переменных. Переменные, связь между которыми изучается, могут быть как количественными, так и неколичественными.

    Статистические связи отражают сопряженность в изменении признаков х и у, которая может быть вызвана не причинными отношениями, а так называемой ложной корреляцией. Например, в совместных изменениях х и у обнаруживается определенная закономерность, но она вызвана не влиянием

    390

    Математическое описание корреляционной зависимости результативной переменной от нескольких факторных переменных называется уравнением множественной регрессии. Параметры уравнения регрессии оцениваются методом наименьших квадратов (МНК). Уравнение регрессии должно быть линейным по параметрам.

    Если уравнение регрессии отражает нелинейность связи между переменными, то регрессия приводится к линейному виду (линеаризуется) путем замены переменных или их логарифмирования.

    Вводя в уравнение регрессии фиктивные переменные, можно учесть влияние неколичественных переменных, изолируя их от влияния количественных факторов.

    Если коэффициент детерминации близок к единице, то с помощью уравнения регрессии можно предсказать, каким будет значение зависимой переменной для того или иного ожидаемого значения одной или нескольких независимых переменных.

    1. Елисеева И. И. Статистические методы измерения связей. - Л.: Изд-во Ленингр. ун-та, 1982.

    2. Елисеева И. И., Рукавишников В. О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982.

    3. Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. - Рига: Зинатне, 1983.

    4. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0. - М.: НПО «Информатика и компьютеры», 1996.

    5. Статистическое моделирование и прогнозирование: Учеб. пособие / Под ред. А. Г. Гранберга. - М.: Финансы и статистика, 1990.

    6. Ферстер Э, Ренц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов: Пер. с нем. - М.: Финансы и статистика, 1983.

    Цель : научиться определению параметров уравнения множественной линейной регрессии методом наименьших квадратов и проведению анализа построенного уравнения.

    Методические указания

    В этой главе важно абсолютно все. Перед изучением необходимо повторить следующий материал из матричного анализа: умножение матриц, обратная матрица, решение системы линейных уравнений методом обратной матрицы. В этой главе все, что относится к парной линейной регрессии, обобщается на множественную линейную модель. В первой главе приведены функции программы Microsoft Office Excel, позволяющие проводить операции с матрицами. Обратите внимание, что по сравнению с предыдущей главой для определения социально-экономического смысла коэффициентов при объясняющих переменных важно отсутствие мультиколлинеарности (сильной линейной взаимосвязи) этих переменных. Запомните, что формула для расчета коэффициентов уравнения также следует из применения метода наименьших квадратов. Следует изучить рассмотренный ниже пример. Обратите внимание на взаимосвязь модели в исходных и в стандартизованных переменных.

    § 1. Определение параметров уравнения регрессии

    На любой экономический показатель чаще всего оказывают влияние не один, а несколько факторов. В этом случае вместо парной рег-

    рессии M(Y x) = f(x) рассматривается множественнаярегрессия:

    x1 ,x2 ,...,xm ) = f(x1 ,x2 ,...,xm ) .

    Задача оценки статистической взаимосвязи

    переменных

    Y иX = (X 1 , X 2 , ..., X m ) формулируется аналогично

    случаю пар-

    ной регрессии. Уравнение множественной регрессииможет быть представлено в виде:

    Y = f(β ,X) +ε ,

    где Y иX = (X 1 , X 2 , ..., X m ) - вектор независимых (объясняющих) переменных;β= (β 0 , β 1 , β 2 ,..., β m ) - вектор параметров

    (подлежащих определению); ε - случайная ошибка (отклонение);Y - зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функцияf связывает исследуемую переменнуюY с вектором независимых переменных

    Y и X= (X1 , X2 , ..., Xm ) .

    Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии - модель множественной линейной регрессии.

    Теоретическое линейное уравнение регрессии имеет вид:

    Здесь β= (β 0 , β 1 , β 2 ,..., β m ) - вектор размерности (т +1) неизвестных параметров.β j , j = (1, 2, ..., m ) называется j -м теоретиче-

    ским коэффициентом регрессии (частным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменениюX j . Другими словами, он отражает влияние на условное математи-

    ческое ожидание M (Y x 1 ,x 2 ,...,x m ) зависимой переменнойY объяс-

    няющей переменной X j при условии, что все другие объясняющие переменные модели остаются постоянными,β 0 -свободный член ,

    определяющий значение Y в случае, когда все объясняющие переменныеX j равны нулю.

    После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

    Пусть имеется n наблюдений вектора объясняющих переменныхX = (X 1 , X 2 , ...,X m ) и зависимой переменнойY :

    { xi 1 , xi 2 , ..., xim , yi } , i= 1 ,2 , ..., n.

    Для того чтобы однозначно можно было решить задачу отыскания параметров β 0 , β 1 , β 2 ,..., β m , должно выполняться неравенство

    n ≥ m + 1 . Еслиn = m + 1, то оценки коэффициентов вектораβ

    рассчитываются единственным образом.

    Если число наблюдений больше минимально необходимого: n > m + 1 , то возникает необходимость оптимизации, оценивания

    параметров β 0 , β 1 , β 2 ,..., β m , при которых формула дает наилучшее

    приближение для имеющихся наблюдений.

    В данном случае число ν= n − m − 1 называетсячислом степеней свободы . Самым распространенным методом оценки параметров уравнения множественной линейной регрессии являетсяметод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений

    зависимой переменной Y от ее значенийY , получаемых по уравнению регрессии.

    Отметим, что изложенные ранее предпосылки МНК, позволяют проводить анализ в рамках классической линейной регрессионной модели.

    Как и в случае парной регрессии, истинные значения параметров β j по выборке получить невозможно. В этом случае вместо

    теоретического уравнения регрессии (3.3) оценивается так назы-

    ваемое эмпирическое уравнение регрессии:

    Y = b0 + b1 X1 + b2 X2 + ...+ bm Xm + e.

    b 0 , b 1 , ..., b m - оценки теоретических

    значений

    β 0 ,β 1 , ...,β m

    коэффициентов регрессии (эмпирические коэффици-

    енты регрессии, e - оценка случайного отклоненияε ). Для индивидуальных наблюдений имеем:

    yi = b0 + b1 xi 1 + b2 xi 2 + ...+ bm xim + ei ,(i= 1 ,2 , ..., n) (3.6)

    Оцененное уравнение в первую очередь должно описывать общий тренд (направление) изменения зависимой переменной Y . При этом необходимо иметь возможность рассчитать отклонения от указанного тренда.

    По данным выборки объема n:(xi 1 , xi 2 , ..., xim , yi ) , i= 1 ,2 , ..., n

    требуется оценить значения параметров β j вектораβ , т. е. провести параметризацию выбранной модели (здесьx ij , j = 1, 2, ..., m

    значение переменной X j в i -м наблюдении).

    При выполнении предпосылок МНК относительно случайных отклонений ε i , оценкиb 0 , b 1 , ..., b m параметровβ 0 , β 1 , ..., β m множе-

    ственной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

    На основании (3.6) отклонение e i значенияy i зависимой переменной от модельного значенияˆy i , соответствующего уравнению рег- рессиивi -мнаблюдении i = 1, 2, ..., n , рассчитываетсяпоформуле:

    ei = yi − ˆyi = yi − b0 − b1 xi 1 − b2 xi 2 − ...− bm xim . (3.7)

    § 2. Расчет коэффициентов множественной линейной регрессии

    Представим данные наблюдений и соответствующие коэффициенты в матричной форме.

    xn 1

    xn 2

    X1 m

    X2 m

    Здесь Y - n -мерный вектор-столбец наблюдений зависимой переменнойY ;X - матрица размерностиn × (m + 1) , в которой i-я строкаi = 1, 2, ..., n представляет i -е наблюдение вектора значений независимых переменныхX 1 ,X 2 , ...,X m , единица соответствует переменной при свободном членеb 0 ;B - вектор-столбец размер-

    ности (m + 1) параметров уравнения регрессии (3.5);e - векторстолбец размерностиn отклонений выборочных (реальных) значенийy i зависимой переменной от значенийˆy i , получаемых по

    уравнению регрессии:

    i= 1

    где e T = (e 1 , e 2 , ..., e n ) , т. е. надстрочный значокT означает транс-

    понированную матрицу.

    Можно показать, что условие (3.10) выполняется, если векторстолбец коэффициентов B найти по формуле:

    B = (XT X) − 1 XT Y.

    Здесь X T - матрица, транспонированная к матрицеX ,

    (X T X ) − 1 - матрица, обратная к(X T X ) . Соотношение (3.11)

    справедливо для уравнений регрессии с произвольным количеством m объясняющих переменных.

    Пример 3.1. Пусть объем предложения некоторого благаY фирмы линейно зависит от ценыX 1 и заработнойX 2 сотрудников, производящих данное благо (табл. 3.1). Определим коэффициенты уравнения линейной регрессии. (Здесь предполагается знание матричной алгебры).

    Таблица 3.1

    Данные для множественной линейной регрессии

    Матрицы имеют вид:

    X T X= 318

    7, 310816

    − 0, 10049

    − 0, 53537

    −1

    0, 001593

    , (XT X)

    = − 0, 10049

    − 0, 006644,

    − 0, 53537

    − 0, 006644

    0, 043213

    X T Y = 23818,