Средняя относительная ошибка аппроксимации считают по формуле. Метод аппроксимации в Microsoft Excel

Министерство сельского хозяйства РФ

Федеральное государственное бюджетное образовательное

учреждение высшего профессионального образования

«Пермская государственная сельскохозяйственная академия

имени академика Д.Н.Прянишникова»

Кафедра финансов, кредита и экономического анализа

Контрольная работа по дисциплине «Эконометрика» Вариант - 10


    Ошибки аппроксимации и ее определение………………………………….3

    Аналитический способ выравнивания временного ряда и используемые при этом функции……………………………………………………………..4

    Практическая часть……………………………………………………….....11

    1. Задание 1………………………………………………………………11

      Задание 2……………………………………………….……………...19

Список использованной литературы……………………………………….....25

  1. Ошибки аппроксимации и ее определение.

Средняя ошибка аппроксимации – это среднее отклонение расчетных данных от фактических. Она определяется в процентах по модулю.

Фактические значения результативного признака отличаются от теоретических. Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, это лучшее качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка апроксимации может оказаться равной нулю. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.

Поскольку может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. Отклонения можно рассматривать как абсолютную ошибку аппроксимации, и как относительную ошибку аппроксимации. Чтоб иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую.

Среднюю ошибку аппроксимации рассчитают по формуле:

Возможно и иное определение средней ошибки аппроксимации:

Если А£10-12%, то можно говорить о хорошем качестве модели.

  1. Аналитический способ выравнивания временного ряда и используемые при этом функции.

Более совершенным приемом выявления основной тенденции развития в рядах динамики является аналитическое выравнивание. При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены определенными математическими функциями. Вид уравнения определяется характером динамики развития конкретного явления. На практике по имеющемуся временному ряду задают вид и находят параметры функции y=f(t), а затем анализируют поведение отклонений от тенденции. Чаще всего при выравнивании используются следующие зависимости: линейная, параболическая и экспоненциальная. Во многих случаях моделирование рядов динамики с помощью полиномов или экспоненциальной функции не дает удовлетворительных результатов, так как в рядах динамики содержатся заметные периодические колебания вокруг общей тенденции. В таких случаях следует использовать гармонический анализ (гармоники ряда Фурье). Применение, именно, этого метода предпочтительно, поскольку он определяет закон, по которому можно достаточно точно спрогнозировать значения уровней ряда.

Целью же аналитического выравнивания динамического ряда является определение аналитической или графической зависимости y=f(t). Функцию y=f(t) выбирают таким образом, чтобы она давала содержательное объяснение изучаемого процесса. Это могут быть различные функции.

Системы уравнений вида y=f(t) для оценки параметров полиномов по МНК

(кликабельно)

Графическое представление полиномов n-порядка

1. Если изменение уровней ряда характеризуется равномерным увеличением (уменьшением) уровней, когда абсолютные цепные приросты близки по величине, тенденцию развития характеризует уравнение прямой линии.

2. Если в результате анализа типа тенденции динамики установлена криволинейная зависимость, примерно с постоянным ускорением, то форма тенденции выражается уравнением параболы второго порядка.

3. Если рост уровней ряда динамики происходит в геометрической прогрессии, т.е. цепные коэффициенты роста более или менее постоянны, выравнивание ряда динамики ведется по показательной функции.

После выбора вида уравнения необходимо определить параметры уравнения. Самый распространенный способ определения параметров уравнения - это метод наименьших квадратов, в котором в качестве решения принимается точка минимума суммы квадратов отклонений между теоретическими (выравненными по выбранному уравнению) и эмпирическими уровнями.

Выравнивание по прямой (определение линии тренда) имеет выражение: yt=a0+a1t

t-условное обозначение времени;

а 0 и a1-параметры искомой прямой.

Параметры прямой находятся из решения системы уравнений:

Система уравнений упрощается, если значения t подобрать так, чтобы их сумма равнялась Σt = 0, т. е. начало отсчета времени перенести в середину рассматриваемого периода. Если до переноса точки отсчета t = 1, 2, 3, 4…, то после переноса:

если число уровней ряда нечетное t = -4 -3 -2 -1 0 +1 +2 +3 +4

если число уровней ряда четное t = -7 -5 -3 -1 +1 +3 +5 +7

Таким образом, ∑t в нечетной степени всегда будет равна нулю.

Аналогично находятся параметры параболы 2-го порядка из решения системы урав­нений:

Выравнивание по среднему абсолютному приросту или среднему коэффициенту роста:

Δ-средний абсолютный прирост;

К-средний коэффициент роста;

У0-начальный уровень ряда;

Уn-конечный уровень ряда;

t-порядковый номер уровня, начиная с нуля.

Построив уравнение регрессии, проводят оценку его надежности. Значимость выбранного уравнения регрессии, параметров уравнения и коэффициента корреляции следует оценить, применив критические методы оценки:

F-критерий Фишера, t–критерий Стьюдента, при этом, расчетные значения критериев сравниваются с табличными (критическими) при заданном уровне значимости и числе степеней свободы. Fфакт > Fтеор - уравнение регрессии адекватно.

n - число наблюдений (уровней ряда), m - число параметров уравнения (модели) регрессии.

Проверка адекватности уравнения регрессии (качества модели в целом) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 10-12% (рекомендовано).

Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости б=0.05.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (б) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-б) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости б.

t крит (n-m-1;б/2) = (30;0.025) = 2.042

Поскольку 1.7 < 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

Поскольку 0.56 < 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

  • (b - t крит S b ; b + t крит S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима.

  • (a - t крит S a ; a + t крит S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента a статистически незначима.

2) F-статистика. Критерий Фишера.

Коэффициент детерминации R 2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m - число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

  • 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости б.
  • 2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k 1 =1 и k 2 =30, F табл = 4.17

Поскольку фактическое значение F < F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

Показатели качества уравнения регрессии.

Проверка на наличие автокорреляции остатков.

Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.

Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.

В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.

Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).

Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:

  • 1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
  • 2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
  • 3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
  • 4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.

Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Где y x - расчетное значение по уравнению.

Значение средней ошибки аппроксимации до 15% свидетельствует о хорошо подобранной модели уравнения.

По семи территориям Уральского района за 199Х г. известны значения двух признаков.

Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной;
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации А ср и F-критерий Фишера.

Решение проводим при помощь онлайн калькулятора Линейное уравнение регрессии .
а) линейное уравнение регрессии;
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .


На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).




Получаем b = -0.35, a = 76.88
Уравнение регрессии:
y = -0.35 x + 76.88

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y - y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0.35*59 + 76.88 = 56.47
... ... ...

Ошибка аппроксимации
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

F-статистики. Критерий Фишера.










3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

б) степенная регрессия ;
Решение проводится с помощью сервиса Нелинейная регрессия . При выборе укажите Степенная y = ax b
в) показательная регрессия;
г) модель равносторонней гиперболы.
Система нормальных уравнений.

Для наших данных система уравнений имеет вид
7a + 0.1291b = 405.2
0.1291a + 0.0024b = 7.51
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 1054.67, a = 38.44
Уравнение регрессии:
y = 1054.67 / x + 38.44
Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
Табличное значение критерия со степенями свободы k1=1 и k2=5, Fkp = 6.61
Поскольку фактическое значение F < Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Курсовая работа

по дисциплине «Эконометрика»

«Комплексный анализ взаимосвязи финансово-экономических показателей деятельности предприятий»

Вариант № 12

Выполнил:

студент группы ЭЭТ-312

Логунов Н.Ю.

Проверила:

доц. Ишханян М.В.

Москва 2015

Постановка задачи

1. Составление корреляционной матрицы. Отбор факторов

2. Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения

3. Коэффициент детерминации, множественный коэффициент корреляции

4.Оценка качества уравнения множественной линейной регрессии

4.1.Средняя относительная ошибка аппроксимации

4.2.Проверка статистической значимости уравнения множественной регрессии в целом с помощью F-критерия Фишера

4.3.Проверка статистической значимости параметров уравнения множественной регрессии. Интервальные оценки параметров

5.Применение регрессионной модели

5.1.Точечный прогноз

5.2.Частные коэффициенты эластичности и средние частные коэффициенты эластичности

6.Анализ остатков регрессионной модели (проверка предпосылок теоремы Гаусса-Маркова)

6.1.Оценки математического ожидания остатков

6.2.Проверка наличия автокорреляции в остатках

7.Критерий Грегори Чоу

Постановка задачи

Заданы значения 6 показателей, характеризующих экономическую деятельность 53 предприятий. Требуется:

1. Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

4.2. Проверить статистическую значимость уравнения множественной регрессии в целом с помощью F-критерия Фишера. Сделать выводы

4.3. Проверить статистическую значимость параметров уравнения множественной регрессии. Построить интервальные оценки параметров. Сделать выводы.



5. Применение регрессионной модели:

5.1. Используя построенное уравнение, дать точечный прогноз. Найти значение исследуемого параметра y, если значение первого фактора (наиболее тесно связанного с у) составит 110% от его среднего значения, значение второго фактора составит 80% от его среднего значения. Дать экономическую интерпретацию результата.

5.2. Найти частные коэффициенты эластичности и средние частные коэффициенты эластичности. Интерпретировать результаты. Сделать выводы.

6. Провести анализ остатков регрессионной модели (проверить требования теоремы Гаусса-Маркова):

6.1. Найти оценки математического ожидания остатков.

6.2. Проверить наличие автокорреляции в остатках. Сделать вывод.

7. Разделите выборку на две равные части. Рассматривая первые и последние наблюдения как независимые выборки, проверить гипотезу о возможности объединения их в единую выборку по критерию Грегори-Чоу.

Составление корреляционной матрицы. Отбор факторов

№ предприятия Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1.Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

Рассмотрим результативный признак Y3 и факторные признаки Х10, X12, Х5, Х7, Х13 .

Составим корреляционную матрицу с помощью опции «Анализ данных→Корреляция» в MS Excel:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Отбираем 2 фактора по критериям:

1) связь Y и X должна быть максимальной

2) связь между Xми должна быть наименьшей

Таким образом, в следующих пунктах работа будет производиться с факторами X10 , X5.

Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения.

2. Построить уравнение множественной линейной регрессии. Дать интерпретацию параметров уравнения.

Составим регрессионную модель с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel:

Коэффициенты
Y -20,7163
X 10 5,7169
X 5 34,9321

Уравнение регрессии будет выглядеть следующим образом:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 положительный;

2) b5 положительный;

Коэффициент детерминации, множественный коэффициент корреляции

3. Найти коэффициент детерминации, множественный коэффициент корреляции. Сделать выводы.

В регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel, найдём таблицу «Регрессионная статистика»:

Множественный R-связь между Y3 и X10,X5 слабая

R-квадрат-22,05% вариации признака Y объясняется вариацией признаков X10 и X5

Оценка качества уравнения множественной линейной регрессии

4. Оценить качество уравнения множественной линейной регрессии:

Средняя относительная ошибка аппроксимации

4.1. Найти среднюю относительную ошибку аппроксимации. Сделать выводы.

Рассчитаем прогнозные значения для каждого наблюдения или воспользуемся столбцом «Предсказанное У» в таблице «Вывод остатка» в регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel)

Вычислим относительные ошибки для каждого наблюдения по формуле:

Вычислим среднюю относительную ошибку аппроксимации по формуле:

Вывод: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

Показатели корреляции и детерминации

Линейной парной регрессии

Опираясь на вспомогательные данные, которые рассчитаны в табл. 2, рассчитываем показатель тесноты связи.

Таким показателем является выборочный линейный коэффициент корреляции, рассчитываемый с использованием формулы.

По результатам расчета коэффициента корреляции можно сделать вывод, что связь между факторным и результативным признаком прямая и сильная (по шкале Чеддока).

Квадрат коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

Обычно, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R 2 = 0.847 2 = 0.7181

т.е. в 71.81% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии довольно высокая. Остальные 28.19% изменения Y объясняются факторами, не учтенными в модели.

Степенной парной регрессии

Тесноту связи результатирующего и факторного признака для степенной парной регрессии определим с использованием коэффициента корреляции:

Подставив известные данные, получим:

Показатель детерминации.

т.е. в 69% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии - средняя. Остальные 31% изменения Y объясняются факторами, не учтенными в модели.

Средняя ошибка аппроксимации

Линейной парной регрессии

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Степенной парной регрессии

Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

Оценка с помощью F-критерия Фишера статистической надежности результатов регрессионного моделирования

Линейной парной регрессии

Коэффициент детерминации R 2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

где m=1 для парной регрессии.

Поскольку фактическое значение F >

Степенной парной регрессии

Аналогично линейной парной регрессии проведем оценку степенной парной регрессии

где m - число факторов в модели.

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости б.

2. Определяем фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы:

k 1 =1 и k 2 =8, F табл = 5.32

Поскольку фактическое значение F > F табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

По результатам анализа делаем вывод, что коэффициенты детерминации как для линейной парной регрессии, так и для степенной парной регрессии являются статистически значимыми.

Поскольку линейная парная регрессии имеет выше коэффициент (показательно) детерминации, считаем, что именно она адекватно описывает зависимость между факторным и результатирующим признаком.