Для каких шкал применяется регрессионный анализ. Основы линейной регрессии

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.

Регрессионный анализ - это метод установления аналитического выражения стохастической зависимости между исследуемыми признаками. Уравнение регрессии показывает, как в среднем изменяется у при изменении любого из x i , и имеет вид:

где у - зависимая переменная (она всегда одна);

х i - независимые переменные (факторы) (их может быть несколько).

Если независимая переменная одна - это простой регрессионный анализ. Если же их несколько (п 2), то такой анализ называется многофакторным.

В ходе регрессионного анализа решаются две основные задачи:

    построение уравнения регрессии, т.е. нахождение вида зависимости между результатным показателем и независимыми факторами x 1 , x 2 , …, x n .

    оценка значимости полученного уравнения, т.е. определение того, насколько выбранные факторные признаки объясняют вариацию признака у.

Применяется регрессионный анализ главным образом для планирования, а также для разработки нормативной базы.

В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение. Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный - одностороннюю зависимость, т.е. связь, показывающую, каким образом изменение факторных признаков влияет на признак результативный.

Регрессионный анализ - один из наиболее разработанных методов математической статистики. Строго говоря, для реализации регрессионного анализа необходимо выполнение ряда специальных требований (в частности, x l ,x 2 ,...,x n ; y должны быть независимыми, нормально распределенными случайными величинами с постоянными дисперсиями). В реальной жизни строгое соответствие требованиям регрессионного и корреляционного анализа встречается очень редко, однако оба эти метода весьма распространены в экономических исследованиях. Зависимости в экономике могут быть не только прямыми, но и обратными и нелинейными. Регрессионная модель может быть построена при наличии любой зависимости, однако в многофакторном анализе используют только линейные модели вида:

Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов, суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:

где т - число наблюдений;

j = a + b 1 x 1 j + b 2 x 2 j + ... + b n х n j - расчетное значение результатного фактора.

Коэффициенты регрессии рекомендуется определять с помощью аналитических пакетов для персонального компьютера или специального финансового калькулятора. В наиболее простом случае коэффициенты регрессии однофакторного линейного уравнения регрессии вида y = а + bх можно найти по формулам:

Кластерный анализ

Кластерный анализ - один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности, элементы которой характеризуются многими признаками. Значения каждого из признаков служат координатами каждой единицы изучаемой совокупности в многомерном пространстве признаков. Каждое наблюдение, характеризующееся значениями нескольких показателей, можно представить как точку в пространстве этих показателей, значения которых рассматриваются как координаты в многомерном пространстве. Расстояние между точками р и q с k координатами определяется как:

Основным критерием кластеризации является то, что различия между кластерами должны быть более существенны, чем между наблюдениями, отнесенными к одному кластеру, т.е. в многомерном пространстве должно соблюдаться неравенство:

где r 1, 2 - расстояние между кластерами 1 и 2.

Так же как и процедуры регрессионного анализа, процедура кластеризации достаточно трудоемка, ее целесообразно выполнять на компьютере.

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика
Регрессионная статистика
Множественный R 0,998364
R-квадрат 0,99673
Нормированный R-квадрат 0,996321
Стандартная ошибка 0,42405
Наблюдения 10

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии
Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 2,694545455 0,33176878 8,121757129
Переменная X 1 2,305454545 0,04668634 49,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки
Наблюдение Предсказанное Y Остатки Стандартные остатки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

Метод регрессивного анализа применяется для определения технико-экономических параметров продукции, относящейся к конкретному параметрическому ряду, с целью построения и выравнивания ценностных соотношений. Этот метод используется для анализа и обоснования уровня и соотношений цен продукции, характеризующейся наличием одного или нескольких технико-экономических параметров, отражающих основные потребительские свойства. Регрессивный анализ позволяет найти эмпирическую формулу, описывающую зависимость цены от технико-экономических параметров изделий:

P=f(X1X2,...,Xn),

где Р - значение цены единицы изделия, руб.; (Х1, Х2, ... Хп) - технико-экономические параметры изделий.

Метод регрессивного анализа - наиболее совершенный из используемых нормативно-параметрических методов - эффективен при проведении расчетов на основе применения современных информационных технологий и систем. Применение его включает следующие основные этапы:

  • определение классификационных параметрических групп изделий;
  • отбор параметров, в наибольшей степени влияющих на цену изделия;
  • выбор и обоснование формы связи изменения цены при изменении параметров;
  • построение системы нормальных уравнений и расчет коэффициентов регрессии.

Основной квалификационной группой изделий, цена которых подлежит выравниванию, является параметрический ряд, внутри которого изделия могут группироваться по различному исполнению в зависимости от их применения, условий и требований эксплуатации и т. д. При формировании параметрических рядов могут быть применены методы автоматической классификации, которые позволяют из общей массы продукции выделять ее однородные группы. Отбор технико-экономических параметров производится исходя из следующих основных требований:

  • в состав отобранных параметров включаются параметры, зафиксированные в стандартах и технических условиях; помимо технических параметров (мощности, грузоподъемности, скорости и т.д.) используются показатели серийности продукции, коэффициенты сложности, унификации и др.;
  • совокупность отобранных параметров должна достаточно полно характеризовать конструктивные, технологические и эксплуатационные свойства изделий, входящих в ряд, и иметь достаточно тесную корреляционную связь с ценой;
  • параметры не должны быть взаимозависимы.

Для отбора технико-экономических параметров, существенно влияющих на цену, вычисляется матрица коэффициентов парной корреляции. По величине коэффициентов корреляции между параметрами можно судить о тесноте их связи. При этом близкая к нулю корреляция показывает незначительное влияние параметра на цену. Окончательный отбор технико-экономических параметров производится в процессе пошагового регрессивного анализа с использованием компьютерной техники и соответствующих стандартных программ.

В практике ценообразования применяется следующий набор функций:

линейная

P = ao + alXl + ... + antXn,

линейно-степенная

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) (ап+1Хп) +... + (ап+nХп2) (ап+nХп2)

обратного логарифма

Р = а0 + а1: In Х1 + ... + ап: In Xn,

степенная

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показательная

P = e^(а1+а1X1+...+аnХn)

гиперболическая

Р = ао + а1:Х1 + а2:Х2 + ... + ап:Хп,

где Р - выравнивание цены; X1 X2,..., Хп - значение технико-экономических параметров изделий ряда; a0, a1 ..., аn - вычисляемые коэффициенты уравнения регресии.

В практической работе по ценообразованию в зависимости от формы связи цен и технико-экономических параметров могут использоваться другие уравнения регрессии. Вид функции связи между ценой и совокупностью технико-экономических параметров может быть задан предварительно или выбран автоматически в процессе обработки на ЭВМ. Теснота корреляционной связи между ценой и совокупностью параметров оценивается по величине множественного коэффициента корреляции. Близость его к единице говорит о тесной связи. По уравнению регрессии получают выравненные (расчетные) значения цен изделий данного параметрического ряда. Для оценки результатов выравнивания вычисляют относительные величины отклонения расчетных значений цен от фактических:

Цр = Рф - Рр: Р х 100

где Рф, Рр - фактическая и расчетная цены.

Величина Цр не должна превышать 8-10%. В случае существенных отклонений расчетных значений от фактических необходимо исследовать:

  • правильность формирования параметрического ряда, так как в его составе могут оказаться изделия, по своим параметрам резко отличающиеся от других изделий ряда. Их надо исключить;
  • правильность отбора технико-экономических параметров. Возможна совокупность параметров, слабо коррелируемая с ценой. В этом случае необходимо продолжить поиск и отбор параметров.

Порядок и методика проведения регрессивного анализа, нахождения неизвестных параметров уравнения и экономическая оценка полученных результатов осуществляются в соответствии с требованиями математической статистики.

Целью регрессионного анализа является измерение связи меж­ду зависимой переменной и одной (парный регрессионный анализ) или не­сколькими (множественный) независимыми переменными. Независимые переменные называют также факторными, объясняющими, опреде­ляющими, регрессорами и предикторами.

Зависимую переменную иногда называют определяемой, объясняемой, «откликом». Чрезвы­чайно широкое распространение регрессионного анализа в эмпири­ческих исследованиях связано не только с тем, что это удобный ин­струмент тестирования гипотез. Регрессия, особенно множественная, является эффективным методом моделирования и прогнозирования.

Объяснение принципов работы с регрессионным анализом начнем с более простого - парного метода.

Парный регрессионный анализ

Первые действия при использовании регрессионного анализа будут практически идентичны предпринятым нами в рамках вычисления коэффициента корреляции. Три основных условия эффективности корреляционного анализа по методу Пирсона - нормальное распре­деление переменных, интервальное измерение переменных, линейная связь между переменными - актуальны и для множественной регрес­сии. Соответственно, на первом этапе строятся диаграммы рассеяния, проводится статистически-описательный анализ переменных и вы­числяется линия регрессии. Как и в рамках корреляционного анализа, линии регрессии строятся методом наименьших квадратов.

Чтобы более наглядно проиллюстрировать различия между двумя методами анализа данных, обратимся к уже рассмотренному приме­ру с переменными «поддержка СПС» и «доля сельского населения». Исходные данные идентичны. Отличие в диаграммах рассеяния бу­дет заключаться в том, что в регрессионном анализе корректно от­кладывать зависимую переменную - в нашем случае «поддержка СПС» по оси Y, тогда как в корреляционном анализе это не имеет значения. После чистки выбросов диаграмма рассеяния имеет вид:

Принципиальная идея регрессионного анализа состоит в том, что, имея общую тенденцию для переменных - в виде линии регрессии, - можно предсказать значение зависимой переменной, имея значения независимой.

Представим обычную математическую линейную функцию. Лю­бую прямую в евклидовом пространстве можно описать формулой:

где а - константа, задающая смещение по оси ординат; b - коэффи­циент, определяющий угол наклона линии.

Зная угловой коэффициент и константу, можно рассчитать (пред­сказать) значение у для любого х.

Эта простейшая функция и легла в основу модели регрессионного анализа с той оговоркой, что значение у мы предскажем не точно, а в рамках определенного доверительного интервала, т.е. приблизительно.

Константой является точка пересечения линии регрессии и оси ординат (F-пересечение, в статистических пакетах, как правило, обозначаемое «interceptor»). В нашем примере с голосованием за СПС ее округленное значение составит 10,55. Угловой коэффициент Ъ бу­дет равен примерно -0,1 (как и в корреляционном анализе, знак по­казывает тип связи - прямая или обратная). Таким образом, получен­ная модель будет иметь вид СП С = -0,1 х Сел. нас. + 10,55.

СПС = -0,10 х 47 + 10,55 = 5,63.

Разность между исходным и предсказанным значениями называет­ся остатком (с этим термином - принципиальным для статистики - мы уже сталкивались при анализе таблиц сопряженности). Так, для случая «Республика Адыгея» остаток будет равен 3,92 - 5,63 = -1,71. Чем больше модульное значение остатка, тем менее удачно предсказа­но значение.

Рассчитываем предсказанные значения и остатки для всех случаев:
Случай Сел. нас. СПС

(исходное)

СПС

(предсказанное)

Остатки
Республика Адыгея 47 3,92 5,63 -1,71 -
Республика Алтай 76 5,4 2,59 2,81
Республика Башкортостан 36 6,04 6,78 -0,74
Республика Бурятия 41 8,36 6,25 2,11
Республика Дагестан 59 1,22 4,37 -3,15
Республика Ингушетия 59 0,38 4,37 3,99
И т.д.

Анализ соотношения исходных и предсказанных значений служит для оценки качества полученной модели, ее прогностической способности. Одним из главных показателей регрессионной статистики является множественный коэффициент корреляции R - коэффициент корреляции между исходными и предсказанными значениями зави­симой переменной. В парном регрессионном анализе он равен обыч­ному коэффициенту корреляции Пирсона между зависимой и неза­висимой переменной, в нашем случае - 0,63. Чтобы содержательно интерпретировать множественный R, его необходимо преобразовать в коэффициент детерминации. Это делается так же, как и в корреля­ционном анализе - возведением в квадрат. Коэффициент детерминации R -квадрат (R 2) показывает долю вариации зависимой пере­менной, объясняемую независимой (независимыми) переменными.

В нашем случае R 2 = 0,39 (0,63 2); это означает, что переменная «доля сельского населения» объясняет примерно 40% вариации переменной «поддержка СПС». Чем больше величина коэффициента детер­минации, тем выше качество модели.

Другим показателем качества модели является стандартная ошиб­ка оценки (standard error of estimate). Это показатель того, насколько сильно точки «разбросаны» вокруг линии регрессии. Мерой разброса для интервальных переменных является стандартное отклонение. Со­ответственно, стандартная ошибка оценки - это стандартное откло­нение распределения остатков. Чем выше ее значение, тем сильнее разброс и тем хуже модель. В нашем случае стандартная ошибка со­ставляет 2,18. Именно на эту величину наша модель будет «ошибаться в среднем» при прогнозировании значения переменной «поддерж­ка СПС».

Регрессионная статистика включает в себя также дисперсионный анализ. С его помощью мы выясняем: 1) какая доля вариации (дисперсии) зависимой переменной объясняется независимой перемен­ной; 2) какая доля дисперсии зависимой переменной приходится на остатки (необъясненная часть); 3) каково отношение этих двух вели­чин (/"-отношение). Дисперсионная статистика особенно важна для выборочных исследований - она показывает, насколько вероятно наличие связи между независимой и зависимой переменными в генеральной совокупности. Однако и для сплошных исследований (как в нашем примере) изучение результатов дисперсионного анализа небесполезно. В этом случае проверяют, не вызвана ли выявленная ста­тистическая закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых на­ходится обследуемая совокупность, т.е. устанавливается не истинность полученного результата для какой-то более обширной гене­ральной совокупности, а степень его закономерности, свободы от случайных воздействий.

В нашем случае статистика дисперсионного анализа такова:

SS df MS F значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Остат. 395,59 83,00 Л,11
Всего 654,36

F-отношение 54,29 значимо на уровне 0,0000000001. Соответ­ственно, мы можем с уверенностью отвергнуть нулевую гипотезу (что обнаруженная нами связь носит случайный характер).

Аналогичную функцию выполняет критерий t, но уже в отношении регрессионных коэффициентов (углового и F-пересечения). С помо­щью критерия / проверяем гипотезу о том, что в генеральной совокуп­ности регрессионные коэффициенты равны нулю. В нашем случае мы вновь можем уверенно отбросить нулевую гипотезу.

Множественный регрессионный анализ

Модель множественной регрессии практически идентична модели парной регрессии; разница лишь в том, что в линейную функцию последовательно включаются несколько независимых переменных:

Y = b1X1 + b2X2 + …+ bpXp + а.

Если независимых переменных больше двух, мы не имеем возмож­ности получить визуальное представление об их связи, в этом плане множественная регрессия менее «наглядна», нежели парная. При на­личии двух независимых переменных данные бывает полезно отобразить на трехмерной диаграмме рассеяния. В профессиональных ста­тистических пакетах программ (например, Statisticа) существует опция вращения трехмерной диаграммы, позволяющая хорошо визуально представить структуру данных.

При работе с множественной регрессией, в отличие от парной, не­обходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющиеся предикторы. Пошаговый алгоритм предполагает последовательное включе­ние (исключение) независимых переменных, исходя из их объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.

Дополнительным условием корректности множественной регрес­сии (наряду с интервальностью, нормальностью и линейностью) является отсутствие мультиколлинеарности - наличия сильных корреляционных связей между независимыми переменными.

Интерпретация статистики множественной регрессии включает в себя все злементы, рассмотренные нами для случая парной регрессии. Кроме того, в статистике множественного регрессионного анализа есть и другие важные составляющие.

Работу с множественной регрессией мы проиллюстрируем на при­мере тестирования гипотез, объясняющих различия в уровне электоральной активности по регионам России. В ходе конкретных эмпири­ческих исследований были высказаны предположения, что на уровень явки избирателей влияют:

Национальный фактор (переменная «русское население»; операционализирована как доля русского населения в субъектах РФ). Предполагается, что увеличение доли русского населения ведет к сни­жению активности избирателей;

Фактор урбанизации (переменная «городское население»; операционализирована как доля городского населения в субъектах РФ, с этим фактором мы уже работали в рамках корреляционного анализа). Предполагается, что увеличение доли городского населения также ве­дет к снижению активности избирателей.

Зависимая переменная - «интенсивность избирательной активно­сти» («актив») операционализирована через усредненные данные яв­ки по регионам на федеральных выборах с 1995 по 2003 г. Исходная таблица данных для двух независимых и одной зависимой перемен­ной будет иметь следующий вид:

Случай Переменные
Актив. Гор. нас. Рус. нас.
Республика Адыгея 64,92 53 68
Республика Алтай 68,60 24 60
Республика Бурятия 60,75 59 70
Республика Дагестан 79,92 41 9
Республика Ингушетия 75,05 41 23
Республика Калмыкия 68,52 39 37
Карачаево-Черкесская Республика 66,68 44 42
Республика Карелия 61,70 73 73
Республика Коми 59,60 74 57
Республика Марий Эл 65,19 62 47

И т.д. (после чистки выбросов остается 83 случая из 88)

Статистика, описывающая качество модели:

1. Множественный R = 0,62; Л-квадрат = 0,38. Следовательно, национальный фактор и фактор урбанизации вместе объясняют около 38% вариации переменной «электоральная активность».

2. Средняя ошибка составляет 3,38. Именно настолько «в среднем ошибается» построенная модель при прогнозировании уровня явки.

3. /л-отношение объясненной и необъясненной вариации состав­ляет 25,2 на уровне 0,000000003. Нулевая гипотеза о случайности выявленных связей отвергается.

4. Критерий /для константы и регрессионных коэффициентов пе­ременных «городское население» и «русское население» значим на уровне 0,0000001; 0,00005 и 0,007 соответственно. Нулевая гипотеза о случайности коэффициентов отвергается.

Дополнительная полезная статистика в анализе соотношения ис­ходных и предсказанных значений зависимой переменной - расстояние Махаланобиса и расстояние Кука. Первое - мера уникальности слу­чая (показывает, насколько сочетание значений всех независимых переменных для данного случая отклоняется от среднего значения по всем независимым переменным одновременно). Второе - мера влия­тельности случая. Разные наблюдения по-разному влияют на наклон линии регрессии, и с помощью расстояния Кука можно сопоставлять их по этому показателю. Это бывает полезно при чистке выбросов (вы­брос можно представить как чрезмерно влиятельный случай).

В нашем примере к уникальным и влиятельным случаям, в частно­сти, относится Дагестан.

Случай Исходные

значения

Предска­

значения

Остатки Расстояние

Махаланобиса

Расстояние
Адыгея 64,92 66,33 -1,40 0,69 0,00
Республика Алтай 68,60 69.91 -1,31 6,80 0,01
Республика Бурятия 60,75 65,56 -4,81 0,23 0,01
Республика Дагестан 79,92 71,01 8,91 10,57 0,44
Республика Ингушетия 75,05 70,21 4,84 6,73 0,08
Республика Калмыкия 68,52 69,59 -1,07 4,20 0,00

Собственно регрессионная модель обладает следующими парамет­рами: У-пересечение (константа) = 75,99; Ь (Гор. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Итоговая формула.