Книги по разным темам Pages:     | 1 | 2 | 3 | 4 | 5 |

При справедливости гипотезы H0 статистика критерия составленная из парных коэффициентов корреляции, где i, j = 1,2,..., p, называется rij r n - 2 корреляционной.

t = имеет t-распределение Стьюдента с (n - 2) степенями свободы.

Теснота линейной взаимосвязи одной переменной Xi с совокупностью других ( p -1) 1- r переменных, рассматриваемой в целом, измеряется с помощью выборочного Гипотеза Н0 отвергается, т.е. выборочный коэффициент корреляции значимо отличается коэффициента множественной корреляции Ri (i=1,p):

от нуля, если: t > t,n-2, где t,n-2 - табличное значение критерия Стьюдента, расч Q Ri = 1-, где Q - определитель корреляционной матрицы, Qii - алгебраическое определенное на уровне значимости при числе степеней свободы (n - 2) Qii Доверительный интервал (интервальная оценка) значимого коэффициента корреляции дополнение корреляционной матрицы.

1- r p = r u 0R1.

n Величина R2, называемая выборочным множественным коэффициентом Здесь u - критическая точка стандартного нормального распределения, детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

соответствующая уровню значимости, n - объем выборки.

Коэффициент множественной корреляции значимо отличается от нуля, если значение В случае нелинейной зависимости тесноту связи между величинами оценивают по статистики F>F;f1;f, где F рассчитывается по формуле величине корреляционного отношения.

n ( yi - )2 R2(n - p) i=1 F = = 1-, где yi - наблюдаемые значения, а i - расчетные значения n (1- R2)( p -1) ( yi - y)2 n - объем выборки;

i=p - количество переменных;

зависимого признака, которые вычисляют на основе уравнения парной регрессии F;f1;f - табличное значение i = f (xi ). Интервал изменения корреляционного отношения 0 F - критерия на уровне значимости при числе степеней свободы f1=p-1 и f2=n-p.

Величина yx 2, называемая коэффициентом детерминации, показывает, какая часть Выборочным частным коэффициентом корреляции между переменными Xi и Xj при фиксированных значениях остальных (p-2) переменных называется выражение:

общей вариации Y обусловлена вариацией X.

- Qij Проверка значимости корреляционного отношения основана на том, что статистика rij,1... p =, QiiQjj (n - p) F = где Qij, Qii и Qjj - алгебраические дополнения соответствующих элементов матрицы (1- )( p -1) парных коэффициентов корреляции.

p - число факторов Проверка значимости частного коэффициента корреляции осуществляется также, как n - количество наблюдений (где p - число факторов) парного коэффициента корреляции, только n-2 при этом заменяется на (n-p), т.е.

имеет F- распределение Фишера - Снедекора с f1 = p -1 и f2 = n - p степенями вычисляется статистика Стьюдента свободы. Поэтому значимо отличается от нуля, если F > F ; f 1; f 2 где F ; f 1; f 2 - табличное значение F - критерия на уровне значимости при числе степеней rij n - p t =, свободы f1 = p -1 и f2 = n - p.

1- rij МНОЖЕСТВЕННЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ где n - количество наблюдений; p - количество факторов.

Пусть имеется совокупность случайных переменных X1, X,..., X,..., X,..., X, имеющих 2 i j p Коэффициент частной корреляции считается значимым, если t>t,, причем значение t, определяется по таблицам распределения Стьюдента: - уровень значимости, =n-p совместное нормальное распределение.

число степеней свободы.

Матрица Q n 6 - si ) (ri i=Коэффициент ранговой корреляции Спирмена = -, n3 - n 15 где ri и si ранги i- того объекта по переменным X и Y; n - число пар наблюдений. Стандартизованные коэффициенты регрессии bj и коэффициенты эластичности Эj (j=1,p):

При проверке значимости исходят из того, что в случае справедливости нулевой Sx xj гипотезы об отсутствии корреляционной связи между переменными при n > bj = bi j Эj = bj статистика S y y n - Стандартизованный коэффициент регрессии bj показывает, на сколько величин Sy t = расч 2 изменится в среднем зависимая переменная Y при увеличении только j-ой объясняющей 1- переменной на Sxj, а коэффициент эластичности Эj - на сколько процентов (от средней) имеет t-распределение Стьюдента с (n-2) степенями свободы.

изменится в среднем Y при увеличении только Xj на 1%.

Коэффициент ранговой корреляции p значим на уровне, если t > t ;n-2, где t ;n-расч Нелинейная регрессия С позиции использования МНК различают следующие виды зависимостей:

табличное значение t-критерия Стьюдента, определенное на уровне значимости a при числе степеней свободы (n-2).

1) функции, нелинейные по факторам, например:

y=a0 + a1x2 или y=a0 + a1logx;

Тема 3. МОДЕЛИ И МЕТОДЫ РЕГРЕССИОННОГО АНАЛИЗА (6 часов) 2) функции, нелинейные по параметрам, например:

К задачам регрессионного анализа относятся:

y = ea +a1x или y=aKL1-;

Х установление формы зависимости между переменными;

3) функции, не приводимые к линейному виду.

Х оценка модельной функции (модельного уравнения) регрессии;

В первом и втором случае МНК для оценки параметров модели используется после Х оценка неизвестных значений (прогноз значений) зависимой переменной.

проведения линеаризующих преобразований, приводящих функцию к линейному виду. К В регрессионном анализе рассматривается односторонняя зависимость переменной Y уравнениям второго вида вначале требуется применить линеаризующее преобразование, а (ее еще называют функцией отклика, результативным признаком, предсказываемой затем уже заменить переменные. В третьем случае, когда функцию невозможно привести переменной) от одной или нескольких независимых переменных X (называемых также к линейному виду, оценивание параметров осуществляют с помощью нелинейного МНК.

объясняющими или предсказывающими переменными, факторными признаками).

Анализ вариации зависимого показателя Парная регрессионная модель y = f (x) + где - случайная переменная, Общая сумма квадратов отклонений зависимой переменной:

характеризующая отклонение от модельной функции регрессии (она также называется n n n n n 2 2 2 возмущающей или просто возмущением).

- y) = - i + i - y) = - i ) + - y) +2 - i )(i - y) (yi (yi (yi (i (yi Основные предпосылки регрессионного анализа:

i=1 i=1 i=1 i=1 i=1. зависимая переменная yi (или возмущение i) есть величина случайная, а объясняющая Сумма квадратов отклонений фактических значений от расчетных называется остаточной n переменная xi есть величина неслучайная;

суммой квадратов и обозначается как Qост = - i )(yi 2. математическое ожидание возмущения i равно нулю: М(i)=0;

i=3. дисперсия зависимой переменной yi (или возмущения i) постоянна для любого :

i Сумма квадратов отклонений расчетных значений от среднего называется объясненной D(i) = ; n суммой квадратов и обозначается как Qобъясн = i - y)( 4. переменные yi и yi (или возмущения i и i) не коррелированы:

i=М(i i)=0;

Третий элемент в разложении представляет собой сумму произведений объясненной и 5.зависимая переменная yi (или возмущение i)есть нормально распределенная остаточной компонент регрессии и равен нулю. В результате общая сумма квадратов случайная величина. раскладывается на остаточную сумму квадратов и объясненную сумму квадратов.

Простейшая модель регрессионного анализа, когда функция f(x) линейна как по Для получения оценок соответствующих дисперсий все перечисленные выше суммы квадратов делятся на соответствующие значения степеней свободы:

параметрам, так и по переменным xi (i=1,n):

общую сумму квадратов Q на (n-1) для получения оценки общей дисперсии (S2y) yi=0 + 1xi + i.

зависимой переменной, которая характеризует разброс значений показателя вокруг Оценкой линейной модели по выборке является уравнение регрессии yx = b0 + b1x.

среднего;

Параметры b0 и b1 определяются на основе метода наименьших квадратов.

Модель множественной регрессии, включающая p объясняющих переменных x1,..., xp, объясненную сумму квадратов на p (количество факторов в уравнении регрессии) для имеет вид: получения оценки объясненной дисперсии переменной y (S2объясн), которая характеризует вариацию зависимого показателя, объясненную построенным yi = 0 + 1xi1 + 2xi2 +...+ pxip + i уравнением регрессии;

Уравнение регрессии с оценками параметров можно записать как:

yx = b0 + b1x1 + b2x2 +...+ bpxp. остаточную сумму квадратов на (n-p-1) для получения оценки остаточной дисперсии Оценки параметров уравнения множественной регрессии b1,b2,...,bp получают по методу зависимой переменной (S2ост), которая характеризует разброс значений относительно наименьших квадратов. Оценки, полученные на основе применения этого метода, линии регрессии.

обладают следующими свойствами: несмещенностью (т.е. они не содержат Среднеквадратическое отклонение от линии регрессии есть квадратный корень из систематических ошибок при оценивании), состоятельностью (т.е. при n с значения S2ост (чаще называется стандартной ошибкой регрессии SE = S ост ).

вероятностью, как угодно близкой к 1, сходятся к оцениваемым параметрам) и Величина R2 - множественный коэффициент детерминации, показывает, какая эффективностью (т.е. обладают наименьшими дисперсиями среди всех возможных часть дисперсии функции отклика объясняется вариацией линейной комбинации несмещенных оценок параметров).

выбранных факторов x1,x2,..,xj,..,xp.

17 Qост Qобъясн R2 = 1- = Тема 4. ПРОБЛЕМЫ ПРАКТИЧЕСКОГО ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННЫХ Qобщ Qобщ МОДЕЛЕЙ (4 часа) Измеряется в долях единицы (от 0 до 1) либо в процентах (от 0 до 100%).

Квадратный корень из коэффициента детерминации есть коэффициент множественной Мультиколлинеарность- высокая взаимная коррелированность объясняющих корреляции, характеризует тесноту связи между функцией отклика и совокупности переменных.

факторов, включенных в уравнение.

Cледствия мультиколлинеарности:

Проверка значимости уравнения регрессии:

1.Резко падает точность оценок параметров, получаемых с помощью метода наименьших Н0: все j = 0; Н1: существует хотя бы один j 0.

квадратов. Ошибки некоторых параметров уравнения могут стать очень большими.

Уравнение регрессии значимо, если 2.Выборочные характеристики регрессионной модели становятся крайне неустойчивыми.

S объясн При добавлении (исключении) некоторого количества наблюдений или факторов к Fр = > Fт,1, массиву исходной информации может произойти резкое изменение оценок параметров.

Sост 3.Из-за неустойчивости модели резко сокращаются возможности содержательной (где 1=p, 2=n-p-1).

интерпретации модели, а также прогноза значений зависимой переменной y в точках, существенно удаленных от значений объясняющих переменных в выборке в виду Проверка значимости параметров: Н0: j =0; Н1: j 0.

ненадежности получаемых результатов.

b j Расчетное значение t-статистики Стьюдента t = Sbj Признаки наличия мультиколлинеарности.

1) небольшие изменения в данных приводят к широким колебаниям оценок параметров;

где bj - абсолютное значение оценки параметра j;

Sbj - стандартная ошибка параметра, определяемая по формуле: 2) коэффициенты регрессии имеют высокие стандартные ошибки и высокий уровень 2 значимости, несмотря на тот факт, что совместно они высоко значимы и достаточно Sbj = S ост * с jj высоко значение множественного коэффициента детерминации;

где cjj - диагональный элемент матрицы, обратной матрице нормальных уравнений ((XTX)3) коэффициенты могут иметь неверный знак или неправдоподобную величину.

).

Формальные критерии мультиколлинеарности:

Если tрасч>tтабл,, (где =n-p-1), то данный фактор оказывает существенное (значимое) 1. Критерий 2. Высокая коррелированность переменных проявляется в близости к нулю влияние на результирующую переменную.

определителя матрицы парных коэффициентов корреляции R=|rij|.

Доверительный интервал для коэффициентов регрессии:

Гипотезы процедуры проверки мультиколлинеарности x1,x2,...,xp:

bj - tтабл *Sbj j bj + tтабл*Sbj.

Н0: между объясняющими переменными мультиколлинеарность отсутствует;

Н1: объясняющие переменные высококоррелированы.

Точечная оценка результирующего признака: y*=b0+b1x1*+b2x2*+...+bpxp*.

Для проверки гипотезы вычисляется определитель корреляционной матрицы R и Доверительный интервал для условного математического ожидания Mx(Y) (или же для (2 p + 5) линии регрессии): строится критерий x2 = -((n -1) - ) ln |R|, который имеет 2- распределение с T T Mx(Y ) = y * tv, Sост X (X X )-1 X, p( p -1) количеством степеней свободы, равным. v = где =n-p-1, n- объем выборки, p- число факторов в уравнении регрессии.

Для парной линейной регрессии доверительный интервал для линии регрессии :

Если 2расч2,, то принимается гипотеза Н0.

2. Критерий, использующий число обусловленности матрицы XTX.

1 (x * -x)y1,2 = y * tv,Sост + Обусловленность матрицы определяется отношением максимального собственного числа n - x)(xi max где x* - прогнозное значение фактора, n-объем выборки, t-статистика Стьюдента с числом (max) к минимальному (min): y = min степеней свободы =n-2 и уровнем значимости.

Если min0, то бесконечно велико и присутствует мультиколлинеарность. Для > Sост = S - среднеквадратическое отклонение наблюдений от линии регрессии, ост наблюдается приближенная коллинеарность объясняющих переменных. Для <20 можно T T произведение Sост X (X X )-1 X есть погрешность оценки регрессии. считать, что мультиколлинеарность отсутствует.

Сравнение подмножеств факторов по некоторому критерию качества уравнения Доверительный интервал для индивидуальных значений зависимой переменной:

регрессии:

T T yпрогноз = y * tv,aSост 1+ X (X X )-1 X 1. Коэффициент детерминации (или квадрат коэффициента множественной корреляции).

В случае парной линейной регрессии доверительный интервал для индивидуального Qост Qобъясн R2 = 1- = прогнозного значения зависимой переменной:

Qобщ Qобщ 2. Скорректированный коэффициент детерминации.

1 (x * -x)y1,2 = y * tv,aSост + +n -x)(xi n -R = (1- R2 ) n - q -19 n-число наблюдений, q- число факторов в уравнении когда различие между средними будет значимо, принимается гипотеза Н1 и делается вывод о наличии тренда.

Тема 5. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ (8 часов) Сглаживающие процедуры Пусть имеются наблюдения y1.....yT. Формула линейного фильтра (или сглаженного Временным рядом называют последовательность наблюдений, обычно упорядоченную значения уровня в точке t ) m m во времени (возможно упорядочение и по какому-то другому параметру. Два главных yt * = yt+s t=m+1,T-m причем = cs сs отличия от наблюдений, образующих случайные выборки:

Pages:     | 1 | 2 | 3 | 4 | 5 |    Книги по разным темам