Книги по разным темам Pages:     | 1 |   ...   | 14 | 15 | 16 | 17 | 18 |   ...   | 22 |

Графическое описание связи заключается в построении линии эмпирической регрессии - ломаной линии, соединяющей на корреляционном поле точки, абсциссами которых являются значения факторного признака (индивидуальные значения или групповые значения), а ординатами - средние значения результативного признака.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если по своему виду она приближается к прямой линии, то можно предположить наличие прямолинейной связи между признаками.

7.2.3. Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака.

Для описания корреляционной связи используется зависимость ~ y = F(x), которая проявляется только на всей статистической совокупности. Так как на результат всегда действует множество факторов, то для каждой отдельной единицы наблюдения значение результативного признака состоит из двух частей:

~ yi = yi + i, ~ где yi - локальная средняя, характеризующая значение результативного признака, сформированное под воздействием только данного фактора xi ;

~ i =(yi - yi ) - отклонение, характеризующее вариацию результативного признака под влиянием неучтённых факторов.

Таким образом, теснота связи - это характеристика ~ соотношения между локальной средней yi и отклонением i. Через тесноту связи определяется, в какой степени влияют на результат учтённые и неучтённые факторы.

На эмпирическом уровне, при проведении корреляционного анализа теснота связи измеряется с помощью интегральных показателей, построенных на правиле сложения дисперсии. В соответствии с ним общая дисперсия результативного признака разлагается на внутригрупповую и межгрупповую:

2 2 = +, y i где - средняя из внутригрупповых дисперсий;

i - межгрупповая дисперсия.

Через соотношение дисперсий определяются показатели, измеряющие степень тесноты связи между результативными и факторными признаками: коэффициент детерминации 2 и эмпирическое корреляционное отношение.

Х Коэффициент детерминации рассчитывается по формуле:

2 2 i = = 1-.

2 y y Приведенное отношение определяет удельный вес вариации, объясняемой влиянием учтенного фактора на результат, в общей вариации результативного признака. Показатель изменяется в диапазоне 2 от 0 до 1. При = 0 межгрупповая дисперсия =0, - это означает, что локальные средние во всех распределениях результативного признака строго одинаковы, центры распределений не смещаются; связь между 2 признаками отсутствует. При = 1 межгрупповая дисперсия равна 2 2 общей дисперсии результативного признака = ; следовательно, = 0, y i а внутригрупповые значение результативного признака не варьируют, то ~ есть yi = yi. Это означает, что на значения результативного признака влияют только учтенные факторы, и связь между признаками является функциональной: значению факторного признака соответствует единственное значение результативного.

Коэффициент детерминации сложно интерпретируется, поэтому на его основе рассчитывается ещё один показатель тесноты связи - эмпирическое корреляционное отношение.

Формат: Список Х Эмпирическое корреляционное отношение рассчитывается по формуле:

2 i = = 1-.

y Диапазон изменения этого показателя: = {0 1 }. Нулевое значение эмпирического корреляционного отношения означает отсутствие связи между результативным и факторным признаками, при = 1 связь классифицируется как функциональная.

Используя численное значение эмпирического корреляционного отношения, связь можно классифицировать по шкале Чеддока, таблица 7.1.:

Таблица 7.1.

Шкала Чеддока 00,1 0,11 0,3 0,31 0,5 0,51 0,7 0,71 0,9 0,91 0,99 0,991 Хара отсутству Слабая умеренна заметная тесная сильная функциональ ктери ет я ная стика связи Если известно, что между результативным и факторным признаком существует линейная связь, то для оценки её тесноты используется линейный коэффициент корреляции ry,x, рассчитываемый по формуле:

x y x y xy xy - n n ry.x = =.

2 x y ( x) ( y) [ - y2 - ] x n ][ n Значения линейного коэффициента корреляции важно для исследований, в которых распределение признака близко к нормальному.

Он принимает значение в интервале -1 ry,x +1. Отрицательные значения ry,x свидетельствуют о наличии обратной связи между признаками, положительные - о прямой связи. При ry,x =0 связь между признаками отсутствует. Для классификации связи по значению линейного коэффициента корреляции используется шкала Чеддока.

7.2.4. Выводы по результатам корреляционного анализа включают в себя констатацию факта наличия связи, определение её направления, предварительную оценку формы связи по линии эмпирической регрессии и классификацию связи по степени её тесноты.

7. 3. Парная регрессия на основе метода наименьших квадратов Парная регрессия характеризует связь между двумя признаками:

факторным и результативным.

Задача построения уравнения регрессии для одного факторного и одного результативного признака формулируется следующим образом:

Пусть имеется набор значений двух переменных:

результативного признака yi и факторного признака xi. Между этими переменными существует объективная связь вида: yi = f (xi )+ i.

Необходимо по данным наблюдения ( yi, xi, i=1,n) подобрать функцию = F(x), наилучшим образом описывающую существующую связь.

При подборе функции последовательно решаются две задачи:

Формат: Список Х Определяется вид функциональной зависимости, то есть проводится спецификация модели.

Х Рассчитываются значения параметров уравнения регрессии.

В парной регрессии выбор вида математической функции может быть осуществлён разными методами:

- аналитическим, исходя из материальной природы связи;

- графическим, на основе линии эмпирической регрессии;

- на основе показателей качества уравнения регрессии.

Показателем качества уравнения регрессии является величина остаточной дисперсии:

n (y - ) 2 i= =.

y- n Этот показатель рассчитывается для уравнений регрессии, построенных по разным математическим функциям. Лучшим по качеству является уравнение, для которого min.

y- При построении уравнений парной регрессии чаще всего используют следующие уравнения:

1. прямой = a + bx, 2. параболы второго порядка = a + bx + cx2, b 3. гиперболы = a +, x 4. степенной = a xb, 5. показательной = a bx, a 6. логистической кривой = и т.д.

1 + bc-CX Оценка параметров уравнений регрессии может быть проведена разными методами.

Классический подход к оцениванию параметров основан на методе наименьших квадратов (МНК).

Метод наименьших квадратов позволяет получить такие оценки параметров уравнения регрессии, которые минимизируют функционал вида:

n S = - i ) min ;

(yi i=Применение метода наименьших квадратов для расчёта параметров уравнения регрессии рассмотрим на примере прямолинейной зависимости = a + bx.

Подставим аналитическое выражение функции = a + bx в функционал S:

S = - a - bx) min.

(y Для нахождения минимума функции двух переменных а и b необходимо взять частные производные по каждому параметру и приравнять их к нулю:

dS dS = 0; = 0.

da db В результате получаем систему нормальных уравнений:

x na + b = y;

a x + b x2 = xy.

Решение системы уравнений даёт оценки параметров a и b:

y x xy y - b x n a = ; b = ;

n (x) x В линейном уравнении регрессии параметр а показывает усреднённое влияние на результативный признак неучтённых факторов.

Формально а= y при х=0. Интерпретация параметра а как среднего значения результативного признака возможно лишь при условии, что среди наблюдаемых значений факторного признака есть значения, равные или близкие к 0. Параметр b в уравнении линейной регрессии называется коэффициентом регрессии. Коэффициент регрессии показывает, на сколько в среднем изменится значение результативного признака при увеличении факторного на единицу собственного измерения.

Для получения качественного уравнения регрессии необходимо чтобы данные наблюдения соответствовали следующим требованиям:

1. число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменных х. Таким образом, искать линейную регрессию имея менее 7 наблюдений не имеет смысла;

2. распределение единиц наблюдения по факторному признаку должно быть однородным и подчиняться нормальному закону распределения.

Построение линейного уравнения регрессии рассмотрим на следующем примере: имеются экспериментальные данные исследования влияния времени вулканизации на сопротивление резины разрыву. Данные наблюдения приведены в таблице 7.3. На основе приведённых данных провести исследование влияния времени вулканизации на качество резины.

Таблица 7.3.

Данные о времени вулканизации и сопротивлению резины № Время Сопротивление № Время Сопротивление анализа вулканизации, разрыву, анализа вулканизации, разрыву, мин мин кг/ см2 кг/ см2 35 162 8 33 2 40 174 9 36 3 30 155 10 31 4 42 172 11 36 5 37 179 12 43 6 38 166 13 39 7 34 162 14 44 Результативный признак y - сопротивление резины, факторный x - время вулканизации.

Прежде чем подбирать соответствующую математическую функцию и строить уравнение регрессии, необходимо проверить качество исходной информации, уровень её вариации, нормальность распределения.

1. Для проверки совокупности на однородность по факторному признаку, используется коэффициент вариации (Vx 33%):

x Vx = 100% x Среднее время вулканизации по данным таблицы 7.4. составляет x = = 37мин.

Таблица 7.4.

Вспомогательная таблица для расчета x и х № п/п x x - x (x - x)2 № п/п x x - x (x - x)1 35 -2 4 8 33 -4 2 40 +3 9 9 36 -1 3 30 -7 49 10 31 -6 4 42 +5 25 11 36 -1 5 37 0 0 12 43 +6 6 38 +1 1 13 39 +2 7 34 -3 9 14 44 +7 - - - Итого 518 - 240 4,(x - x) = = = 17.14 4.1мин ; = 100 = 11,1% < 33%, X X n 14 это означает, что изучаемая совокупность однородна.

2. Проверка первичной информации на нормальность распределение проводится на основе правила 3-х сигм:

x 1 = 37 4.1 = 39.2 41.1 ;

x 2 = 37 2 4.1 = 3 8.2 = 28.8 45.2 ;

x 3 = 37 3 4.1 = 37 12.3 = 24.7 49.3.

Для проверки составим следующую таблицу:

Таблица 7.5.

Проверка данных наблюдения на нормальность распределения Интервалы Число единиц Удельный вес Удельный вес значений попадающих единиц, единиц, входящих признака в интервал попавших в в интервал при интервал, % нормальном распределении,% 39,2 - 41,1 9 64,3 68,28,8 - 45,2 14 100,0 95,24,7 - 49,3 14 100,0 99,Первичная информация по факторному признаку не полностью подчиняется закону нормального распределения, однако это не является основанием для отказа использования корреляционно-регрессионного анализа для описания связи между признаками.

3. Исключение из первичной информации аномальных значений факторного признака, то есть значений, не попадающих в интервал x (24,7< xi <49,3). Таких аномальных значений в первичной информации нет.

4.

5. Для установления факта наличия связи проведём аналитическую группировку. Она выполняется как равноинтервальная xmax - xmin - группировка. При m=4, a = = = 3.5, принимаем а = 4 мин.

m Результаты группировки приведены в таблице 7.6:

Таблица 7.6.

Исследование зависимости сопротивления резины от времени вулканизации Время Номера Число Сопротивление yi Среднее № вулканизации, анализов, анализов резины сопротивление группы мин попавших в группе, yi резины, кг/смв группу 1 30-34 3,8,10 3 155,160,153 156,2 34-38 1,5,7,9,11 5 162,173,162,167,163 827 165,3 38-42 2,6,13 3 174,166,168 508 169,4 42-44 4,12,14 3 172,173,176 521 173,Итого 30-46 - 14 - - Анализ таблицы 7.6. позволяет сделать следующий вывод: связь между признаками существует, так как при увеличении времени вулканизации возрастает сопротивление резины. Графически это выглядит следующим образом:

32 36 40 Рис. 7.3. Эмпирическая линия регрессии сопротивления резины на время вулканизации Эмпирическая линия регрессии приближается к прямой.

Следовательно, можно считать, что между признаками имеется прямолинейная связь вида = a + bx.

Коэффициент регрессии b рассчитаем по формуле:

y x * - xy n b = ;

(x) x y - b x.

параметр a = n Для расчёта параметров составим вспомогательную таблицу:

Таблица 7.7.

Расчёт параметров уравнения регрессии x y yi i - № x2 y2 yi (y - ) xi i анализа 1 162 1225 5670 26244 163.0 -1.0 1.2 174 1600 6960 30276 170.5 +3.5 12. 3 155 900 4650 24025 155.5 -0.5 0.4 172 1764 7224 29584 173.5 -1.5 2.5 173 1369 6401 29929 166.0 +7.0 49.6 166 1444 6308 27556 167.5 -1.5 2.7 162 1156 5508 26244 161.5 +0.5 0.8 160 1089 5280 25600 160.0 0.0 0.9 167 1296 6012 27889 164.5 +2.5 6. 10 153 961 4743 23409 157.0 -4.0 16. 11 163 1296 5868 26569 164.5 -1.5 2. 12 73 1849 7439 29929 175.0 -2.0 4. 13 168 1521 6552 28224 169.0 -1.0 1. 14 176 1936 7744 30976 176.5 -0.5 0.Итого 2324 19406 86359 386.454 - 97.518 2364,518 - b = = 1.5;

5182 -19.2324 -1.5 a = =110.5.

Уравнение регрессии имеет вид = 110.5 +1.5x. Параметры модели могут быть интерпретированы следующим образом: коэффициент регрессии b=1,5 показывает, что при увеличении времени вулканизации на 1 минуту сопротивление резины увеличивается на 1,5 кг/см2. Параметр a = 110,5 интерпретировать невозможно, так как среди наблюдаемых значений факторного признака - времени вулканизации отсутствуют значения равные или близкие к нулю.

Аналогичным образом на основе МНК рассчитываются параметры нелинейной регрессии.

Для параболы второго порядка: = a + bx + cx2 получаем систему нормальных уравнений следующего вида:

y = n a + b + c x x x2 + c x y = a x + b x x2 + b x3 + c x x y = a x Для показательной функции = a b предварительно необходимо выполнить процедуру минимизации, то есть привести функцию к линейному виду. Это можно сделать, прологарифмировав обе части уравнения:

ln = ln a + x ln b.

Введём следующие обозначения: ln = Y ; ln a = A; ln b = B. Тогда уравнение регрессии принимает вид: Y=A+Bх, то есть приводится к линейному уравнению регрессии.

Pages:     | 1 |   ...   | 14 | 15 | 16 | 17 | 18 |   ...   | 22 |    Книги по разным темам