Предисловие к русскому изданию постижение через сопряжение

Вид материалаДокументы

Содержание


1.6. Проверка гипотез
1.7. Оценивание и ожидание
1.8. Хи-квадрат критерий качества модели
Таблица 1.6. Ожидаемые частоты для гипотезы H'о
45 и моложе
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   15

Пример 1.2


Известно, что Y имеет распределение ? - Наблюдается значение 12,40. Не слишком ли оно велико?

Обращаемся к приложению 2 и выбираем строку, соответствующую d = 4. Видим, что Р [Y >9,49] = 0,05, а Р [Y > 13,28] = 0,01. Интересующее нас значение 12, 40 лежит между 9,49 и 13,28, откуда можно заключить, что вероятность этого значения заключена между 0,05 и 0,01. Вероятность между 5 и 1% довольно мала, и мы можем почувствовать, что 12,40 - это достаточно большое значение.

Пример 1.3


Известно, что Y имеет распределение ? - Наблюдается значение 44,00. Не слишком ли оно велико?

Обращаемся к приложению 2 и обнаруживаем, что d = 36 в таблице отсутствует. Зато там есть d = 30 и d = 40, и, воспользовавшись линейной интерполяцией, мы найдем, что значение у, соответствующее вероятности Р [Y >у] = 0,10, приблизительно равно: 40,26 + 0,6?(51,81 - 40,26) = 47,19. Поскольку наше значение 44,00 несколько меньше, чем 47,19, выходит, что Р [Y >44,00] >0,10. Отсюда следует, что значение 44,00 отнюдь не слишком велико, ибо его можно ожидать чаще, чем в 10% случаев.

[11]

1.6. ПРОВЕРКА ГИПОТЕЗ

До самого конца книги мы будем постоянно делать предположения, направленные на поиск возможностей математического описания взаимосвязей, содержащихся в данных. Такое предположение назовем гипотезой. Поближе познакомимся с теми гипотезами, какие мы выдви-нем применительно к множествам данных, подобных представленным в табл. 1.1. Эти гипотезы относятся к независимости друг от друга соответствующих признаков (таких, как пол, возраст и крикет/теннис-предпочтение в данном случае), т. е. к взаимной независимости, которую мы изучим детально. Будем называть нашу исходную гипотезу нуль-гипотезой.

Для проверки истинности или ложности этой гипотезы нам надо сравнить ее с какой-то альтернативной гипотезой, которую применительно к нашим случаям проще всего определить как <нуль-гипотеза не верна>.

Для проверки состоятельности нуль-гипотезы исследователи-аналитики применяют следующий подход. Сначала они предполагают, что нуль-гипотеза верна. Затем, пользуясь этим предположением, пытаются подсчитать вероятности, связанные с возможными значениями некоторых сочетаний чисел, подлежащих проверке. Эти самые <некоторые подходящие значения> называют статистиками, лежащими в основе критерия. Если наблюденное значение этой статистики необычно, например, в том смысле, что его или значение, еще больше отстоящее от среднего, можно ожидать не чаще, чем в 1% случаев, то статистики утверждают, что либо произошел очень редкий случай, либо не верно исходное предположение (нуль-гипотеза). В общем они тогда предпочитают последнюю точку зрения и отвергают нуль-гипотезу в пользу альтернативы.

Пример проверки гипотезы дает ?2-критерий качества модели, описанный в параграфе 1.8.

1.7. ОЦЕНИВАНИЕ И ОЖИДАНИЕ

Одна из особенностей данных табл. 1.1 заключается в том, что среди 400 опрошенных было 194 мужчины и 206 женщин. Если группа опрошенных представляла случайную выборку из населения Великобритании (а это следует предположить), то мы можем воспользоваться такой выборочной информацией для получения некоторых выводов относительно всего населения. Это называется статистическим выводом.

Здравый смысл подсказывает, что если нет никакой дополнительной информации, кроме той, что содержится в цифровых данных, то лучшее утверждение, какое мы можем сделать относительно доли мужчин в совокупности,- это 194/400 = 0,485. В данном случае здравый смысл совпадает со статистическим принципом. Если неизвестную долю мужчин в совокупности обозначить через р, то довольно просто показать, что это именно то значение р (получившееся из экспериментальных данных о 194 мужчинах и 206 женщинах), которое с наибольшей вероятностью можно встретить при повторной выборке. Статисти-

[12]

ки называют это значение роценкой максимума правдоподобия и обозначают его .

Слово <оценивание>, следовательно, ассоциируется с выводом по выборке о совокупности. С другой стороны, оценивание по смыслу ассоциируется с движением в обратном направлении, что проще всего показать на примере. Пусть у нас есть новенькая монета с <орлом> на одной стороне и <решкой> на другой. Если мы будем ее подбрасывать честно, то все согласятся, что примерно в половине случаев она выпадет <орлом>, а в остальных - <решкой>. Если мы подбросим монету N раз, то статистическое ожидание числа <орлов> будет в точности 1/2N. Заметим, что когда N нечетно, то и ожидание не будет целым числом. Вовсе не обязательно, чтобы ожидаемая частота (ожидание) была целым числом, что вводит в терминологию некоторую путаницу.

Теперь мы готовы к тому, чтобы объединить идеи оценивания и ожидания. Давайте положим, что мы извлекаем из населения Великобритании новую выборку. На этот раз предполагается опросить 1000 человек. Какое число мужчин в этой выборке можно ожидать, опираясь на наши предыдущие результаты? Начнем с оценки 0,485 для доли мужчин в совокупности. Отсюда, если пользоваться представлениями об ожидаемых частотах, следует, что мы <ожидаем> 1000?0,485 = 485 мужчин. Фактически мы утверждаем, что если ограничиться одним единственным числом, то стоит взять 485, и мы при этом полагаем, что это именно то число, к которому должен приблизиться наш результат. Если же этого не случится, то мы заключим, что нуль-гипотеза (в данном случае о том, что доля мужчин равна 0,485) не верна. Чтобы убедиться в верности или неверности нуль-гипотезы, нужна какая-то статистика, которую можно положить в основу критерия. Мы рассмотрим ее в следующем параграфе.

1.8. ХИ-КВАДРАТ КРИТЕРИЙ КАЧЕСТВА МОДЕЛИ

В предыдущем параграфе мы обсуждали ситуацию, где на основе предварительной информации мы заключили, что наиболее вероятное значение некоторой частоты равно 485. Следовательно, мы имели ожидаемую частоту 485. Давайте теперь предположим, что наблюденное значение этой частоты оказалось 510. Мы хотим знать, не слишком ли велико различие между 510 и 485, равное 25, чтобы усомниться в разумности <ожидаемого> значения 485 и отказаться от него. Ясно, что это различие должно играть важную роль в нашем решении, но ясно и то, что мы должны считаться с отношением величины различия и ожидаемого значения 485, поскольку 25 должно быть более существенным для малых ожидаемых значений, чем для больших. Эти соображения приводят нас к использованию величины 25?25/485 в качестве критерия меры пригодности или непригодности нашей гипотезы.

В случаях, которые мы рассмотрим в этой книге, в основном те же самые идеи оценивания и ожидания будут прилагаться к каждому из индивидуальных значений в таблице сопряженности, подобной табл. 1.5. Для таких данных мы можем, например, ввести в рассмотрение одну из следующих гипотез:

[13]

H'o - числа мужчин и женщин в совокупности равны; 40% лиц обоих полов - старше 45 лет, 3 из 4 мужчин предпочитают крикет, 3 из 4 женщин предпочитают теннис;

H''o - результаты второго обследования должны быть такими же, как и первого (табл. 1.3), ожидаются лишь различия, обусловленные случайной изменчивостью;

H'''о - доли мужчин-любителей крикета и людей старше 45 лет те же, что в выборке, и все они независимы друг от друга.

Каждой из этих нуль-гипотез соответствуют свои альтернативы, которые просто устанавливают, что данная нуль-гипотеза не верна.

Так как нас интересует каждое из индивидуальных значений в таблице, нам надо объединить информацию о различиях между ожидаемыми (E) и наблюдаемыми (О) значениями. Первое, что приходит в голову, - это рассмотреть величину (О - Е)2 и придумать какую-нибудь статистическую теорию для этой величины, чтобы получить подходящий метод объединения информации при получении этой величины для каждой ячейки с последующим суммированием по ячейкам. Другими словами, мы вводим статистику для нашего критерия, обозначаемую X2 и равную, по определению,

X2 = (1.3)

К. Пирсон [Pearson К., 1904] был первым, кто предложил этот критерий и доказал, что, если только ожидаемые значения не слишком малы, распределение X2 будет приблизительно тем же, что и распределение ?2- Число степеней свободы для ?2-распределения получается при вычислении d, где

d=(число ячеек) - (число ограничений, налагаемых на данные). (1.4)

Для гипотез H'o и H''o существует только одно ограничение на данные, а именно: сумма ожидаемых значений равна 400 (сумме наблюденных значений). Для гипотезы H'''о ограничения более сложные, и мы рассмотрим их подробно ниже. Величину X2 иногда называют ?2 критерием Пирсона.

Альтернатива для X2, которой мы будем широко пользоваться, - это величина

Y2 = 2. (1.5)

Она получается из сопоставления оцениваемой вероятности совместного появления наших данных при условии верности нуль-гипотезы с соответствующей вероятностью для альтернативной гипотезы. Оцениваемая совместная вероятность такого типа называется правдоподобием, а уравнение (1.5) есть отношение двух правдоподобий. Следовательно, Y2 тоже имеет приближенное распределение X2 с тем же самым числом степеней свободы, поэтому его иногда называют ?2-отношением правдоподобия. На практике редко наблюдаются очень большие расхождения между значениями X2 и Y2.

[14]

Пример 1.4.

Обратимся к нуль-гипотезе Н'o. Она требует ожидаемого числа мужчин, равного 200, и такого же числа женщин, причем по 80 человек каждого пола должны быть старше 45 лет. Поскольку в соответствии с этой гипотезой 3 из 4 мужчин предпочитают крикет, находим ожидаемое значение (3/4)?80 = 60 мужчин, старше 45 лет, любителей крикета. Все множество ожидаемых значений приведено в табл. 1.6.


Таблица 1.6. Ожидаемые частоты для гипотезы H'о

Предпочтение

Старше 45

45 и моложе

мужчины

женщины

всего

мужчины

женщины

всего

Крикет

Теннис

60

20

20

60

80

80

90

30

30

90

120

120

Всего

80

80

160

120

120

240