Утверждаю

Вид материалаРабочая программа

Содержание


1. Цели освоения дисциплины
2. Место дисциплины в структуре ООП бакалавриата.
3. Компетенции обучающегося, формируемые в результате освоения дисциплины.
Общекультурные (ОК)
Профессиональные компетенции (ПК)
Знать основные модели и методы многомерного анализа данных, классификацию многомерных статистических методов. Уметь
4. Структура и содержание дисциплины
Формы текущего контроля успеваемости (по неделям семестра)
Корреляционный анализ
Классификация (обучение с учителем)
Кластеризация (обучение без учителя)
Снижение размерности
5. Образовательные технологии
7. Учебно-методическое и информационное обеспечение дисциплины
8. Материально-техническое обеспечение дисциплины (модуля)
Подобный материал:
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ


Томский государственный университет

Факультет прикладной математики и кибернетики


УТВЕРЖДАЮ


Декан ФПМК А.М.Горцев


"1" марта 2011 г.


Рабочая программа дисциплины

Многомерные статистические методы


Направление подготовки

080100 Экономика

Профиль: Математические методы в экономике


Квалификация выпускника

Бакалавр


Форма обучения

очная


Томск

2011

1. Цели освоения дисциплины «Многомерные статистические методы». Дать студентам представление о содержании многомерного анализа как о целостной теории обработки многомерных данных, направленной на построение статистических выводов. Ознакомить с основными методами многомерного анализа и основами их применения для анализа экономической информации. Выработать навыки обращения с пакетами прикладных программ, реализующих методы многомерного анализа. Освоить программные средства многомерного анализа (ППП STATISTICA).


2. Место дисциплины в структуре ООП бакалавриата. Дисциплина «Многомерные статистические методы» входит в вариативную часть профессионального цикла Б.3, изучается в седьмом семестре.

Дисциплина «Многомерные статистические методы» предназначена для студентов четвертого курса дневного отделения. Требования к входным знаниям, умениям и компетенциям: курс линейной алгебры, курс теории вероятностей и математической статистики, курс социально-экономической статистики.


3. Компетенции обучающегося, формируемые в результате освоения дисциплины.

Процесс изучения дисциплины направлен на формирование следующих компетенций, связанных с умением использовать математические модели и методы для анализа экономической информации.
  • Общекультурные (ОК):
    • владеет культурой мышления, способен к обобщению, анализу, восприятию информации, постановке цели и выбору путей её достижения (ОК–1) в части применения моделей многомерного статистического анализа в социально-экономических исследованиях.
    • владеет основными методами, способами и средствами получения, хранения, переработки информации, имеет навыки работы с компьютером как средством управления информацией, способен работать с информацией в глобальных компьютерных сетях (ОК-13) в части использования статистических пакетов прикладных программ.
  • Профессиональные компетенции (ПК):
    • способен анализировать исходные данные, необходимые для расчета экономических и социально-экономических показателей, характеризующих деятельность хозяйствующих субъектов (ПК-1);
    • способен осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач (ПК-4);
    • способен выбрать инструментальные средства для обработки экономических данных в соответствии с поставленной задачей, проанализировать результаты расчетов и обосновать полученные выводы (ПК-5);
    • способен на основе описания экономических процессов и явлений строить стандартные теоретические и эконометрические модели, анализировать и содержательно интерпретировать полученные результаты (ПК-6);
    • способен использовать для решения аналитических и исследовательских задач современные технические средства и информационные технологии (ПК-10).


В результате освоения дисциплины обучающийся должен:
  • Знать основные модели и методы многомерного анализа данных, классификацию многомерных статистических методов.
  • Уметь осуществлять выбор инструментальных средств для обработки экономических данных в соответствии с поставленной задачей, анализировать результаты расчетов и обосновывать полученные выводы.
  • Владеть техникой использования программных продуктов, предназначенных для анализа многомерных данных





4. Структура и содержание дисциплины

Общая трудоемкость дисциплины 3,4 зачетных единицы – 122 часа.






п/п



Раздел

Дисциплины

Семестр

Неделя семестра

Виды учебной работы, включая самостоятельную работу студентов и трудоемкость (в часах)

Формы текущего контроля успеваемости (по неделям семестра)

Форма промежуточной аттестации (по семестрам)

лек

лаб

СРС

1

Предмет и методы многомерного анализа

7

1

2

2

4

Проверка результатов выполнения лабораторной работы «Операции с данными в ППП STATISTICA»

2

Корреляционный анализ

7

2-3

4

4

4

Проверка результатов выполнения лабораторной работы «Корреляционный анализ»

3

Классификация (обучение с учителем)

7

4-7

8

8

10

Проверка результатов выполнения лабораторной работы «Методы классификации»

4

Кластеризация (обучение без учителя)

7

8-12

10

10

12

Проверка результатов выполнения лабораторной работы «Методы кластерного анализа»

5

Снижение размерности

7

13-16

6

6

8

Проверка результатов выполнения лабораторной работы «Методы снижения размерности»

6

Контрольная работа

7

16

2

2

2

Форма итогового контроля – зачет




Итого







32

32

40

18



Содержание дисциплины

Корреляционный анализ


Частное и условное нормальное распределение. Функция регрессии одного нормального вектора на другой. Частная ковариация и частный коэффициент корреляции. Декоррелирующее преобразование случайного вектора. Расстояние Махалонобиса. Одновременная диагонализация двух матриц.

Парный коэффициент корреляции, его свойства, интерпретация и недостатки (нелинейная зависимость, аномальные наблюдения, ложная корреляция). Выборочный парный коэффициент корреляции, аппроксимация его распределения. Доверительный интервал, проверка гипотезы о равенстве нулю. Использование преобразования Фишера.

Измерение тесноты статистической связи при нелинейной зависимости. Случай группированных данных: корреляционное отношение, проверка гипотезы о его равенстве нулю. Случай негруппированных данных: индекс корреляции.

Частный коэффициент корреляции, его геометрическая интерпретация. Вычисление частных коэффициентов корреляции: рекуррентная формула для нормального распределения и использование алгебраических дополнений корреляционной матрицы, проблема определения выборочных значений. Аппроксимация распределения частного коэффициента корреляции.

Два способа определения множественного коэффициента корреляции. Способы его вычисления и свойства. Проверка гипотезы о равенстве нулю.

Классификация (обучение с учителем)


Классификация для случая заданных распределений двух классов. Лемма Неймана-Пирсона, байесовское правило. Классификация в модели Фишера с одинаковыми и разными ковариационными матрицами двух классов. Классификация двух нормальных распределений посредством линейной поверхности.

Характеристики качества классификации: вероятность ошибки классификации, взвешенная ошибка классификации, функция потерь, зависящая от степени различения. Вероятность ошибки классификации в модели Фишера.

Отбор информативных признаков: необходимость, возможные последствия исключения признака на примере модели Фишера, измерение качества подмножества признаков. Методы поиска информативного набора признаков: перебор, последовательное включение и исключение, случайный поиск с адаптацией.

Классификация для случая заданных распределений трех и более классов. Байесовское правило. Классификация в модели Фишера с общей ковариационной матрицей классов.

Базовые понятия обучения с учителем: случайная классифицированная выборка, алгоритм классификации (решающее правило, классификатор), виды ошибок классификации (условная вероятность ошибочной классификации, ожидаемая ошибка классификации, асимптотическая ожидаемая ошибка классификации), виды асимптотики при анализе качества классификации.

Модель Фишера в асимптотике растущей размерности.

Алгоритмы построения решающих правил. Статистические и эвристические алгоритмы. Гипотезы компактности (многомерная и проекционная, унимодальная и полимодальная, локальная). Кусочно-линейные классификаторы: правило ближайшего соседа, правило k ближайших соседей, метод эталонов. Алгоритмы подстановки. Методы, основанные на ядерных оценках плотностей распределения. Метод потенциальных функций. Коллективы решающих правил.

Алгоритмы кластеризации: метод дробящихся эталонов, логические решающие правила.

Кластеризация (обучение без учителя)


Исходные данные для кластеризации: матрица объект-свойство, матрица взаимных расстояний. Нестрогая постановка задачи кластеризации. Расстояния между объектами. Расстояния между классами.

Меры качества разбиения выборки на классы. Случаи известного и неизвестного числа классов. Формулировка задач кластеризации при неизвестном числе классов.

Расщепление смесей распределений. Понятие смеси распределений. Задача расщепления смеси. Использование результатов расщепления для классификации. Идентифицируемость (различимость) смесей распределений.

Итерационная процедура расщепления смеси распределений, основанная на принципе максимального правдоподобия. Определение числа классов.

Процедура расщепления смеси распределений, основанная на методе моментов. Процедура адаптивного вероятностного обучения.

Эвристические алгоритмы таксономии. Алгоритм k эталонов. Метод взаимного поглощения. Алгоритм k средних.

Базовый алгоритм ФОРЕЛЬ. Алгоритм ПУЛЬСАР (ФОРЕЛЬ-2). Алгоритм СКАТ.

Последовательные процедуры таксономии. Метод эталонов. Метод k средних с заданным и с переменным числом классов.

Иерархическая таксономия: метод декомпозиции, метод агломерации, множественное слиянием, быстрые алгоритмы попарной агломерации.

Итеративный самоорганизующийся метод анализа данных (ИСОМАД).

Снижение размерности


Задача снижения размерности: мотивы, предпосылки, общая постановка (размерность новой системы признаков, класс допустимых преобразований, мера информативности новой системы признаков). Варианты задач снижения размерности: метод главных компонент, факторный анализ, экстремальная группировка, отбор информативных признаков в задаче классификации, выбор информативных переменных в задаче регрессии.

Вычисление главных компонент. Их числовые характеристики. Необходимость нормировки признаков. Обобщенные главные компоненты. Свойства оптимальности главных компонент: наименьшая ошибка автопрогноза, наименьшее искажение геометрической структуры исходных наблюдений. Главные компоненты в задаче классификации.

Модели и методы факторного анализа. Каноническая модель факторного анализа, ее сущность, интерпретация. Основные задачи факторного анализа. Условия существования модели. Единственность модели с точностью до вращения факторов. Общий итерационный подход к выявлению структуры модели факторного анализа. Оценка факторных нагрузок, остаточных дисперсий, факторов. Факторный анализ в задачах классификации.


5. Образовательные технологии

При реализации программы курса «Многомерные статистические методы» предусматривается проведение лекционных и практических занятий. В ходе лекционных занятий, наряду с изложением классических вопросов многомерного анализа, все понятия и методы иллюстрируются типичными примерами данных измерений, которые встречаются при решении практических и научных задач в различных отраслях экономических исследований.

Лабораторные занятия посвящаются выработке навыков использования пакетов прикладных программ для обработки данных многомерных статистических измерений при решении задач, возникающих в экономических исследованиях. При проведении лабораторных работ внимание уделяется как освоению технологий обработки данных, так и интерпретации полученных результатов.


6. Учебно-методическое обеспечение самостоятельной работы студентов.
Оценочные средства для текущего контроля успеваемости, промежуточной аттестации по итогам освоения дисциплины.


Текущий контроль и промежуточная аттестация по итогам освоения дисциплины, а также контроль обучающегося по отдельным модулям дисциплины проводится по результатам выполнения контрольных и лабораторных работ.

Лабораторные работы предусмотрены по всем темам курса и результаты их выполнения используются для контроля успеваемости. Лабораторные работы проводятся с использованием ППП «STATISTICA». Целью работ является освоение практических навыков обработки исходных статистических данных. Темы работ:
  • Операции с данными в ППП «STATISTICA».
  • Описательная статистика и регрессионный анализ
  • Корреляционный анализ
  • Классификация
  • Кластерный анализ
  • Снижение размерности

Итоговый контроль осуществляется с помощью выполнения зачетной работы по теоретическим разделам курса, в которую входит письменный ответ на вопрос экзаменационного билета.


7. Учебно-методическое и информационное обеспечение дисциплины


а) Основная литература
  1. Сажин Ю.В., Басова В.А. Многомерные статистические методы. – М.: Компания Спутник + CIJA, 2002. - 163с.
  2. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы для экономистов и менеджеров: Учебник - Финансы и статистика, 2000.
  3. Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики. Т.1 – М.: ЮНИТИ-ДАНА, 2001, 656 с.
  4. Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики. Т.2 – М.: ЮНИТИ-ДАНА, 2001, 432 с.
  5. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях – М.: ЮНИТИ-ДАНА, 2001, 270 с.
  6. Халафян А.А. STATISTICA 6. Статистический анализ данных. – М.: Бином-пресс, 2008, 512 с.


б) Дополнительная литература
  1. Боровиков В.П. Прогнозирование в системе Statistica в среде Windows. Основы теории и интенсивная практика на компьютере: Учеб. пособие. – М.: Финансы и статистика, 2000.
  2. Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере. – СПб.: Питер, 2001.
  3. Боровиков В.П. Программа STATISTICA для студентов и инженеров. – М.: Компьютер-пресс, 2001.


в) Программное обеспечение и Интернет-ресурсы
  1. Официальный сайт федеральной службы государственной статистики (Росстат)
    u/
  2. Официальный сайт компании StatSoft Russia и статистического пакета STATISTICA
    oft.ru/
  3. Официальный сайт проекта The R-Project for statistical computing
    ject.org/



8. Материально-техническое обеспечение дисциплины (модуля)

Перечень материально-технического обеспечения включает в себя:

1. Учебные классы, оснащенные аппаратурой и программным обеспечением для организации практических занятий.

2. Мультимедийные проекторы в аудиториях, где проводятся лекционные занятия.

3. Три компьютерных класса общего пользования с подключением к Интернет, состоящих из 8 компьютеров (для работы одной академической группы одновременно), с подключенным к ним периферийным устройствам.

4. Современные лицензионные компьютерные статистические системы для анализа данных и обработки результатов эмпирических исследований (Statistiсa и др.) и соответствующую учебно-методическую литературу к ним.


Программа составлена в соответствии с требованиями ФГОС ВПО с учетом рекомендаций и ПрООП ВПО по направлению 080100 «Экономика» и профилю подготовки Математические методы в экономике.


Автор – к.ф.-м.н., доцент П.Ф. Тарасенко

Рецензент – д-р ф.-м. н. профессор Дмитриев Ю.Г.


Программа одобрена на заседании Ученого Совета ФПМК

от 24.02.2011, протокол № 282.