Функциональная зависимость и регрессия

Автор работы: Пользователь скрыл имя, 06 Апреля 2011 в 23:43, курсовая работа

Описание работы

Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» - движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

Содержание работы

Введение 3
Глава 1 Корреляционный анализ 4
1.1 Функциональная, статистическая и корреляционная зависимости 4
1.2 Линейная парная регрессия 6
1.3 Коэффициент корреляции 9
1.4 Основные положения корреляционного анализа. 12
1.5 Корреляционное отношение и индекс корреляции 12
1.6 Понятие о многомерном корреляционном анализе. 15
Множественный и частный коэффициенты корреляции 15
1.7 Ранговая корреляция 17
Глава 2 Регрессионный анализ 20
2.1. Основные положения регрессионного анализа. Парная регрессионная модель 20
2.2. Интервальная оценка функции регрессии 22
2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели 24
2.4. Нелинейная регрессия 27
2.5. Определение доверительных интервалов 29
для коэффициентов и функции регрессии 29
2.6. Мультиколлинеарность 30
2.7. Понятие о других методах многомерного статистического анализа 31
Заключение 34
Список используемых источников 35

Файлы: 1 файл

функциональная зависимость и регрессия Иволга В.А.docx

— 1.11 Мб (Скачать файл)

         n=     (1.7)

         Поэтому уравнение регрессии(1.3) будем искать в виде:

                                             (1.8)

         Отвлечемся  на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

         С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних , вычисленных по формуле (1.5), от значений , найденных по уравнению регрессии (1.8), была минимальной:

         S=   (1.9)

         На  основании необходимого условия  экстремума функции двух переменных S=S() приравниваем к нулю ее частные производные, т.е. 

         Откуда после преобразования получим систему нормальных уравнений  для определения параметров линейной регрессии:

                                 (1.10)

         Учитывая (1.5) преобразуем выражение и с  учетом (1.7), разделив обе части уравнений (1.10) на  n, получим систему нормальных уравнений в виде:

                                                   (1.11)

    где соответствующие средние определяются по формулам:

         ,       (1.12)

                                                   (1.13)

                                                   (1.14)

         Подставляя  значение из первого уравнения системы(1.11) в уравнение регрессии (1.8), получаем

                                             (1.15)

         Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Y по Х, будем обозначать символом. Теперь уравнение регрессии Y по Х запишется так:

                                             (1.15)

         Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.

         Решая систему (1.11), найдем

         ,      (1.16)

    где - выборочная дисперсия переменной X

         = – (     (1.17)

    µ - выборочный корреляционный момент:

         µ=    (1.18)

         Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду: 

    где

                                                   (1.21)

    выборочный  коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу= – ( –выборочная дисперсия переменной Y.

         Так как числители в формулах (1.16) и (1.20) для и совпадают, а знаменатели – положительные величины, то коэффициент регрессии и имеют одинаковые знаки, определяемые знаком . Из уравнений регрессии (1.15) и (1.19) следует, что коэффициенты   и определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке ().

         1.3 Коэффициент корреляции

         Перейдем  к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Y от Х является коэффициент регрессии ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.

         Очевидно, что для «исправления»  как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

         Представим  уравнение (1.15) в эквивалентном виде:

                                       (1.22)

         В этой системе величина

         r =       (1.23)

    показывает, на сколько величин  изменится в среднем Y, когда X увеличится на одно .Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

          На рис. 1.2 приведены две корреляционные зависимости переменной Y по Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).

         Нетрудно  видеть, что r совпадает по знаку с (а значит, и с )

    Если  r > 0 ( > 0, > 0), то корреляционная связь между переменными называется прямой, если r < 0 (< 0, < 0) – обратной . При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.

         Учитывая  равенство (1.16), формулу для r представим в виде:

                                                   (1.24)

         Отсюда  видно, что формула для r симметрична относительно двух переменных, т.е. переменные Х и Y можно менять местами. Тогда аналогично формуле (1.24) можно записать:

                                                   (1.25)

         Найдя произведение обеих частей равенств(1.24) и (1,25), получим:

                                                   (1.26)

    или

                                             (1.27)

    т.е. коэффициент корреляции r переменных Х и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

         Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки n), аналогичные     свойствам коэффициента корреляции двух случайных величин .

         1. Коэффициент корреляции  принимает значения  на отрезке [-1; 1], т.е.

                                             (1.28)

         В зависимости от того, насколько  приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т.е. чем ближе к 1, тем теснее связь.

         2. Если все значения  переменных увеличить  (уменьшить) на  одно и то же  число или в  одно и то же  число раз, то  величина коэффициента  корреляции не  изменится.

         3. При r = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по Х и Х по Y совnадают и все наблюдаемые значения располагаются на общей прямой.

         4. При  r = 0  линейная  корреляционная связь  отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат. Равенство r = 0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелированности переменных), но не вообще отсутствии корреляционной, а тем более статистической зависимости. Выборочный коэффициент корреляции r является оценкой генерального коэффициента корреляции ρ (о котором речь пойдет дальше), тем более точной, чем больше объем выборки п. И указанные выше свойства, строго говоря, справедливы для ρ. Однако при достаточно большом n их можно распространить и на r.

         1.4 Основные положения  корреляционного  анализа.

         Корреляционный  анализ (корреляционная модель)– метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

         Основная  задача корреляционного  анализа, как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных (парных, множественных, частных) коэффициентов корреляции. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой.

         Рассмотрим  простейшую модель корреляционного  анализа – двумерную. Плотность совместного нормального распределения двух переменных  X и Y имеет вид:

                                 (1.28)

         ρ- коэффициент корреляции между переменными X и Y, определяемый через кореляционный момент (ковариацию) по формуле: или

         ρ=       (1.30)

         Величина  ρ характеризует тесноту связи  между случайными переменными X и Y. Указанные параметры ρ дают исчерпывающие сведения о корреляционной зависимости между переменными. ρ является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными, получаемой, в частности при их совместном нормальном распределении.

         1.5 Корреляционное отношение  и индекс корреляции

         Введенный выше коэффициент корреляции, как  уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи  при любой форме зависимости.

         Для получения такого показателя воспользуемся  правилом сложения дисперсий:

                                                   (1.31)

    где общая дисперсия переменной

                                              (1.32)

      средняя групповых  дисперсий , или остаточная дисперсия

                                                         (1.33)

                  (1.34)

Информация о работе Функциональная зависимость и регрессия