Автор работы: Пользователь скрыл имя, 07 Января 2010 в 15:46, Не определен
коререляционно-регрессионный анализ данных рынка труда
Содержание:
1. Введение. | 2 |
2. Теоретическая
часть.
|
3
3 8 |
3. Практическая часть. | 9 |
4. Заключение. | |
5. Список использованной литературы. | 14 |
Введение.
В
экономических исследованиях
Все многообразие факторов, которые воздействуют на изучаемый процесс, можно разделить на две группы: главные (определяющие уровень изучаемого процесса) и второстепенные. Последние часто имеют случайный характер, определяя специфические и индивидуальные особенности каждого объекта исследования.
Взаимодействие главных и второстепенных факторов и определяет колеблемость исследуемого процесса. В этом взаимодействии синтезируется как необходимое, типическое, определяющее закономерность изучаемого явления, так и случайное, характеризующее отклонение от этой закономерности. Случайные отклонения неизбежно сопутствуют любому закономерному явлению.
Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Не
все факторы, влияющие на экономические
процессы, являются случайными величинами.
Поэтому при анализе экономических Явлений
обычно рассматриваются связи между случайными
и неслучайными величинами. Такие связи
называются регрессионными, а метод
математической статистики, их изучающий,
называется регрессионным анализом.
Теоретическая часть.
Основные понятия.
С
целью математического описания конкретного
вида зависимостей с использованием регрессионного
анализа подбирают класс функций, связывающих
результативный показатель y и аргументы
x1, x2,…,хk ,
отбирают наиболее информативные аргументы,
вычисляют оценки неизвестных значений
параметров уравнения связи и анализируют
точность полученного уравнения.
Функция
f(x1, x2,…,хk ), описывающая
зависимость условного среднего значения
результативного признака у
от заданных значений аргументов, называется
функцией (уравнением)
регрессии.
Термин "регрессия" (лат. - "regression" - отступление, возврат к чему-либо) введен английским психологом и антропологом Ф.Гальтпном и связан только со спецификой одного из первых конкретных примеров, в котором это понятие было использовано.
Обрабатывая статистические данные в связи с вопросом о наследственности роста, Ф.Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на x дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию».
Термин регрессия широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует понятие статистической зависимости.
Для точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f( x1, x2,…,хk ), основанных на исходных статистических данных.
В рамках отдельных модельных допущений о типе распределения вектора показателей (у, x1, x2,…,хk ) может быть получен общий вид уравнения регрессии f(x)=M(y/x) x=( x1, x2,…,хk ) . Например, в предложении, что исследуемая совокупность показателей подчиняется (k + 1) - мерному нормальному закону распределения с вектором математических ожиданий
M =
где Mx = , my = MY
и ковариационной матрицей S = ,
где syy = s2y = M (y-My) ;
S yx =
; S xx =
;
s ij
= M (xi
– Mxi);(xj
– Mxj); sjj
= sj
= M (xj
– Mxj)
.
Из этого следует, что уравнение регрессии (условное математическое ожидание) имеет вид:
M(y/x) = my +
Однако в статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных эначениях аргументов х=х.
Рассмотрим взаимоотношение между истиной f(х)= M(y/x), модельной у и оценкой у регрессии.
Пусть результативный показатель у связан с аргументом х соотношением::
y =
где e - случайная величина, имеющая нормальный закон распределения, причем М e = 0 и
D e = .
Истинная функция регрессии в этом случае имеет вид:
F(x) = M(y/x)
= 2x
Предположим, что точный вид истинного уравнения регрессии нам не известен, но мы располагаем девятъю наблюдениями над двумерной случайной величиной, связанной соотношением уi = 2x + ei, и предcтавленной на рисунке:
у
70
60
50
40
30
20
10
0
0 2 4 6 8 10
Взаимное
расположение истинной f(x) и теоритической
у модели регрессии.
Расположение точек на рисунке позволяет ограничиться классом линейных зависимостей вида: у = b0 + b1 x.
С помощью метода наименьших квадратов найдем оценку уравнения регрессии
у = b0 +b1 x.
Дли сравнения на рисунке приводятся графики истинной функции регрессии f{х) =2x , теоретической аппроксимирующей функции регрессии = b0 + b1 x. К последней сходится по вероятности оценка уравнения регрессии при неограниченном увеличении объема выборки (n ).
Поскольку мы ошиблись в выборе класса функции регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е., как бы
мы не увеличивали объем наблюдений, наша выборочная оценка не будет сходиться к истинной функции регрессии f(х).
Если бы мы правильно выбрали класс функций регрессии, то неточность в описании f(x) с помощью объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при n .
С целью наилучшего восстановления по исходным статистическим данным условного значения результатирующего показателя у(х) и неизвестной функции регрессии f(x) = M(y/x) наиболее часто используют следующие критерии адекватности (функции потерь).
1. Метод наименьших квадратов, согласно которому минимизируется квадрат отклонения наблюдаемых значений результативного показателя yi(i=1,2,…,n) от модельных значений i = f(xi, b), где b = (b0, b1,…,bk) - коэффициенты уравнения регрессии, xi – значение вектора аргументов в i-м наблюдении:
Решается задача отыскания оценки вектора b. Получаемая регрессия называется среднеквадратической.
2. Метод наименьших модулей, согласно которому минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений = f(xi, b), т.е.