Статистические методы обработки данных

Автор работы: Пользователь скрыл имя, 30 Января 2013 в 17:29, курсовая работа

Описание работы

Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.

Содержание работы

1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы…………………………………………………………………………28

Файлы: 1 файл

статистика катя.docx

— 140.45 Кб (Скачать файл)

(Sample Size)

 

 

The StatAdvisor

---------------

   This table shows partial correlation coefficients between each pair

of variables.  The partial correlations measure the strength of the

linear relationship between the variables having first adjusted for

their relationship to other variables in the table.  They are helpful

in judging how useful one variable would be in improving the

prediction of the second variable given that information from all the

other variables has already been taken into account.  Also shown in

parentheses is the number of pairs of data values used to compute each

coefficient.

 

Матрица парных коэффициентов корреляции

   Для оценки мультиколлинеарнорсти  факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.  Если бы факторы не коррелировали между собой, то матрица   парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы  были бы равны нулю, а определитель был бы равен 1. Если же наоборот, между факторами существует полная линейная  зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы был бы равен 0.  Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

 

 

 

 

Так как у  нас определитель равен 0,08335, то свидетельствует  о слабой мультиколинеарности.

Коэффициенты  корреляции показывают тесноту и  направление связи.  Он может принимать  значения от -1 до 1. Если r  >0, связь прямая, r <0, связь обратная. Если r <0,3 связь слабая. Если 0,3 <r >0,6 средняя. Если r >0,6 связь сильная.

Линейные  коэффициенты парной корреляции показывают характер взаимного влияния изменения двух случайных величин.

 

r уx1 = 0,7531 – связь между средней ожидаемой продолжительностью жизни при рождении и ВВП по паритету покупательной способности сильная прямая;

r уx2 = -0,4897 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста населения средняя обратная;

r уx3 = -0,0046 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста рабочей силы слабая обратная;

r уx4 = -0,9114 - связь между средней ожидаемой продолжительностью жизни при рождении и коэффициентом младенческой смерти сильная обратная;

 r x1 x2 = -0,4040 – связь между ВВП по паритету покупательной способности и темпами прироста населения средняя обратная;

r x1 x3 = - 0,0836 - связь между ВВП по паритету покупательной способности и темпами прироста рабочей силы слабая обратная;

r x1 x4 = -0,7600 - связь между ВВП по паритету покупательной способности и коэффициентом младенческой смерти сильная обратная;

r x2 x3 = 0,7906 - связь между темпами прироста населения и темпами прироста рабочей силы прямая сильная;

r x2 x4 = 0,4822 - связь между темпами прироста населения и коэффициентом младенческой смерти прямая средняя;

r x3 x4 = 0,0827 – связь между темпами прироста рабочей силы и и коэффициентом младенческой смерти прямая слабая;

 

Линейные коэффициенты частной  корреляции  характеризуют тесноту связи между результатом и соответствующими факторами при устранении влияния других факторов, включенных в уравнении регрессии.

r уx1 = 0,2347 – связь между средней ожидаемой продолжительностью жизни при рождении и ВВП по паритету покупательной способности средняя прямая;

rу x2 = -0,5725 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста населения средняя обратная;

r уx3 = 0,5830 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста рабочей силы средняя прямая;

r уx4 = -0,7336 - связь между средней ожидаемой продолжительностью жизни при рождении и коэффициентом младенческой смерти сильная обратная;

 r x1 x2 = 0,0742 – связь между ВВП по паритету покупательной способности и темпами прироста населения слабая прямая;

r x1 x3 = - 0,0983 - связь между ВВП по паритету покупательной способности и темпами прироста рабочей силы слабая обратная;

r x1 x4 = -0,2406 - связь между ВВП по паритету покупательной способности и коэффициентом младенческой смерти слабая обратная;

r x2 x3 = 0,9067 - связь между темпами прироста населения и темпами прироста рабочей силы прямая сильная;

r x2 x4 = -0,1500 - связь между темпами прироста населения и коэффициентом младенческой смерти слабая обратная;

r x3 x4 = 0,2049 – связь между темпами прироста рабочей силы и и коэффициентом младенческой смерти прямая слабая;

    1. Коллинеарность факторов

Парная корреляция:

r x1 x2 = -0,4040 ˂0.7 факторы не коллинеарные;

r x1 x3 = - 0,0836˂0.7 факторы не коллинеарные;

r x1 x4 = -0,7600 ˂0.7 факторы не коллинеарные;

r x2 x3 = 0,7906 ˃0.7 факторы коллинеарные;

r x2 x4 = 0,4822 ˂0.7 факторы не коллинеарные;

r x3 x4 = 0,0827 ˂0.7 факторы не коллинеарные;

Частная корреляция:

r x1 x2 = 0,0742 ˂0.7 факторы не коллинеарные;

r x1 x3 = - 0,0983 ˂0.7 факторы не коллинеарные;

r x1 x4 = -0,2406 ˂0.7 факторы не коллинеарные;

r x2 x3 = 0,9067 ˃0.7 факторы коллинеарные;

r x2 x4 = -0,1500 ˂0.7 факторы не коллинеарные;

r x3 x4 = 0,2049 ˂0.7 факторы не коллинеарные;

В нашем случае коллинеарные факторы  Х2 и Х3. Связь фактора Х3 с У больше чем Х2 (ryx3> ryx2). Поэтому следует оставить фактор Х3.

 

4. Средние коэффициенты эластичности

Коэффициент эластичности представляет собой показатель силы связи фактора Х с результатом У, показывающий, на сколько процентов изменится значение У при изменении значения фактора на 1 %.

Для линейной зависимости

Эух =bj *xj /y,

Где bj – коэффициент регрессии при хj в уравнение множественной регрессии.

Y = 69,559 + 0,328001*X1 - 6,41961*X2 + 5,31287*X3 - 0,158875*X4

 

Эх1= 0,328001*5,6/56,08=0,0328

Эх1 показывает, что при изменении ВВП по паритету покупательной способности на 1%, средняя ожидаемая продолжительность жизни при рождении изменится  на 0,0328;

Эх2= 6,41961*2,556/56,08=0,2956

Эх2 показывает, что при изменении темпа прироста населения на 1%, средняя ожидаемая продолжительность жизни при рождении изменится  на 0,2956;

Эх3= 5,31287*2,592/56,08=0,2456

Эх3 показывает, что при изменении темпов прироста рабочей силы на 1%, средняя ожидаемая продолжительность жизни при рождении изменится  на 0,2456;

Эх4= 0,158875*79,8/56,08=0,2261

Эх4 показывает, что при изменении коэффициента младенческой смертности на 1 %, средняя ожидаемая продолжительность жизни при рождении изменится  на 0,2261;

По значениям  частных коэффициентов эластичности можно сделать вывод о более  сильном влиянии на результат У фактора Х2 чем факторов Х1,Х3, Х4.

5. Уравнение регрессии в линейной форме с полным набором факторов

Регрессионный (линейный) анализ- статистический метод исследования зависимости между зависимой переменной У и одной или несколькими независимыми переменными Х1, Х2… Хр.

В зависимости  от количества факторов, включенных в  регрессию принять различать  простую и множественную регрессию.

Простая регрессия представляет собой регрессию  между двумя переменными Х  и У.

Множественная регрессия представляет собой регрессию  между результатом двумя и  более факторами.

    Решение:

Используем следующий Алгоритм: Relate- Multiple Regression-Analysis.

 

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

-----------------------------------------------------------------------------

                                       Standard          T

Parameter               Estimate         Error       Statistic        P-Value

-----------------------------------------------------------------------------

CONSTANT                  69,559        4,38538        15,8616         0,0000

X1                      0,328001       0,303808        1,07963         0,2932

X2                      -6,41961        2,05579       -3,12269         0,0054

X3                       5,31287        1,65565        3,20893         0,0044

X4                     -0,158875      0,0329091        -4,8277         0,0001

-----------------------------------------------------------------------------

 

                           Analysis of Variance

-----------------------------------------------------------------------------

Source             Sum of Squares     Df  Mean Square    F-Ratio      P-Value

-----------------------------------------------------------------------------

Model                     1105,05      4      276,262      42,90       0,0000

Residual                  128,791     20      6,43953

-----------------------------------------------------------------------------

Total (Corr.)             1233,84     24

 

R-squared = 89,5618 percent

R-squared (adjusted for d.f.) = 87,4742 percent

Standard Error of Est. = 2,53762

Mean absolute error = 2,05163

Durbin-Watson statistic = 1,7545 (P=0,2314)

Lag 1 residual autocorrelation = 0,10596

 

 

 

The StatAdvisor

---------------

   The output shows the results of fitting a multiple linear

regression model to describe the relationship between Y and 4

independent variables.  The equation of the fitted model is

 

Y = 69,559 + 0,328001*X1 - 6,41961*X2 + 5,31287*X3 - 0,158875*X4

 

Since the P-value in the ANOVA table is less than 0.01, there is a

statistically significant relationship between the variables at the

99% confidence level.

 

     The R-Squared statistic indicates that the model as fitted

explains 89,5618% of the variability in Y.  The adjusted R-squared

statistic, which is more suitable for comparing models with different

numbers of independent variables, is 87,4742%.  The standard error of

the estimate shows the standard deviation of the residuals to be

2,53762.  This value can be used to construct prediction limits for

new observations by selecting the Reports option from the text menu.

The mean absolute error (MAE) of 2,05163 is the average value of the

residuals.  The Durbin-Watson (DW) statistic tests the residuals to

determine if there is any significant correlation based on the order

in which they occur in your data file.  Since the P-value is greater

than 0.05, there is no indication of serial autocorrelation in the

residuals. 

 

   In determining whether the model can be simplified, notice that the

highest P-value on the independent variables is 0,2932, belonging to

X1.  Since the P-value is greater or equal to 0.10, that term is not

statistically significant at the 90% or higher confidence level.

Consequently, you should consider removing X1 from the model. 

 

 

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

-----------------------------------------------------------------------------

                                       Standard          T

Parameter               Estimate         Error       Statistic        P-Value

-----------------------------------------------------------------------------

CONSTANT                 68,2484        5,19579        13,1353         0,0000

X1                       0,39965       0,360579        1,10836         0,2802

X3                      0,866113        1,00531       0,861538         0,3987

X4                     -0,208664       0,034266       -6,08955         0,0000

-----------------------------------------------------------------------------

 

                           Analysis of Variance

-----------------------------------------------------------------------------

Source             Sum of Squares     Df  Mean Square    F-Ratio      P-Value

-----------------------------------------------------------------------------

Model                     1042,26      3      347,419      38,08       0,0000

Residual                  191,584     21      9,12304

-----------------------------------------------------------------------------

Total (Corr.)             1233,84     24

 

R-squared = 84,4726 percent

R-squared (adjusted for d.f.) = 82,2543 percent

Standard Error of Est. = 3,02044

Mean absolute error = 2,40117

Durbin-Watson statistic = 2,16362 (P=0,2891)

Lag 1 residual autocorrelation = -0,0848642

 

 

 

The StatAdvisor

---------------

   The output shows the results of fitting a multiple linear

regression model to describe the relationship between Y and 3

independent variables.  The equation of the fitted model is

 

Y = 68,2484 + 0,39965*X1 + 0,866113*X3 - 0,208664*X4

 

Since the P-value in the ANOVA table is less than 0.01, there is a

statistically significant relationship between the variables at the

99% confidence level.

 

     The R-Squared statistic indicates that the model as fitted

explains 84,4726% of the variability in Y.  The adjusted R-squared

statistic, which is more suitable for comparing models with different

numbers of independent variables, is 82,2543%.  The standard error of

the estimate shows the standard deviation of the residuals to be

3,02044.  This value can be used to construct prediction limits for

new observations by selecting the Reports option from the text menu.

The mean absolute error (MAE) of 2,40117 is the average value of the

residuals.  The Durbin-Watson (DW) statistic tests the residuals to

determine if there is any significant correlation based on the order

in which they occur in your data file.  Since the P-value is greater

than 0.05, there is no indication of serial autocorrelation in the

residuals. 

 

   In determining whether the model can be simplified, notice that the

highest P-value on the independent variables is 0,3987, belonging to

X3.  Since the P-value is greater or equal to 0.10, that term is not

statistically significant at the 90% or higher confidence level.

Consequently, you should consider removing X3 from the model. 

 

 

6. Оценка статистической  значимости уравнения регрессии  и его параметра с помощью  критерия Фишера и Стьюдента.  Интерпретация значимых параметров

Значимость  уравнения множественной регрессии  оценивается с помощью F- критерия Фишера.

F=Dфак/Dост

Dфак- факторная сумма квадратов на одну степень свободы;

Dост- факторная сумма квадратов на одну степень свободы. 

Если  при заданном уровне значимости F факт.>Fтабл., то уравнение регрессии статистически значимо. Так же можно оценить не только уравнение в целом, но и фактора, дополнительно включенного в модель. Необходимость такой оценки связана с тем, что некоторые факторы вошедши в модель могли сформироваться под влиянием случайного признака.

Для оценки существенности коэффициента регрессии  и расчета его доверительных  интервалов применяют t – критерий Стьюдента. На основании значения данного критерия, можно сделать вывод о существенности какого-либо исследуемого параметра, который формируется под воздействием  неслучайных причин. На основании t- критерия можно сделать вывод о неслучайной природе данного значения параметра. Если в результате решения фактическое значение t- критерия превышает табличное, то гипотезу о незначимости величин можно отклонить.

По результатам  вышеизложенного алгоритма мы получили уравнение множественной регрессии:

 

Y = 68,2484 + 0,39965*X1 + 0,866113*X3 - 0,208664*X4

Информация о работе Статистические методы обработки данных