Автор работы: Пользователь скрыл имя, 20 Января 2015 в 17:22, курсовая работа
Ранние практические исследования в области измерения воздействия качества на цену в основном не были связаны с построением индексов цен, будучи подчинены другим целям. Очевидно, первым исследованием взаимосвязи цены и качества была работа Ф. Вога, занимавшегося проблемами экономики сельского хозяйства, который в 1927 г. написал статью «Влияние фактора качества на цены овощей».
Введение
Основные понятия
Множественная регрессия
Метод наименьших квадратов
Оценка качества подгонки регрессионного уравнения к данным
Исследования
Упражнение 1
Упражнение 2
Заключение
Список литературы
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«ЧЕЛЯБИНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
КУРСОВАЯ РАБОТА
Эконометрическая модель для данных Вога
Факультет математический Исполнитель Постолова Д.А.
Направление прикладная математика Группа МП-301
и информатика
Кафедра вычислительной Научный д.ф.-м.н., профессор
математики руководитель Павленко В.Н
Оценка
Содержание
Введение
Ранние практические исследования в области измерения воздействия качества на цену в основном не были связаны с построением индексов цен, будучи подчинены другим целям. Очевидно, первым исследованием взаимосвязи цены и качества была работа Ф. Вога, занимавшегося проблемами экономики сельского хозяйства, который в 1927 г. написал статью «Влияние фактора качества на цены овощей». Цель его исследования состояла в том, чтобы, используя статистический анализ, «найти существенные факторы качества, являющиеся причиной высоких или низких цен». В своей статье Вог описал результаты анализа множественной регрессии, в котором он исследовал влияние физических характеристик – размера, формы, цвета, степени зрелости, однородности и других факторов – на цены спаржи (аспарагуса), отраженных в статистике ежедневных продаж на центральном оптовом рынке Ф. Холл, расположенном в Бостоне, штат Массачусетс.
Мотивы этого исследования были вполне практическими. Заметив, что фермеры, максимизирующие свою прибыль, могут до некоторой степени регулировать как количество, так и качество производимого товара, чтобы приспособиться к рыночному спросу, Вог подчеркнул практическую ценность своего исследования следующим утверждением: «Если можно показать, что существует премия за определенные качества и типы продуктов, и если эта премия более чем достаточна для оплаты возросших издержек по выращиванию более высококачественных продуктов, производитель может и будет производить и продавать такую продукцию, которая удовлетворяет рыночный спрос».
Наша цель – показать, как могут быть построены и интерпретированы индексы цен, как связаны между собой цена и качество, а также как множественный регрессионный анализ может быть применен для расчета результатов изменения качества. Основное внимание мы уделим интерпретации оцениваемых коэффициентов множественной регрессии, включая параметры при фиктивных переменных.
Основные понятия
На практике часто возникает ситуация, когда нужно проанализировать влияние ряда факторов на исследуемый показатель. В этом случае необходимо рассматривать обобщение парной регрессии – модель множественной регрессии. Линейная модель множественной регрессии выглядит следующим образом:
где -значение зависимой (эндогенной) переменной для наблюдения ;
- значение независимой (экзогенной) переменной с номером для наблюдения ;
- случайная компонента для наблюдения (она учитывает влияние не учтенных в модели факторов);
- количество независимых переменных (регрессоров в уравнении);
- число наблюдений.
Общая последовательность построения множественной линейной регрессионной модели такова.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Для определения параметров уравнения множественной линейной регрессии, как и в случае парной линейной регрессии, используется метод наименьших квадратов, который минимизирует сумму квадратов ошибок (случайных компонент):
Оптимальные значения параметров являются оценками, приближенными значениями истинных (неизвестных нам) параметров .
Решение этой системы (искомые оценки параметров ) в матричном виде осуществляется следующим образом:
где - матрица объясняющих (экзогенных) переменных (она получена путем выписывания значений всех переменных для имеющихся наблюдений и добавлением слева единичного столбца, матрица является прямоугольной и имеет размерность , т.е. имеет строк и столбец);
-вектор значений зависимой (эндогенной) переменной;
-вектор параметров (коэффициентов) уравнения;
-вектор ошибок (случайных компонент);
-транспонированная матрица объясняющих переменных.
Для оценки качества подгонки уравнения к выборочным данным, т.е. проверки близости к фактическим рассчитанных по модели значений, используется коэффициент детерминации . Он определяется аналогично тому, как это было для парной линейной регрессии:
где -среднее значение зависимой переменной,
-рассчитанное по модели (прогнозное) значение зависимой переменной.
Справедливо соотношение Чем ближе к единице, тем выше качество подгонки, тем ближе расчетные значения к фактическим. Близость к нулю означает, что в качестве прогноза лучше использовать среднее значение зависимой переменной, а не расчетные значения .
Исследования
Упражнение 1.
Даны данные исследования Вога, содержащие 200 наблюдений по четырем переменным: (1) относительная цена пучка спаржи – PRICE; (2) длина зеленой части спаржи в сотых дюйма – GREEN; (3) количество стеблей спаржи в одном почке – NOSTALKS; (4) разброс в размере (межквартальный коэффициент) стеблей – DISPERSE.
(а) С помощью этих данных вычислите параметры уравнения множественной регрессии, в котором PRICE является зависимой переменной, а остальные – независимыми переменными. Сравните полученные оценки параметров с результатами Вога. Какие из оценок параметров больше всего отличаются от результатов Вога?
Вог сообщает следующие оценки параметров регрессионного уравнения:
где -остаток.
В работе не приведены оценки свободного члена , нет также стандартных ошибок и -статистик. В программе eViews было составлено следующее уравнение и получены следующие оценки параметров:
Сравнивая полученные результаты с результатами Вога можно заметить, что наиболее отличаются оценки параметров NOSTALKS и DISPERSE.
В поле Prob. указывается P-значение – вероятность того, что гипотеза о незначимости коэффициента верна. Для вывода о значимости коэффициента P-значение сравнивается с уровнем значимости : если Prob.<0,05, коэффициент значим на уровне значимости 0,05 (на уровне доверия 95%). Следовательно, все переменные являются значимыми.
(b) В приложении Вог также приводит вторые выборочные моменты (дисперсии и ковариации) по четырем переменным:
При помощи подходящего программного обеспечения и данных, приведенных в файле WAUGH, вычислите матрицу вторых моментов и сравните ее с полученной Вогом, приведенной выше.
Заметим, что выборочные дисперсии для переменных GREEN и DISPERSE очень близки к полученным Вогом, для NOSTALKS расхождение уже больше и оно очень велико для переменной PRICE. Ковариации, полученные мной практически все больше, чем полученные Вогом, но соотношения между ними меняются. Данные, полученные мной в программе, более точные, благодаря программному обеспечению. Данные Вога посчитаны вручную, поэтому присутствуют небольшие ошибки.
(c) Прокомментируйте статистическую значимость параметров.
В поле Prob. указывается P-значение – вероятность того, что гипотеза о незначимости коэффициента верна. Для вывода о значимости коэффициента P-значение сравнивается с уровнем значимости : если Prob.<0,05, коэффициент значим на уровне значимости 0,05 (на уровне доверия 95%). Следовательно, все переменные являются значимыми.
Величины стандартных ошибок коэффициентов регрессии приведены в поле Std. Error. Это поле является также средним квадратическим отклонением (корнем из дисперсии). Проанализировав данные это поля, мы приходим к выводу, что наименьшее значение среднего квадратического отклонения при переменной GREEN (0.007110), при переменных NOSTALKS и DISPERSE значение больше (0.151120 и 0.129837 соответственно). Очень велико значение при С (5.336952). Благодаря этим результатам, приходим к пониманию, почему мы получили расхождения с результатами Вога. В его работе не приведены оценки свободного члена. По всей видимости, он не брал его во внимание.
Отметим, что нам удалось получить те же самые результаты, но в некоторых случаях полного совпадения нет.
Упражнение 2.
(а) В файле с данными WAUGH директории CHAP4.DAT приведены результаты наблюдений по четырем переменным. При помощи статистических программ вычислите простые коэффициенты корреляции для каждой пары переменных. Вы должны получить следующую корреляционную матрицу:
Какие из переменных обладают наибольшей корреляцией? Какие переменные практически ортогональны?
Наибольшая корреляция между переменными PRICE и GREEN (0.745492) и переменными NOSTALKS и DISPERSE (0.349749).
Если между группами переменных корреляция близка нулю, то эти группы переменных практически ортогональны друг другу. Ближе всего к нулю близок парный коэффициент корреляции NOSTALKS и GREEN. Следовательно, эти переменные практически ортогональны.
(b) Постройте три парные регрессии PRICE по GREEN, по NOSTALKS и DISPERSE. Возьмите для каждой из этих регрессий и вычислите его корень квадратный. Теперь сравните полученные значения с соответствующими коэффициентами корреляции в первом ряду таблицы. Почему они совпадают (за исключением знака)? Предположим, вы ошиблись и случайно построили обратные регрессии: GREEN, NOSTALKS и DISPERSE по PRICE. Какие значения вы бы получили? Почему они те же, что и для обычной регрессии?
Сравнивая парных регрессий с соответствующими коэффициентами корреляции, приходим к выводу, что все коэффициенты совпадают (за исключением знака). Для PRICE от GREEN ; для PRICE от NOSTALKS ; для PRICE от DISPERSE .
Даже если мы построим обратные регрессии – получим те же самые значения коэффициентов детерминации и они те же, что и для обычной регрессии.
Тесноту (силу) связи изучаемых показателей оценивают с помощью коэффициента корреляции , который принимает значения от -1 до +1.
Для оценки качества модели используют коэффициент детерминации. Долю дисперсии, которая обусловлена регрессией, в общей дисперсии показателя характеризует коэффициент детерминации .
Коэффициент детерминации, как и коэффициент корреляции, принимает значения от -1 до +1. Чем ближе его значение коэффициента по модулю к 1, тем теснее связь результативного признака Y с исследуемыми факторами X.
Например, если получают коэффициент детерминации = 0,9, значит уравнением регрессии объясняется 90% дисперсии результативного признака, а на долю прочих факторов приходится 10% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детерминации служит важным критерием оценки качества линейных и нелинейных моделей. Чем значительнее доля объясненной вариации, тем меньше роль прочих факторов, и значит, модель регрессии хорошо аппроксимирует исходные данные и такой регрессионной моделью можно воспользоваться для прогноза значений результативного показателя.
Исходя из того как вычисляются коэффициент корреляции и коэффициент детерминации, приходим к пониманию, почему наши данные совпадают.
(с) Заметим, что значение для парной регрессии переменной PRICE по GREEN было вычислено в пункте (b). Что, по-вашему, произойдет со значением , если вы добавите в качестве регрессора (объясняющей переменной) переменную NOSTALKS, т.е. представьте себе множественную регрессию PRICE по свободному члену, GREEN и NOSTALKS? Почему? При данной корреляции между GREEN и NOSTALKS, приведенной в таблице, считаете ли вы, что значение станет большим или меньшим? Постройте эту регрессию и проверьте, не подвела ли вас интуиция. Прокомментируйте изменение значения при переходе от простой регрессии PRICE по GREEN к множественной.
Если мы добавим переменную NOSTALKS, т.е. представим множественную регрессию, то значение возрастет (с 0.555758 до 0.714240). Значение повышается при данной корреляции, если число независимых переменных возрастает, т.к. происходит влияние другого фактора и вклад дополнительной переменной.
(d) Чему равна величина из уравнения множественной регрессии (по трем объясняющим переменным GREEN, NOSTALKS и DISPERSE); она больше или меньше суммы трех величин из соответствующих парных регрессий PRICE по каждой из этих переменных?