Простая и множественная регрессии

Простая и множественная регрессии

ЛАБОРАТОРНАЯ РАБОТА 5

Цель работы:научить студентов строить модели прогноза на базе обычный и множественной регрессий.

1 Главные сведения о регрессии

Регрессионный анализ (РА) изучит формы зависимости меж случайными величинами, приобретенными в процессе наблюдений. На моделях РА основаны дисперсионный анализ и планирование опыта.

В РА принято различать парную (ординарную) и множественную регрессию. Парная Простая и множественная регрессии регрессия обрисовывает связь меж случайной величиной Y (откликом) и неслучайной величиной х (регрессором), к примеру, зависимость прибыли предприятия от производительности труда.

Множественная регрессия анализирует связь меж несколькими независящими переменными и зависимой переменной. К примеру, агент по продаже недвижимости мог бы заносить в каждый элемент реестра размер дома (в квадратных Простая и множественная регрессии метрах), число спален, средний доход населения в этом районе в согласовании с данными переписи и личную оценку привлекательности дома. Как эта информация собрана для разных домов, было бы любопытно поглядеть, связаны ли и каким образом эти свойства дома с ценой, по которой он был продан. К примеру, могло бы оказаться, что Простая и множественная регрессии число спальных комнат является наилучшим предсказывающим фактором (предиктором) для цены реализации дома в неком специфичном районе, чем привлекательность дома (личная оценка). Могли бы также обнаружиться и выбросы, т.е. дома, которые могли бы быть проданы дороже, беря во внимание их размещение и свойства.

РА содержит в себе последующие Простая и множественная регрессии главные элементы:

· выбор модели регрессии;

· оценка характеристик избранной модели;

· проверка статистических гипотез о параметрах модели регрессии.

Вид функции регрессии yx = f(x,β) (β -вектор характеристик) выбирается на базе теоретических и проф суждений, из нрава расположения экспериментальных точек на диаграмме рассеяния.

Оценка характеристик функции регрессии проводится способом меньших квадратов (МНК), при использовании Простая и множественная регрессии которого в качестве оценок характеристик β0 , β1, β2, … используются такие числа b0, b1,b2 …, которые минимизируют сумму квадратов отклонений.

Выборочные оценки b0, b1,b2 , вычисленные по ограниченному числу данных, всегда содержат элемент случайности. В связи с этим появляется необходимость проверки значимости выборочных оценок.

2 Работа на компьютере

Выполнение работы делается с Простая и множественная регрессии программным пакетом Statistica; версия 6.1.

2.1 Обычная регрессия

1. Открыть файл данных Poverty. sta через Файл – Открыть. Приведенные данные основаны на сопоставлении результатов переписи 1960 и 1970 гг. для случайной подборки из 30 государств. Наименования государств были введены как наименования строк. Через пункт меню Данные и выбора функции Все спецификации переменных откроем Редактор спецификаций переменных (рис.1)

Рис.1 - Редактор спецификаций Простая и множественная регрессии переменных

Не считая того, укажем наименования всех переменных этого файла:

POP_CHNG - Изменение населения за 1960-1970 гг.

N_EMPLD - Количество людей, занятых в сельском хозяйстве

PT_POOR - Процент семей, живущих ниже уровня бедности.

TAX_RATE - Ставка налога.

PT_PHONE - Процент квартир с телефоном.

PT_RURAL - Процент сельского населения.

AGE Простая и множественная регрессии - Средний возраст.

Часть данных приведена в табл.1.

Таблица 1. Начальные данные

Сначала оценим связь параметра Pt_Poor, т.е. переменной, которая идеальнее всего отражает уровень бедности в стране, с переменной Pop_Chng. Таким макаром, признак Pt_Poor считается зависимой переменной, а параметр Pop_Chng - независящим (переменная-предиктор).

Можно выдвинуть догадку: изменение численности населения Простая и множественная регрессии и процент семей, которые находятся за чертой бедности, связаны меж собой. Кажется разумным ждать, что бедность ведет к оттоку населения, как следует, тут будет отрицательная корреляция меж процентом людей за чертой бедности и конфигурацией численности населения.

2. Из меню Анализ - Углубленные способы анализа избрать Общие линейные модели для отображения Простая и множественная регрессии стартовой панели (рис.2).

Рис.2. Стартовая панель общих линейных моделей

Избрать в качестве типа анализа Обычная регрессия и в качестве способа решения - Резвый. Потом надавить ОК для входа в диалоговое окно обычной регрессии (рис.3).

При нажатии кнопки Переменные в этом окне возникает окно выбора переменных (рис.4), в каком в качестве зависимой переменной следует Простая и множественная регрессии указать признак Pt_Poor, а в качестве независящей - Pop_Chng.

Рис.3. Диалоговое окно обычной регрессии

Дальше - надавить ОК для возврата к диалоговому окну регрессии.

Рис.4. Окно выбора переменных

3. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа (рис.5), где при выделенной функции Итоги необходимо указать кнопку Коэффициенты для Простая и множественная регрессии отображения рассчитанных коэффициентов регрессии меж выделенными переменными.

Рис.5. Итоговое окно регрессионного анализа

4. Коэффициенты регрессии представлены в табл.2.

Таблица 2. Регрессионные коэффициенты

Приобретенное уравнение регрессии меж переменными Pt_Poor и Pop_Chng имеет вид:

Pt_Poor = 26,2 - 0,4 Pop_Chng

Из уравнения следует, что на каждую единицу уменьшения населения приходится примерно 0,4 единицы роста числа семей, живущих Простая и множественная регрессии ниже черты бедности. В таблице также приведены доверительные интервалы для обоих членов уравнения регрессии и стандартизированное значение коэффициента регрессии меж выделенными переменными, равное -0,65. Данная величина также определяет и коэффициент корреляции меж рассматриваемыми признаками.

Если априори подразумевается догадка о связи меж данными переменными, то ее полезно проверить Простая и множественная регрессии на графике соответственной диаграммы рассеяния. Избрать вкладку GLM Результаты - Матрицы, чтоб открыть доступ к опциям отображений матриц (рис.6).

Рис.5 - Окно отображения матриц

Надавить кнопку Корреляций для вывода таблицы с матрицей корреляций.

Таблица 3 Матрица корреляций

Выделить правой кнопкой мыши скрещение Pop_Chng и Pt_Poor, избрать из показавшегося меню Графики начальных данных Простая и множественная регрессии - Диаграмма размаха - Регрессия, 95% доверит. интервал; потом указать вторую переменную Pop_Chng и надавить кнопку OK для построения диаграммы рассеяния (рис.7).

Рис.7 – Диаграмма рассеяния

Диаграмма рассеяния указывает очевидную отрицательную корреляцию (-0,65) меж 2-мя переменными. На ней также показан 95% доверительный интервал для полосы регрессии, т.е., с 95% вероятностью линия регрессии проходит меж 2-мя Простая и множественная регрессии пунктирными кривыми.

2.2 Множественная регрессия

5. Открыть тот же файл данных Poverty. sta через Файл – Открыть. Для этого примера тут анализируются несколько вероятных корреляций меж уровнем бедности Pt_Poor, которую будем считать зависимой переменной, и остальными переменными, являющимися непрерывными предикторами.

6. Из меню Анализ - Углубленные способы анализа избрать Общие линейные модели для отображения Простая и множественная регрессии стартовой панели, как и в случае обычный регрессии.

Избрать в качестве типа анализа Множественная регрессия и в качестве способа решения - Резвый. Потом надавить ОК для входа в диалоговое окно множественной регрессии (рис.8).

Рис.8 - Диалоговое окно множественной регрессии

При нажатии кнопки Переменные в этом окне возникает окно выбора переменных (рис.9), в каком в качестве Простая и множественная регрессии зависимой переменной следует указать признак Pt_Poor, а в качестве независящих - все другие.

Рис.9. Окно выбора переменных для множественной регрессии

(Отметим, что при определении переменных правого столбца сначала необходимо выделить все переменные, а потом при нажатой кнопке Ctrl отметить признак Pt_Poor). Дальше - надавить ОК для возврата к диалоговому окну Простая и множественная регрессии регрессии.

7. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа, где при выделенной функции Итоги необходимо надавить кнопку Коэффициенты для отображения рассчитанных коэффициентов регрессии меж выделенными переменными. Приобретенные результаты приведены в табл.4.

Таблица 4. Регрессионные коэффициенты

Эта таблица указывает регрессионные не стандартизированные коэффициенты В (2-ой столбец табл Простая и множественная регрессии.4) и стандартизованные регрессионные коэффициенты Бета (восьмой столбец). Коэффициенты Бета это коэффициенты, которые получаются при приведении всех переменных к среднему 0 и стандартному отклонению 1. Как следует, величина этих Бета коэффициентов позволяет ассоциировать относительный вклад каждой независящей переменной в зависимую переменную.

При помощи коэффициентов В устанавливается вид уравнения регрессии, которое в этом случае имеет Простая и множественная регрессии вид

Включение в правую часть только этих переменных обосновано тем, что только эти признаки имеют значение вероятности р меньше, чем 0,05 ( 5-ый столбец табл.4). Такое значение вероятности принято при вычислении доверительных интервалов на коэффициенты регрессии

Величина коэффициентов Бета позволяет сопоставить относительный вклад каждой независящей переменной в пророчество зависимой переменной. Как видно Простая и множественная регрессии из таблицы, переменные Pop_Chng, Pt_Rural, (Изменение населения за 1960-1970 гг., процент сельского населения) являются более необходимыми предикторами: владеют статистической значимостью. Регрессионный коэффициент для Pop_Chng отрицательный, что значит: чем меньше повышение населения, тем больше число семей, живущих ниже черты бедности в соответственной стране. Тот же коэффициент для переменной Простая и множественная регрессии Pt_Rural - положительный: чем больше процент сельского населения, тем выше уровень бедности.

8. Для оценки коэффициента множественной детерминации надавить при закладке Итоги кнопку Общая R модели, в итоге чего получаем значение этого коэффициента, приведенного на рис.10.

Рис.10 - Коэффициенты детерминации

Обычно, более принципиальным является скорректированное значение R2, и в этом случае его Простая и множественная регрессии величина, равная 0,72, гласит о достаточной надежности уравнения.

9. В окне результатов при выделенной закладке Остатки надавить кнопку Предсказ. и остатки, в итоге чего получаем табл.5, где приведены значения параметра Pt_Poor, приобретенные по данным наблюдений и расчетным методом по отысканной модели регрессии.

Таблица 5 Значения параметра Pt_Poor

Как видно Простая и множественная регрессии из табл.5, расхождение меж величинами этого параметра малозначительное, что снова подчеркивает адекватность модели. 2-ой столбец этой таблицы взят из начальных данных (см.табл.1). График этих значений показан на рис.11.

Рис.11 - График наблюдаемых и предсказанных значений

10. Множественная регрессия подразумевает, что существует линейная связь меж переменными в уравнении и обычное рассредотачивание остатков. Если Простая и множественная регрессии эти догадки нарушены, то вывод возможно окажется неточным. Обычный вероятностный график остатков укажет, имеются ли суровые нарушения этих догадок либо нет. Надавить кнопку Обычный в группе опций Вероятн. Графики для построения этого графика.

Если наблюдаемые остатки нормально распределены, то все значения должны улечся на прямой полосы (либо близко Простая и множественная регрессии от нее) приведенного графика (рис.12). В неприятном случае точки, изображающие остатки, будут отклоняться от прямой полосы.

Рис.12 - Индикатор нормальности остатков

На приведенном графике все точки лежат очень близко относительно прямой полосы, что подтверждает нормальность рассредотачивания остатков.

3 Задание

1. Открыть файл Cars.sta, состоящий из 22 строк (марок автомашин) и 5 столбцов (признаков, характеризующих в нормированном виде Простая и множественная регрессии эксплуатационные характеристики машин: стоимость, ускорение, время остановки со скорости 80 миль в час, коэффициент сцепления с покрытием, расход горючего).

Выстроить:

· уравнение линейной регрессии меж ценой и расходом горючего (переменные price и mileage);

· уравнение множественной регрессии меж ценой и всеми остальными признаками.

2. Смоделировать матрицу данных из 20 объектов и 3 признаков со Простая и множественная регрессии средними значениями и СКО признаков, распределенных по нормальному закону, соответственно, (1;3), (5;10), (10; 25). Отыскать уравнение множественной регрессии меж признаками: принять 1-ый признак зависимой величиной, другие - независящими.

Вопросы к защите работы:

1. Что изучит регрессионный анализ?

2. Что указывает диаграмма рассеяния?

3. В чем суть способа меньших квадратов?

4. Почему не употребляется способ алгебраического суммирования ошибок?

5. В чем отличие Простая и множественная регрессии обычный регрессии от множественной?

6. Для чего осуществляется проверка статистических гипотез о параметрах модели регрессии?

7. Для чего необходимо инспектировать нормальность рассредотачивания остатков?

8. Что указывает коэффициент детерминации? Назовите его предельные значения.


proshalnij-koster-parad-planet-torzhestvennaya-chast-prazdnichnoj-programmi-posvyashennaya-dnyu-goroda-lyubimij-gorod.html
proshane-s-nachalnikom-tretyago-lagpunkta-11-glava.html
proshane-s-nachalnikom-tretyago-lagpunkta-3-glava.html