Регрессионный анализ (контроль)

По поводу корректности применения регрессионного анализа к столь малой выборке сейчас беспокоиться не будем, поскольку наши цели ограничены только обучением. Переменная № содержит обозначения (labels) случаев (cases). Можете использовать для нее текстовый (string) тип. Переменную v1  будем использовать в качестве зависимой (dependent), а переменные v2, v3, v4, v5 – в качестве независимых (independents). Назовите переменные  в файле Sav  так же.

spss-t40-2

 Вычислите для всех 5-ти переменных парные (bivariate) коэффициенты корреляции.

Выполните линейный регрессионный анализ (включите в модель все независимые переменные и включите диагностику коллинеарности). Убедитесь, что модель статистически значима и объясняет достаточно большой процент дисперсии.

Вы видите, что в данной модели существует проблема мультиколлинеарности (используем граничное значение Condition index = 15). Эту проблему создают 2 переменные. Именно они имеют высокие доли (proportions) дисперсии (variance) в том измерении (dimension), в котором обнаружена проблема мультиколлинеарности. Запомните имена этих двух переменных. Сравните их коэффициенты регрессии с их парными коэффициентами корреляции. Вы видите, что коэффициент регрессии одной из этих переменных явно не соответствует ее парному коэффициенту корреляции. Именно эту переменную мы сейчас оставим в модели. Вторую же переменную, создающую мультиколлинеарность, в анализ включать не будем.

Итак, выполните регрессионный анализ еще раз, но теперь только с тремя независимыми переменными. Включите обозначения случаев и используйте Casewise diagnostics так, чтобы программа вычислила для всех (all) случаев (cases) разницу между наблюдаемым и спрогнозированным (predicted) значениями.

Обратите внимание, что модель по-прежнему высоко значима и объясняет большой процент дисперсии. Просмотрите коэффициенты регрессии и запишите соответствующее уравнение модели. Какая переменная вносит наибольший вклад в дисперсию зависимой переменной? С чем здесь связано «несоответствие» между стандартизованными и нестандартизованными коэффициентами регрессии? Какая переменная не вносит статистически значимого вклада в дисперсию зависимой переменной?

Для какого случая значение зависимой переменной спрогнозировано наиболее точно? Для какого – наименее точно?

Итак, ответьте в текстовом файле на следующие вопросы:  

1) Для модели с 4-мя независимыми переменными: Какие две переменные являлись причиной мультиколлинеарности? Коэффициент регрессии какой из них противоречил соответствующему парному коэффициенту корреляции?

Для модели с 3-мя независимыми переменными:

2) Запишите уравнение построенной вами модели?

3) Какая переменная вносит наибольший вклад в дисперсию зависимой переменной? В чем здесь причина «несоответствия» между стандартизованными и нестандартизованными коэффициентами регрессии? Какая переменная не вносит статистически значимого вклада в дисперсию зависимой переменной?

4) Для какого случая значение зависимой переменной спрогнозировано наиболее точно? Для какого случая – наименее точно?

5) Дополнительный вопрос: Допустим, мы вычислили частный (partial) коэффициент корреляции v1*п1 при контроле над п2 (п1 и п2 - абстрактные переменные) и вычислили парный коэффициент корреляции v1*п1. Какие переменные из вашего варианта надо использовать в качестве п1 и п2, чтобы эта частная корреляционная связь оказалась слабой, а эта парная корреляционная связь – сильной? В чем причина такой разницы между парным и частным коэффициентами корреляции? 

По всем вопросам, связанным с использованием материалов Expect.ru, обращайтесь к Никулину Денису Николаевичу
email