Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Эконометрика
Практическое занятие №2-03 (26/04/2013, 29/04/2013).
Данные (потреб кредит или просто так кредиты, не на машины и не ипотека) копируем в прогу, удаляем сразу y,z05,z18.
Можно сделать какой-то предварительный анализ данных: построить корреляции, диаграмму рассеивания, построить табуляции, сделать догадки по опыту, но все это «вилами по воде писано» и несет мало смысла и много телодвижений, ну кроме что догадок из опыта, но мы не спецы и нормальных догадок сделать не можем.
Доход например сильно влияет на результат, но логики в этом нет, что указывает на то, что доход будет сильно связан с дугими переменнами (эфффекты второго порядка), собственно что и надо будет дома сделать найти логику.
Так же вероятновлияет возраст, нужо посмотреть эффекы с доходом (хотя то что доход растет с возрастом миф)
Количество текущих кредитов, наличие работы
Как потом выясним, пол влияет дискриминация есть (у нас по крайней мере)
Стаж работы в отрасли и на последнем месте работы возможно нужно будет оставить только одну
Возможно в некторых придется объединить категории, либо исключить с «настараживающей инфой», это тоже эффекты второго порядка
Деление на должности вообще какое-то странное
Так не будем же гадать, будем работать «причесывать данные»
Сперва разберемся с некатегориальными.
Начнем с дохода
Гистограмма
Так как большая выборка, то лучше посмотреть на выборочное распределение
Здесь уже смотрим на какие равные по числу лдей группы можем разбить доход
series z02 = (z02_<15000) + (z02_<20000) + (z02_<25000) + (z02_<30000) + (z02_>=3000)
Возраст
Все красиво, но на сколько групп бить?
series z01 = (z01_<25) + (z01_<35) + (z01_<45) + (z01_<55) + 5*(z01_>=55)
Количество кредитов
series z03 = (x03_>0)
есть нет кредитов
Машины тоже разобьем по принципу есть или нет
Теперь надо перевести категориальные в фиктивные. Путь на каждую переменную отводиться столько же фиктивныых сколько категорий-1 (исключаем по одному базовому эффекту, например все саммые слабые характеристики, относительно такого неудачника будет оценивать всех остальных, либо можно наоборот относительно самого положительного, либо какого-то среднечка, но это сложный). Мы будем выкидывать самые слабые либо малочисленные. В доходе выкидываем 1.
group g01 @expand(z01,@drop(1))
group g02 @expand(z02,@drop(1))
group g03 @expand(z03,@drop(0)) можно было и не выкидывать
Образование
В образовании база выкидываем маленькие объединенные значения, то есть будем оценивать вклад высшее+степень+2образования, стреднее, неполное высшее.
group g04 (z04=1)+(z04=4)+(z04=7) (z04=2) (z04=5)
group g06 (z06=2) место работы
group g07 (z07<3) квартира
group g08 (z08=1) пол
Семейне положение
Женат-замужем, холост, сожительствование и база
group g09 @expand(z09,@drop(1),@drop(4),@drop(6))
group g10 (z10=1) машина
group g11 (z11=1) есть ли дети?
group g12 (z12=2) индикатор - точно гос
group g13 (z13=1) индикатор живет больше5 лет
group g14 (z14=1) индикатор работает долго в отрасли
group g15 (z15=1) (z15=2) индикатор сколько работает на последнем месте
16,17 пока забыли, но если хотим, то можем что-то посмотреть, 17 посмотреть на корреляцию с семейным положением.
Все все переменные сформировали.
Оцениваем и выкидываем ненужные группы из групп
Dependent Variable: X |
||||
Method: ML - Binary Logit (Quadratic hill climbing) |
||||
Date: 04/29/13 Time: 17:48 |
||||
Sample: 1 16485 |
||||
Included observations: 16485 |
||||
Convergence achieved after 5 iterations |
||||
Covariance matrix computed using second derivatives |
||||
Variable |
Coefficient |
Std. Error |
z-Statistic |
Prob. |
C |
-1.870134 |
0.130480 |
-14.33271 |
0.0000 |
Z01=2 |
0.308498 |
0.086287 |
3.575269 |
0.0003 |
Z01=3 |
0.639376 |
0.083319 |
7.673850 |
0.0000 |
Z01=4 |
0.503590 |
0.110758 |
4.546751 |
0.0000 |
Z02=2 |
-0.134227 |
0.068850 |
-1.949565 |
0.0512 |
Z02=3 |
-0.585330 |
0.072978 |
-8.020674 |
0.0000 |
Z02=4 |
-0.992464 |
0.086359 |
-11.49236 |
0.0000 |
Z03=1 |
-0.009737 |
0.080101 |
-0.121559 |
0.9032 |
(Z04=1)+(Z04=4)+(Z04=7) |
-0.566256 |
0.057669 |
-9.819111 |
0.0000 |
Z04=5 |
-0.216634 |
0.099169 |
-2.184507 |
0.0289 |
Z06=2 |
1.414460 |
0.055865 |
25.31921 |
0.0000 |
Z08=1 |
0.241390 |
0.056946 |
4.238950 |
0.0000 |
Z09=2 |
-0.489671 |
0.080561 |
-6.078264 |
0.0000 |
Z09=3 |
-0.215855 |
0.089497 |
-2.411882 |
0.0159 |
Z09=5 |
-0.270328 |
0.125634 |
-2.151711 |
0.0314 |
Z10=1 |
-0.530612 |
0.063607 |
-8.342028 |
0.0000 |
Z11>0 |
0.170657 |
0.062391 |
2.735299 |
0.0062 |
Z12=2 |
-0.512699 |
0.087423 |
-5.864552 |
0.0000 |
Z13=1 |
-0.310082 |
0.056062 |
-5.531017 |
0.0000 |
Z14=1 |
-0.443814 |
0.059540 |
-7.454102 |
0.0000 |
Z15=2 |
0.239400 |
0.055424 |
4.319434 |
0.0000 |
McFadden R-squared |
0.161383 |
Mean dependent var |
0.118532 |
|
S.D. dependent var |
0.323247 |
S.E. of regression |
0.298511 |
|
Akaike info criterion |
0.613044 |
Sum squared resid |
1467.083 |
|
Schwarz criterion |
0.622866 |
Log likelihood |
-5032.015 |
|
Hannan-Quinn criter. |
0.616288 |
Restr. log likelihood |
-6000.373 |
|
LR statistic |
1936.716 |
Avg. log likelihood |
-0.305248 |
|
Prob(LR statistic) |
0.000000 |
|||
Obs with Dep=0 |
14531 |
Total obs |
16485 |
|
Obs with Dep=1 |
1954 |
|||
Интерпритация: например z06 факт что работа потверждена увеличивает риск коэффициент положительный приближаемся к плохому заемщику, возможно связано с плохой политикой предыдущей липовые справки и тд, а возможно просто посмотреть эффекты второго порядка
Z09 семейное положение, 3 и 5 возможно равны: вальд c(14)=c(15)
Wald Test: |
|||
Equation: Untitled |
|||
Test Statistic |
Value |
df |
Probability |
F-statistic |
0.220727 |
(1, 16464) |
0.6385 |
Chi-square |
0.220727 |
1 |
0.6385 |
Null Hypothesis Summary: |
|||
Normalized Restriction (= 0) |
Value |
Std. Err. |
|
C(14) - C(15) |
0.054473 |
0.115945 |
|
Restrictions are linear in coefficients. |
Гипотеза не отвергается, объединаем 3 и 5
Машина увеличивает благонадежность
Детей надо смотреть с чем-то
Dependent Variable: X |
||||
Method: ML - Binary Logit (Quadratic hill climbing) |
||||
Date: 04/29/13 Time: 18:00 |
||||
Sample: 1 16485 |
||||
Included observations: 16485 |
||||
Convergence achieved after 5 iterations |
||||
Covariance matrix computed using second derivatives |
||||
Variable |
Coefficient |
Std. Error |
z-Statistic |
Prob. |
C |
-1.875158 |
0.130056 |
-14.41810 |
0.0000 |
Z01=2 |
0.310120 |
0.086215 |
3.597072 |
0.0003 |
Z01=3 |
0.641869 |
0.083150 |
7.719410 |
0.0000 |
Z01=4 |
0.507980 |
0.110351 |
4.603319 |
0.0000 |
Z02=2 |
-0.134352 |
0.068847 |
-1.951456 |
0.0510 |
Z02=3 |
-0.585950 |
0.072967 |
-8.030336 |
0.0000 |
Z02=4 |
-0.992458 |
0.086351 |
-11.49325 |
0.0000 |
Z03=1 |
-0.009633 |
0.080102 |
-0.120266 |
0.9043 |
(Z04=1)+(Z04=4)+(Z04=7) |
-0.564642 |
0.057563 |
-9.809137 |
0.0000 |
Z04=5 |
-0.215859 |
0.099147 |
-2.177156 |
0.0295 |
Z06=2 |
1.414850 |
0.055858 |
25.32962 |
0.0000 |
Z08=1 |
0.240701 |
0.056916 |
4.229047 |
0.0000 |
Z09=2 |
-0.488699 |
0.080532 |
-6.068408 |
0.0000 |
(Z09=3)+(Z09=5) |
-0.227474 |
0.086073 |
-2.642796 |
0.0082 |
Z10=1 |
-0.531341 |
0.063586 |
-8.356282 |
0.0000 |
Z11>0 |
0.175184 |
0.061618 |
2.843065 |
0.0045 |
Z12=2 |
-0.512138 |
0.087416 |
-5.858652 |
0.0000 |
Z13=1 |
-0.308916 |
0.056005 |
-5.515835 |
0.0000 |
Z14=1 |
-0.444312 |
0.059528 |
-7.463969 |
0.0000 |
Z15=2 |
0.239455 |
0.055421 |
4.320655 |
0.0000 |
McFadden R-squared |
0.161364 |
Mean dependent var |
0.118532 |
|
S.D. dependent var |
0.323247 |
S.E. of regression |
0.298493 |
|
Akaike info criterion |
0.612936 |
Sum squared resid |
1467.004 |
|
Schwarz criterion |
0.622290 |
Log likelihood |
-5032.126 |
|
Hannan-Quinn criter. |
0.616025 |
Restr. log likelihood |
-6000.373 |
|
LR statistic |
1936.494 |
Avg. log likelihood |
-0.305255 |
|
Prob(LR statistic) |
0.000000 |
Можно еще посмотреть другие варианты моделей и сравнить по информационным критериям
Expectation-Prediction Evaluation for Binary Specification |
|||
Equation: EQ01 |
|||
Date: 04/29/13 Time: 18:04 |
|||
Success cutoff: C = 0.5 |
|||
Estimated Equation |
|||
Dep=0 |
Dep=1 |
Total |
|
P(Dep=1)<=C |
14451 |
1813 |
16264 |
P(Dep=1)>C |
80 |
141 |
221 |
Total |
14531 |
1954 |
16485 |
Expectation-Prediction Evaluation for Binary Specification |
|||
Equation: EQ01 |
|||
Date: 04/29/13 Time: 18:07 |
|||
Success cutoff: C = 0.05 |
|||
Estimated Equation |
|||
Dep=0 |
Dep=1 |
Total |
|
P(Dep=1)<=C |
5868 |
208 |
6076 |
P(Dep=1)>C |
8663 |
1746 |
10409 |
Total |
14531 |
1954 |
16485 |
- добросовестных считаем плохих, но почти все 1 правильно предсказали
Эффекты второго порядка
group g_01_02 @expand(z01,z02,@drop(1,*),@drop(*,1))