У вас вопросы?
У нас ответы:) SamZan.net

вилами по воде писано и несет мало смысла и много телодвижений ну кроме что догадок из опыта но мы не спецы

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 1.7.2025

Эконометрика
Практическое занятие №2-03 (26/04/2013, 29/04/2013).

Данные (потреб кредит или просто так кредиты, не на машины и не ипотека) копируем в прогу, удаляем сразу y,z05,z18.

Можно сделать какой-то предварительный анализ данных: построить корреляции, диаграмму рассеивания, построить табуляции, сделать догадки по опыту, но все это «вилами по воде писано» и несет мало смысла и много телодвижений, ну кроме что догадок из опыта, но мы не спецы и нормальных догадок сделать не можем.

Доход например сильно влияет на результат, но логики в этом нет, что указывает на то, что доход будет сильно связан с дугими переменнами (эфффекты второго порядка), собственно что и надо будет дома сделать – найти логику.

Так же вероятновлияет возраст, нужо посмотреть эффекы с доходом (хотя то что доход растет с возрастом – миф)

Количество текущих кредитов, наличие работы

Как потом выясним, пол влияет – дискриминация есть (у нас по крайней мере)

Стаж работы в отрасли и на последнем месте работы – возможно нужно будет оставить только одну

Возможно в некторых придется объединить категории, либо исключить с «настараживающей инфой», это тоже эффекты второго порядка

Деление на должности вообще какое-то странное

Так не будем же гадать, будем работать – «причесывать данные»

Сперва разберемся с некатегориальными.

Начнем с дохода

Гистограмма

Так как большая выборка, то лучше посмотреть на выборочное распределение

Здесь уже смотрим на какие равные по числу лдей группы можем разбить доход

series z02 = (z02_<15000) + (z02_<20000) + (z02_<25000) + (z02_<30000) + (z02_>=3000)

Возраст

Все красиво, но на сколько групп бить?

series z01 = (z01_<25) + (z01_<35) + (z01_<45) + (z01_<55) + 5*(z01_>=55)

Количество кредитов

series z03 = (x03_>0)

есть нет кредитов

Машины – тоже разобьем по принципу есть или нет

Теперь надо перевести категориальные в фиктивные. Путь на каждую переменную отводиться столько же фиктивныых сколько категорий-1 (исключаем по одному базовому эффекту, например все саммые слабые характеристики, относительно такого неудачника будет оценивать всех остальных, либо можно наоборот относительно самого положительного, либо какого-то среднечка, но это сложный). Мы будем выкидывать самые слабые либо малочисленные. В доходе выкидываем 1.

group g01 @expand(z01,@drop(1))

group g02 @expand(z02,@drop(1))

group g03 @expand(z03,@drop(0)) – можно было и не выкидывать

Образование

В образовании база – выкидываем маленькие объединенные значения, то есть будем оценивать вклад высшее+степень+2образования, стреднее, неполное высшее.

group g04 (z04=1)+(z04=4)+(z04=7) (z04=2) (z04=5)

group g06 (z06=2) – место работы

group g07 (z07<3) – квартира

group g08 (z08=1) – пол

Семейне положение

Женат-замужем, холост, сожительствование и база

group g09 @expand(z09,@drop(1),@drop(4),@drop(6))

group g10 (z10=1) – машина

group g11 (z11=1) – есть ли дети?

group g12 (z12=2) – индикатор - точно гос

group g13 (z13=1) – индикатор живет больше5 лет

group g14 (z14=1) – индикатор работает долго в отрасли

group g15 (z15=1) (z15=2) – индикатор сколько работает на последнем месте

16,17 – пока забыли, но если хотим, то можем что-то посмотреть, 17 – посмотреть на корреляцию с семейным положением.

Все все переменные сформировали.

Оцениваем и выкидываем ненужные группы из групп

Dependent Variable: X
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 04/29/13 Time: 17:48
Sample: 1 16485
Included observations: 16485
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives


Variable	Coefficient	Std. Error	z-Statistic	Prob.


C	-1.870134	0.130480	-14.33271	0.0000
Z01=2	0.308498	0.086287	3.575269	0.0003
Z01=3	0.639376	0.083319	7.673850	0.0000
Z01=4	0.503590	0.110758	4.546751	0.0000
Z02=2	-0.134227	0.068850	-1.949565	0.0512
Z02=3	-0.585330	0.072978	-8.020674	0.0000
Z02=4	-0.992464	0.086359	-11.49236	0.0000
Z03=1	-0.009737	0.080101	-0.121559	0.9032
(Z04=1)+(Z04=4)+(Z04=7)	-0.566256	0.057669	-9.819111	0.0000
Z04=5	-0.216634	0.099169	-2.184507	0.0289
Z06=2	1.414460	0.055865	25.31921	0.0000
Z08=1	0.241390	0.056946	4.238950	0.0000
Z09=2	-0.489671	0.080561	-6.078264	0.0000
Z09=3	-0.215855	0.089497	-2.411882	0.0159
Z09=5	-0.270328	0.125634	-2.151711	0.0314
Z10=1	-0.530612	0.063607	-8.342028	0.0000
Z11>0	0.170657	0.062391	2.735299	0.0062
Z12=2	-0.512699	0.087423	-5.864552	0.0000
Z13=1	-0.310082	0.056062	-5.531017	0.0000
Z14=1	-0.443814	0.059540	-7.454102	0.0000
Z15=2	0.239400	0.055424	4.319434	0.0000


McFadden R-squared	0.161383	Mean dependent var	0.118532
S.D. dependent var	0.323247	S.E. of regression	0.298511
Akaike info criterion	0.613044	Sum squared resid	1467.083
Schwarz criterion	0.622866	Log likelihood	-5032.015
Hannan-Quinn criter.	0.616288	Restr. log likelihood	-6000.373
LR statistic	1936.716	Avg. log likelihood	-0.305248
Prob(LR statistic)	0.000000


Obs with Dep=0	14531	Total obs	16485
Obs with Dep=1	1954

Интерпритация: например z06 – факт что работа потверждена увеличивает риск – коэффициент положительный – приближаемся к плохому заемщику, возможно связано с плохой политикой предыдущей – липовые справки и тд, а возможно просто посмотреть эффекты второго порядка

Z09 –семейное положение, 3 и 5 возможно равны: вальд c(14)=c(15)

Wald Test:
Equation: Untitled


Test Statistic	Value	df	Probability


F-statistic	0.220727	(1, 16464)	0.6385
Chi-square	0.220727	1	0.6385



Null Hypothesis Summary:


Normalized Restriction (= 0)	Value	Std. Err.


C(14) - C(15)	0.054473	0.115945


Restrictions are linear in coefficients.

Гипотеза не отвергается, объединаем 3 и 5

Машина – увеличивает благонадежность

Детей надо смотреть с чем-то

Dependent Variable: X
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 04/29/13 Time: 18:00
Sample: 1 16485
Included observations: 16485
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives


Variable	Coefficient	Std. Error	z-Statistic	Prob.


C	-1.875158	0.130056	-14.41810	0.0000
Z01=2	0.310120	0.086215	3.597072	0.0003
Z01=3	0.641869	0.083150	7.719410	0.0000
Z01=4	0.507980	0.110351	4.603319	0.0000
Z02=2	-0.134352	0.068847	-1.951456	0.0510
Z02=3	-0.585950	0.072967	-8.030336	0.0000
Z02=4	-0.992458	0.086351	-11.49325	0.0000
Z03=1	-0.009633	0.080102	-0.120266	0.9043
(Z04=1)+(Z04=4)+(Z04=7)	-0.564642	0.057563	-9.809137	0.0000
Z04=5	-0.215859	0.099147	-2.177156	0.0295
Z06=2	1.414850	0.055858	25.32962	0.0000
Z08=1	0.240701	0.056916	4.229047	0.0000
Z09=2	-0.488699	0.080532	-6.068408	0.0000
(Z09=3)+(Z09=5)	-0.227474	0.086073	-2.642796	0.0082
Z10=1	-0.531341	0.063586	-8.356282	0.0000
Z11>0	0.175184	0.061618	2.843065	0.0045
Z12=2	-0.512138	0.087416	-5.858652	0.0000
Z13=1	-0.308916	0.056005	-5.515835	0.0000
Z14=1	-0.444312	0.059528	-7.463969	0.0000
Z15=2	0.239455	0.055421	4.320655	0.0000


McFadden R-squared	0.161364	Mean dependent var	0.118532
S.D. dependent var	0.323247	S.E. of regression	0.298493
Akaike info criterion	0.612936	Sum squared resid	1467.004
Schwarz criterion	0.622290	Log likelihood	-5032.126
Hannan-Quinn criter.	0.616025	Restr. log likelihood	-6000.373
LR statistic	1936.494	Avg. log likelihood	-0.305255
Prob(LR statistic)	0.000000

Можно еще посмотреть другие варианты моделей и сравнить по информационным критериям

Expectation-Prediction Evaluation for Binary Specification
Equation: EQ01
Date: 04/29/13 Time: 18:04
Success cutoff: C = 0.5


	Estimated Equation
	Dep=0	Dep=1	Total


P(Dep=1)<=C	14451	1813	16264
P(Dep=1)>C	80	141	221
Total	14531	1954	16485

Expectation-Prediction Evaluation for Binary Specification
Equation: EQ01
Date: 04/29/13 Time: 18:07
Success cutoff: C = 0.05


	Estimated Equation
	Dep=0	Dep=1	Total


P(Dep=1)<=C	5868	208	6076
P(Dep=1)>C	8663	1746	10409
Total	14531	1954	16485

- добросовестных считаем плохих, но почти все 1 правильно предсказали

Эффекты второго порядка

group g_01_02 @expand(z01,z02,@drop(1,*),@drop(*,1))

1. Тема 12. Финансовая система и финансовая политика Введение Одним из направлений государственного воз.html
2. Оружие как предмет преступления
3. Роль процентной ставки как фактора обеспечивающего прибыльность банковского бизнеса
4. складами по родам грузов; 2повышенными путями и разгрузочными эстакадами; 3сортировочными платформами; 4уст
5. .Кризис идентичности.
6. Лекция 5 Излучение плоских раскрывов апертурные антенны
7. Механизмы антибиотикорезистентности
8. тематики и кибернетики Кафедра высшей математики и математического моделирования КУРСОВА
9. Южный Протокол от 201 г.
10. тематические модели для описания основных свойств жидкостей и газов

Материалы собраны группой SamZan и находятся в свободном доступе