Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

вилами по воде писано и несет мало смысла и много телодвижений ну кроме что догадок из опыта но мы не спецы

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 18.5.2024

Эконометрика
Практическое занятие №2-03 (26/04/2013, 29/04/2013).

Данные (потреб кредит или просто так кредиты, не на машины и не ипотека) копируем в прогу, удаляем сразу y,z05,z18.

Можно сделать какой-то предварительный анализ данных: построить корреляции, диаграмму рассеивания, построить табуляции, сделать догадки по опыту, но все это «вилами по воде писано» и несет мало смысла и много телодвижений, ну кроме что догадок из опыта, но мы не спецы и нормальных догадок сделать не можем.

Доход например сильно влияет на результат, но логики в этом нет, что указывает на то, что доход будет сильно связан с дугими переменнами (эфффекты второго порядка), собственно что и надо будет дома сделать – найти логику.

Так же вероятновлияет возраст, нужо посмотреть эффекы с доходом (хотя то что доход растет с возрастом – миф)

Количество текущих кредитов, наличие работы

Как потом выясним, пол влияет – дискриминация есть (у нас по крайней мере)

Стаж работы в отрасли и на последнем месте работы – возможно нужно будет оставить только одну

Возможно в некторых придется объединить категории, либо исключить с «настараживающей инфой», это тоже эффекты второго порядка

Деление на должности вообще какое-то странное

Так не будем же гадать, будем работать – «причесывать данные»

Сперва разберемся с некатегориальными.

Начнем с дохода

Гистограмма

Так как большая выборка, то лучше посмотреть на выборочное распределение

Здесь уже смотрим на какие равные по числу лдей группы можем разбить доход

series z02 = (z02_<15000) + (z02_<20000) + (z02_<25000) + (z02_<30000) + (z02_>=3000)

Возраст

Все красиво, но на сколько групп бить?

series z01 = (z01_<25) + (z01_<35) + (z01_<45) + (z01_<55) + 5*(z01_>=55)

Количество кредитов

series z03 = (x03_>0)

есть нет кредитов

Машины – тоже разобьем по принципу есть или нет

Теперь надо перевести категориальные в фиктивные. Путь на каждую переменную отводиться столько же фиктивныых сколько категорий-1 (исключаем по одному базовому эффекту, например все саммые слабые характеристики, относительно такого неудачника будет оценивать всех остальных, либо можно наоборот относительно самого положительного, либо какого-то среднечка, но это сложный). Мы будем выкидывать самые слабые либо малочисленные. В доходе выкидываем 1.

group g01 @expand(z01,@drop(1))

group g02 @expand(z02,@drop(1))

group g03 @expand(z03,@drop(0)) – можно было и не выкидывать

Образование

В образовании база – выкидываем маленькие объединенные значения, то есть будем оценивать вклад высшее+степень+2образования, стреднее, неполное высшее.

group g04 (z04=1)+(z04=4)+(z04=7) (z04=2) (z04=5)

group g06 (z06=2) – место работы

group g07 (z07<3) – квартира

group g08 (z08=1) – пол

Семейне положение

Женат-замужем, холост, сожительствование и база

group g09 @expand(z09,@drop(1),@drop(4),@drop(6))

group g10 (z10=1) – машина

group g11 (z11=1) – есть ли дети?

group g12 (z12=2) – индикатор - точно гос

group g13 (z13=1) – индикатор живет больше5 лет

group g14 (z14=1) – индикатор работает долго в отрасли

group g15 (z15=1) (z15=2) – индикатор сколько работает  на последнем месте

16,17 – пока забыли, но если хотим, то можем что-то посмотреть, 17 – посмотреть на корреляцию с семейным положением.

Все все переменные сформировали.

Оцениваем и выкидываем ненужные группы из групп

Dependent Variable: X

Method: ML - Binary Logit (Quadratic hill climbing)

Date: 04/29/13   Time: 17:48

Sample: 1 16485

Included observations: 16485

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

C

-1.870134

0.130480

-14.33271

0.0000

Z01=2

0.308498

0.086287

3.575269

0.0003

Z01=3

0.639376

0.083319

7.673850

0.0000

Z01=4

0.503590

0.110758

4.546751

0.0000

Z02=2

-0.134227

0.068850

-1.949565

0.0512

Z02=3

-0.585330

0.072978

-8.020674

0.0000

Z02=4

-0.992464

0.086359

-11.49236

0.0000

Z03=1

-0.009737

0.080101

-0.121559

0.9032

(Z04=1)+(Z04=4)+(Z04=7)

-0.566256

0.057669

-9.819111

0.0000

Z04=5

-0.216634

0.099169

-2.184507

0.0289

Z06=2

1.414460

0.055865

25.31921

0.0000

Z08=1

0.241390

0.056946

4.238950

0.0000

Z09=2

-0.489671

0.080561

-6.078264

0.0000

Z09=3

-0.215855

0.089497

-2.411882

0.0159

Z09=5

-0.270328

0.125634

-2.151711

0.0314

Z10=1

-0.530612

0.063607

-8.342028

0.0000

Z11>0

0.170657

0.062391

2.735299

0.0062

Z12=2

-0.512699

0.087423

-5.864552

0.0000

Z13=1

-0.310082

0.056062

-5.531017

0.0000

Z14=1

-0.443814

0.059540

-7.454102

0.0000

Z15=2

0.239400

0.055424

4.319434

0.0000

McFadden R-squared

0.161383

    Mean dependent var

0.118532

S.D. dependent var

0.323247

    S.E. of regression

0.298511

Akaike info criterion

0.613044

    Sum squared resid

1467.083

Schwarz criterion

0.622866

    Log likelihood

-5032.015

Hannan-Quinn criter.

0.616288

    Restr. log likelihood

-6000.373

LR statistic

1936.716

    Avg. log likelihood

-0.305248

Prob(LR statistic)

0.000000

Obs with Dep=0

14531

     Total obs

16485

Obs with Dep=1

1954


Интерпритация: например z06 – факт что работа потверждена увеличивает риск – коэффициент положительный – приближаемся к плохому заемщику, возможно связано с плохой политикой предыдущей – липовые справки и тд, а возможно просто посмотреть эффекты второго порядка

Z09 –семейное положение, 3 и 5 возможно равны: вальд c(14)=c(15)

Wald Test:

Equation: Untitled

Test Statistic

Value  

df    

Probability

F-statistic

0.220727

(1, 16464)  

0.6385

Chi-square

0.220727

1  

0.6385

Null Hypothesis Summary:

Normalized Restriction (= 0)

Value  

Std. Err.

C(14) - C(15)

0.054473

0.115945

Restrictions are linear in coefficients.


Гипотеза не отвергается, объединаем 3 и 5

Машина – увеличивает благонадежность

Детей надо смотреть  с чем-то

Dependent Variable: X

Method: ML - Binary Logit (Quadratic hill climbing)

Date: 04/29/13   Time: 18:00

Sample: 1 16485

Included observations: 16485

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

C

-1.875158

0.130056

-14.41810

0.0000

Z01=2

0.310120

0.086215

3.597072

0.0003

Z01=3

0.641869

0.083150

7.719410

0.0000

Z01=4

0.507980

0.110351

4.603319

0.0000

Z02=2

-0.134352

0.068847

-1.951456

0.0510

Z02=3

-0.585950

0.072967

-8.030336

0.0000

Z02=4

-0.992458

0.086351

-11.49325

0.0000

Z03=1

-0.009633

0.080102

-0.120266

0.9043

(Z04=1)+(Z04=4)+(Z04=7)

-0.564642

0.057563

-9.809137

0.0000

Z04=5

-0.215859

0.099147

-2.177156

0.0295

Z06=2

1.414850

0.055858

25.32962

0.0000

Z08=1

0.240701

0.056916

4.229047

0.0000

Z09=2

-0.488699

0.080532

-6.068408

0.0000

(Z09=3)+(Z09=5)

-0.227474

0.086073

-2.642796

0.0082

Z10=1

-0.531341

0.063586

-8.356282

0.0000

Z11>0

0.175184

0.061618

2.843065

0.0045

Z12=2

-0.512138

0.087416

-5.858652

0.0000

Z13=1

-0.308916

0.056005

-5.515835

0.0000

Z14=1

-0.444312

0.059528

-7.463969

0.0000

Z15=2

0.239455

0.055421

4.320655

0.0000

McFadden R-squared

0.161364

    Mean dependent var

0.118532

S.D. dependent var

0.323247

    S.E. of regression

0.298493

Akaike info criterion

0.612936

    Sum squared resid

1467.004

Schwarz criterion

0.622290

    Log likelihood

-5032.126

Hannan-Quinn criter.

0.616025

    Restr. log likelihood

-6000.373

LR statistic

1936.494

    Avg. log likelihood

-0.305255

Prob(LR statistic)

0.000000


Можно еще посмотреть другие варианты моделей и сравнить по информационным критериям

Expectation-Prediction Evaluation for Binary Specification

Equation: EQ01

Date: 04/29/13   Time: 18:04

Success cutoff: C = 0.5

           Estimated Equation

Dep=0

Dep=1

Total

P(Dep=1)<=C

14451

1813

16264

P(Dep=1)>C

80

141

221

Total

14531

1954

16485


Expectation-Prediction Evaluation for Binary Specification

Equation: EQ01

Date: 04/29/13   Time: 18:07

Success cutoff: C = 0.05

           Estimated Equation

Dep=0

Dep=1

Total

P(Dep=1)<=C

5868

208

6076

P(Dep=1)>C

8663

1746

10409

Total

14531

1954

16485

- добросовестных считаем плохих, но почти все 1 правильно предсказали

Эффекты второго порядка

group g_01_02 @expand(z01,z02,@drop(1,*),@drop(*,1))




1. Аудит підприємства
2. равенство и бедность.html
3. Оптимизация затрат бюджетных средств на формирование использование и защиту государственных информаци
4. дешёвыми деньгами является главным критерием профессионализма работников Центрального банка и Министерст
5. Теоретичні основи безпеки життєдіяльності
6. Анализ финансового состояния ООО «Дельта»
7. Вексель и основы вексельного обращения в России
8.  Управління каналами розподілу 11
9. Донесение Высочайше учрежденному Комитету от капитана Муравьева Предполагаемый конституцион
10. Педагокикалы~ к~сіби дайынды~ ж~йесінде ~ылыми шы~армашылы~ты~ орны
11. РЕФЕРАТ Дисертації на здобуття вченого степеня кандидата технічних наук Севастоп
12. А Результат измерения Б Измерение
13. Древние взгляды на время
14. Subjects t school were mthemtics nd English
15. й период B C N O F Ne 3й пер
16. семантически они представляют собой или перифразы от греч.html
17. Апрель дни серые; памятники кладбища просторного уездного еще далеко видны сквозь голые деревья и хо
18. Задание 1 1 Сколько словарей надо издать чтобы можно было непосредственно выполнять переводы с любого из
19. ТЕМА ЗАНЯТИЯ- ОСТРЫЕ И ХРОНИЧЕСКИЕ ЛЕЙКОЗЫ Место проведения- учебная комната палаты Количество часов- 5
20. Защита информации1