У вас вопросы?
У нас ответы:) SamZan.net

вилами по воде писано и несет мало смысла и много телодвижений ну кроме что догадок из опыта но мы не спецы

Работа добавлена на сайт samzan.net: 2016-03-30

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 8.6.2025

Эконометрика
Практическое занятие №2-03 (26/04/2013, 29/04/2013).

Данные (потреб кредит или просто так кредиты, не на машины и не ипотека) копируем в прогу, удаляем сразу y,z05,z18.

Можно сделать какой-то предварительный анализ данных: построить корреляции, диаграмму рассеивания, построить табуляции, сделать догадки по опыту, но все это «вилами по воде писано» и несет мало смысла и много телодвижений, ну кроме что догадок из опыта, но мы не спецы и нормальных догадок сделать не можем.

Доход например сильно влияет на результат, но логики в этом нет, что указывает на то, что доход будет сильно связан с дугими переменнами (эфффекты второго порядка), собственно что и надо будет дома сделать – найти логику.

Так же вероятновлияет возраст, нужо посмотреть эффекы с доходом (хотя то что доход растет с возрастом – миф)

Количество текущих кредитов, наличие работы

Как потом выясним, пол влияет – дискриминация есть (у нас по крайней мере)

Стаж работы в отрасли и на последнем месте работы – возможно нужно будет оставить только одну

Возможно в некторых придется объединить категории, либо исключить с «настараживающей инфой», это тоже эффекты второго порядка

Деление на должности вообще какое-то странное

Так не будем же гадать, будем работать – «причесывать данные»

Сперва разберемся с некатегориальными.

Начнем с дохода

Гистограмма

Так как большая выборка, то лучше посмотреть на выборочное распределение

Здесь уже смотрим на какие равные по числу лдей группы можем разбить доход

series z02 = (z02_<15000) + (z02_<20000) + (z02_<25000) + (z02_<30000) + (z02_>=3000)

Возраст

Все красиво, но на сколько групп бить?

series z01 = (z01_<25) + (z01_<35) + (z01_<45) + (z01_<55) + 5*(z01_>=55)

Количество кредитов

series z03 = (x03_>0)

есть нет кредитов

Машины – тоже разобьем по принципу есть или нет

Теперь надо перевести категориальные в фиктивные. Путь на каждую переменную отводиться столько же фиктивныых сколько категорий-1 (исключаем по одному базовому эффекту, например все саммые слабые характеристики, относительно такого неудачника будет оценивать всех остальных, либо можно наоборот относительно самого положительного, либо какого-то среднечка, но это сложный). Мы будем выкидывать самые слабые либо малочисленные. В доходе выкидываем 1.

group g01 @expand(z01,@drop(1))

group g02 @expand(z02,@drop(1))

group g03 @expand(z03,@drop(0)) – можно было и не выкидывать

Образование

В образовании база – выкидываем маленькие объединенные значения, то есть будем оценивать вклад высшее+степень+2образования, стреднее, неполное высшее.

group g04 (z04=1)+(z04=4)+(z04=7) (z04=2) (z04=5)

group g06 (z06=2) – место работы

group g07 (z07<3) – квартира

group g08 (z08=1) – пол

Семейне положение

Женат-замужем, холост, сожительствование и база

group g09 @expand(z09,@drop(1),@drop(4),@drop(6))

group g10 (z10=1) – машина

group g11 (z11=1) – есть ли дети?

group g12 (z12=2) – индикатор - точно гос

group g13 (z13=1) – индикатор живет больше5 лет

group g14 (z14=1) – индикатор работает долго в отрасли

group g15 (z15=1) (z15=2) – индикатор сколько работает  на последнем месте

16,17 – пока забыли, но если хотим, то можем что-то посмотреть, 17 – посмотреть на корреляцию с семейным положением.

Все все переменные сформировали.

Оцениваем и выкидываем ненужные группы из групп

Dependent Variable: X

Method: ML - Binary Logit (Quadratic hill climbing)

Date: 04/29/13   Time: 17:48

Sample: 1 16485

Included observations: 16485

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

C

-1.870134

0.130480

-14.33271

0.0000

Z01=2

0.308498

0.086287

3.575269

0.0003

Z01=3

0.639376

0.083319

7.673850

0.0000

Z01=4

0.503590

0.110758

4.546751

0.0000

Z02=2

-0.134227

0.068850

-1.949565

0.0512

Z02=3

-0.585330

0.072978

-8.020674

0.0000

Z02=4

-0.992464

0.086359

-11.49236

0.0000

Z03=1

-0.009737

0.080101

-0.121559

0.9032

(Z04=1)+(Z04=4)+(Z04=7)

-0.566256

0.057669

-9.819111

0.0000

Z04=5

-0.216634

0.099169

-2.184507

0.0289

Z06=2

1.414460

0.055865

25.31921

0.0000

Z08=1

0.241390

0.056946

4.238950

0.0000

Z09=2

-0.489671

0.080561

-6.078264

0.0000

Z09=3

-0.215855

0.089497

-2.411882

0.0159

Z09=5

-0.270328

0.125634

-2.151711

0.0314

Z10=1

-0.530612

0.063607

-8.342028

0.0000

Z11>0

0.170657

0.062391

2.735299

0.0062

Z12=2

-0.512699

0.087423

-5.864552

0.0000

Z13=1

-0.310082

0.056062

-5.531017

0.0000

Z14=1

-0.443814

0.059540

-7.454102

0.0000

Z15=2

0.239400

0.055424

4.319434

0.0000

McFadden R-squared

0.161383

    Mean dependent var

0.118532

S.D. dependent var

0.323247

    S.E. of regression

0.298511

Akaike info criterion

0.613044

    Sum squared resid

1467.083

Schwarz criterion

0.622866

    Log likelihood

-5032.015

Hannan-Quinn criter.

0.616288

    Restr. log likelihood

-6000.373

LR statistic

1936.716

    Avg. log likelihood

-0.305248

Prob(LR statistic)

0.000000

Obs with Dep=0

14531

     Total obs

16485

Obs with Dep=1

1954


Интерпритация: например z06 – факт что работа потверждена увеличивает риск – коэффициент положительный – приближаемся к плохому заемщику, возможно связано с плохой политикой предыдущей – липовые справки и тд, а возможно просто посмотреть эффекты второго порядка

Z09 –семейное положение, 3 и 5 возможно равны: вальд c(14)=c(15)

Wald Test:

Equation: Untitled

Test Statistic

Value  

df    

Probability

F-statistic

0.220727

(1, 16464)  

0.6385

Chi-square

0.220727

1  

0.6385

Null Hypothesis Summary:

Normalized Restriction (= 0)

Value  

Std. Err.

C(14) - C(15)

0.054473

0.115945

Restrictions are linear in coefficients.


Гипотеза не отвергается, объединаем 3 и 5

Машина – увеличивает благонадежность

Детей надо смотреть  с чем-то

Dependent Variable: X

Method: ML - Binary Logit (Quadratic hill climbing)

Date: 04/29/13   Time: 18:00

Sample: 1 16485

Included observations: 16485

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives

Variable

Coefficient

Std. Error

z-Statistic

Prob.  

C

-1.875158

0.130056

-14.41810

0.0000

Z01=2

0.310120

0.086215

3.597072

0.0003

Z01=3

0.641869

0.083150

7.719410

0.0000

Z01=4

0.507980

0.110351

4.603319

0.0000

Z02=2

-0.134352

0.068847

-1.951456

0.0510

Z02=3

-0.585950

0.072967

-8.030336

0.0000

Z02=4

-0.992458

0.086351

-11.49325

0.0000

Z03=1

-0.009633

0.080102

-0.120266

0.9043

(Z04=1)+(Z04=4)+(Z04=7)

-0.564642

0.057563

-9.809137

0.0000

Z04=5

-0.215859

0.099147

-2.177156

0.0295

Z06=2

1.414850

0.055858

25.32962

0.0000

Z08=1

0.240701

0.056916

4.229047

0.0000

Z09=2

-0.488699

0.080532

-6.068408

0.0000

(Z09=3)+(Z09=5)

-0.227474

0.086073

-2.642796

0.0082

Z10=1

-0.531341

0.063586

-8.356282

0.0000

Z11>0

0.175184

0.061618

2.843065

0.0045

Z12=2

-0.512138

0.087416

-5.858652

0.0000

Z13=1

-0.308916

0.056005

-5.515835

0.0000

Z14=1

-0.444312

0.059528

-7.463969

0.0000

Z15=2

0.239455

0.055421

4.320655

0.0000

McFadden R-squared

0.161364

    Mean dependent var

0.118532

S.D. dependent var

0.323247

    S.E. of regression

0.298493

Akaike info criterion

0.612936

    Sum squared resid

1467.004

Schwarz criterion

0.622290

    Log likelihood

-5032.126

Hannan-Quinn criter.

0.616025

    Restr. log likelihood

-6000.373

LR statistic

1936.494

    Avg. log likelihood

-0.305255

Prob(LR statistic)

0.000000


Можно еще посмотреть другие варианты моделей и сравнить по информационным критериям

Expectation-Prediction Evaluation for Binary Specification

Equation: EQ01

Date: 04/29/13   Time: 18:04

Success cutoff: C = 0.5

           Estimated Equation

Dep=0

Dep=1

Total

P(Dep=1)<=C

14451

1813

16264

P(Dep=1)>C

80

141

221

Total

14531

1954

16485


Expectation-Prediction Evaluation for Binary Specification

Equation: EQ01

Date: 04/29/13   Time: 18:07

Success cutoff: C = 0.05

           Estimated Equation

Dep=0

Dep=1

Total

P(Dep=1)<=C

5868

208

6076

P(Dep=1)>C

8663

1746

10409

Total

14531

1954

16485

- добросовестных считаем плохих, но почти все 1 правильно предсказали

Эффекты второго порядка

group g_01_02 @expand(z01,z02,@drop(1,*),@drop(*,1))




1. Правовая система общества.html
2. Гражданская процессуальная форма ~ установленный законом оптимальный порядок отправления правосудия по
3. Red nd trnslte the text. Retell the text using the words in bold type
4. Маркетинговые исследования
5. Российский государственный профессиональнопедагогический университет
6. РЕФЕРАТ дисертації на здобуття наукового ступеня кандидата технічних наук
7. Кожа в затылочном отделе толще чем в лобном; покрыта волосами; много сальных желез
8. Орхидея как раз то что вам надо если вы себя относите к таким любителям
9. информация означает сведение разъяснение ознакомление.html
10. во На ед