广告位联系
返回顶部
分享到

R语言逻辑回归深入介绍

R语言 来源:转载 作者:秩名 发布时间:2021-03-18 09:38:48 人浏览
摘要

逻辑回归 ###############逻辑回归 setwd(/Users/yaozhilin/Downloads/R_edu/data) accepts-read.csv(accepts.csv) names(accepts) [1] application_id account_number bad_ind vehicle_year vehicle_make [6] bankruptcy_ind tot_derog tot_tr age_oldest_tr

逻辑回归

> ###############逻辑回归
> setwd("/Users/yaozhilin/Downloads/R_edu/data")
> accepts<-read.csv("accepts.csv")
> names(accepts)
 [1] "application_id" "account_number" "bad_ind"    "vehicle_year"  "vehicle_make" 
 [6] "bankruptcy_ind" "tot_derog"   "tot_tr"     "age_oldest_tr" "tot_open_tr"  
[11] "tot_rev_tr"   "tot_rev_debt"  "tot_rev_line"  "rev_util"    "fico_score"  
[16] "purch_price"  "msrp"      "down_pyt"    "loan_term"   "loan_amt"   
[21] "ltv"      "tot_income"   "veh_mileage"  "used_ind"   
> accepts<-accepts[complete.cases(accepts),]
> select<-sample(1:nrow(accepts),length(accepts$application_id)*0.7)
> train<-accepts[select,]###70%用于建模
> test<-accepts[-select,]###30%用于检测
> attach(train)
> ###用glm(y~x,family=binomial(link="logit"))
> gl<-glm(bad_ind~fico_score,family=binomial(link = "logit"))
> summary(gl)

Call:
glm(formula = bad_ind ~ fico_score, family = binomial(link = "logit"))

Deviance Residuals: 
  Min    1Q  Median    3Q   Max 
-2.0794 -0.6790 -0.4937 -0.3073  2.6028 

Coefficients:
       Estimate Std. Error z value Pr(>|z|)  
(Intercept) 9.049667  0.629120  14.38  <2e-16 ***
fico_score -0.015407  0.000938 -16.43  <2e-16 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

(Dispersion parameter for binomial family taken to be 1)

  Null deviance: 2989.2 on 3046 degrees of freedom
Residual deviance: 2665.9 on 3045 degrees of freedom
AIC: 2669.9

Number of Fisher Scoring iterations: 5

多元逻辑回归

> ###多元逻辑回归
> gls<-glm(bad_ind~fico_score+bankruptcy_ind+age_oldest_tr+
+      tot_derog+rev_util+veh_mileage,family = binomial(link = "logit"))
> summary(gls)

Call:
glm(formula = bad_ind ~ fico_score + bankruptcy_ind + age_oldest_tr + 
  tot_derog + rev_util + veh_mileage, family = binomial(link = "logit"))

Deviance Residuals: 
  Min    1Q  Median    3Q   Max 
-2.2646 -0.6743 -0.4647 -0.2630  2.8177 

Coefficients:
         Estimate Std. Error z value Pr(>|z|)  
(Intercept)   8.205e+00 7.433e-01 11.039 < 2e-16 ***
fico_score   -1.338e-02 1.092e-03 -12.260 < 2e-16 ***
bankruptcy_indY -3.771e-01 1.855e-01 -2.033  0.0421 * 
age_oldest_tr  -4.458e-03 6.375e-04 -6.994 2.68e-12 ***
tot_derog    3.012e-02 1.552e-02  1.941  0.0523 . 
rev_util     3.763e-04 5.252e-04  0.717  0.4737  
veh_mileage   2.466e-06 1.381e-06  1.786  0.0741 . 
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

(Dispersion parameter for binomial family taken to be 1)

  Null deviance: 2989.2 on 3046 degrees of freedom
Residual deviance: 2601.4 on 3040 degrees of freedom
AIC: 2615.4

Number of Fisher Scoring iterations: 5

> glss<-step(gls,direction = "both")
Start: AIC=2615.35
bad_ind ~ fico_score + bankruptcy_ind + age_oldest_tr + tot_derog + 
  rev_util + veh_mileage

         Df Deviance  AIC
- rev_util    1  2601.9 2613.9
<none>        2601.3 2615.3
- veh_mileage   1  2604.4 2616.4
- tot_derog    1  2605.1 2617.1
- bankruptcy_ind 1  2605.7 2617.7
- age_oldest_tr  1  2655.9 2667.9
- fico_score   1  2763.8 2775.8

Step: AIC=2613.88
bad_ind ~ fico_score + bankruptcy_ind + age_oldest_tr + tot_derog + 
  veh_mileage

         Df Deviance  AIC
<none>        2601.9 2613.9
- veh_mileage   1  2604.9 2614.9
+ rev_util    1  2601.3 2615.3
- tot_derog    1  2605.7 2615.7
- bankruptcy_ind 1  2606.1 2616.1
- age_oldest_tr  1  2656.9 2666.9
- fico_score   1  2773.2 2783.2

> #出来的数据是logit,我们需要转换
> train$pre<-predict(glss,train)
> #出来的数据是logit,我们需要转换
> train$pre<-predict(glss,train)
> summary(train$pre)
  Min. 1st Qu. Median  Mean 3rd Qu.  Max. 
 -4.868 -2.421 -1.671 -1.713 -1.011  2.497 
> train$pre_p<-1/(1+exp(-1*train$pre))
> summary(train$pre_p)
  Min. 1st Qu. Median  Mean 3rd Qu.  Max. 
0.00763 0.08157 0.15823 0.19298 0.26677 0.92395

 #逻辑回归不需要检测扰动项,但需要检测共线性
 > library(car)
 > vif(glss)
 > fico_score bankruptcy_ind age_oldest_tr   tot_derog  veh_mileage 
 >1.271283    1.144846    1.075603    1.423850    1.003616 



版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://www.cnblogs.com/ye20190812/p/13925635.html
相关文章
  • R语言包的升级与降级问题的介绍
    R语言包的升级与降级 这篇博客只是记录一下在使用偏最小二乘判别分析时遇到的一些问题:暑期实习期间曾自行使用R语言caret包进行机器学
  • R语言绘制尺子的实现教程

    R语言绘制尺子的实现教程
    本文使用基本的绘图命令plot、rect、segments、text绘制一把长10厘米的直尺 1、定义基本单位 xcm - 0.07 ycm - 0.07 2、首先使用plot绘制一个空白画布
  • R语言对数据库进行操作的介绍
    数据是关系数据库系统以规范化格式存储。 因此,要进行统计计算,我们将需要非常先进和复杂的Sql查询。 但R语言可以轻松地连接到许多
  • R语言中ifelse、which、%in%的用法
    ifelse、which、%in%是R语言里极其重要的函数,以后会经常在别的程序中看到。 ifelse ifelse是if条件判断语句的简写,它的用法如下: ifelse(tes
  • R语言-使用ifelse进行数据分组

    R语言-使用ifelse进行数据分组
    数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性;
  • R语言-如何将list转换为向量?

    R语言-如何将list转换为向量?
    从excel中直接读取的数据为list,如下转换为向量 as.vector(unlist(x)) 补充:R语言基本运算,向量,矩阵,list,数组 1. 基本运算 1.1 加、减、乘
  • R语言中的因子类型的介绍
    一、Factor函数 #函数factor可以把一个向量编码为一个因子,其一般形式为:#factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE)#其中
  • R语言UTF-8各种问题的解决方案
    R语言在碰到读UTF-8文件,或者处理UTF-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类
  • Rstudio中安装package出现的问题及解决
    Rstudio中安装package问题 一、 install.packages(REmap)无法安装package:错误:无法与服务器建立连接 解决方式:切换下载的镜像 方法一:在Rstudio菜
  • R语言操作X轴日期实例介绍
    R语言操作X轴日期: 需要用到程序包library(lubridate);程序包是在R的安装包C:\R-3.4.4\bin\x64\RGui.exe里根据命令安装的 将日期改为xxxx/xx/01; fir
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计