信贷分析与公司贷款 pdf(信贷分析范围)
《大数据原理与应用》课程设计报告设计题目: 汽车贷款违约概率预测分析学院 经济与管理学院 班级 人力211学号 3210513119姓名 张泳淇指导教师段 喆2022年11月22日—— 2022年12月13日汽车贷款违约概率预测分析01 背景介绍目前,在经济快速发展的时代,贷款的风险审批是商业银行面临的首要问题。贷款中风险的产生,不仅在贷款审查阶段出现,而且贯穿整个贷款流程中:在实际贷款审批流程中,大多数的审贷过程并非十分严谨和周全,因此不良贷款的概率会日渐飙升,在这样的背景下,建立一个科学有效、有解释力度的模型对贷款客户的信用进行评估与判定,从而将违约的风险降到最低并将利润最大化是刻不容缓的事情。对信用风险的识别与防控是商业银行风险管理研究的重要内容,是金融机构不可回避的核心问题,也是各国政府与金融机构风险管理的焦点。因此,为了更好解决风险管理中的问题,本文涉及的数据包含银行客户的交易数据,而且涉及大部分贷款信息与众多信用卡的数据,通过分析这些数据可以获取与银行服务相关的业务知识,例如,提供增值服务的银行客户经理,希望明确客户有更多的业务需求,而风险管理的业务人员可以及早发现贷款的潜在损失。
从国内第一家汽车金融公司成立到现在已经相继成立了十几家专业的汽车金融公司,同时商业银行也在积极的发展汽车金融业务。相比2004年的沉寂,国内整个汽车金融行业呈现出蓬勃的发展态势。随着国内人民生活水平的提高和超前消费意识的提升,越来越多的消费者会加入到贷款购车的行列。可以预见的是我国汽车金融市场的良好发展前景。但是,相比国外汽车金融的成熟,国内目前的汽车金融市场还很混乱,违约情况并不鲜见。由于国内的信用体制的不完善、收入的非透明化、人口的大流动性特殊情况,加之当前的汽车信贷的制度、环境、个人信用评估和操作上存在很多制约因素,这也就造成了贷后违约风险的增大。因此,研究汽车金融公司如何有效地控制违约风险就具有理论和现实意义【潜力巨大】近年来,随着国民消费水平的提高,购车热潮的掀起,汽车消费贷款成为了继房地产消费贷款之后的又一个市场热点,具有巨大的发展潜力。【贷款违约现象】虽然我国汽车消费贷款发展迅猛,然而由于不少客户信用意识不够、道德观念不强,“骗贷”、“一车多贷”等现象时有发生。汽车贷款逾期不还的状况大大增加了汽车金融公司的坏账发生率,严重的贷款逾期率使得汽车金融公司蒙受很大损失。因此.严格控制货款逾期率、尽量遏制货款违约现象的发生是汽车金融公司的关键任务。
【宏观经济意义深远】作为汽车金融公司的支柱业务,汽车消费贷款是公司资金运转的命脉,也是汽车工业和消费市场高速发展的强劲动力。做好汽车金融服务,对于支持我国汽车产业调整振兴,保增长、扩内需、调结构和促进国民经济长期平稳较快发展具有重要战略意义。【什么是汽车消费贷款】本质上来说,汽车消费贷款就是汽车购买人向金融机构申请贷款用来支付购车款项,并且承诺以分期付款的方式来归还本金和利息的一种消费贷款。02 数据介绍与说明数据概览:此次数据分析主要针对汽车贷的贷款情况,以贷款发放数据推测贷款客户违约概率,然后再对客户数据和违约概率进行逻辑回归。总数据量超过23w,包含25个特征字段,其中训练集16w,测试集4.6w,验证集2.3w03 建模分析由于是为了预测是否违约,选择使用随机森林模型、Logistic回归模型、朴素贝叶斯模型、SVM模型选出最优模型。【Logistic回归模型】Logistic回归模型在两分类问题中具有非常广泛的应用,它能将待分类样本的类别分成两类,是该模型的核心是通过Sigmoid函数将因变量的值转换成概率。但该模型在分类的精准度上有一定欠缺,容易产生过拟合的现象。同时,Logistic回归模型通常用来处理两分类问题,不能很好地处理多分类的情况。
而对贷款违约行为进行预测正是贷款是否逾期的两分类问题,比较适合Logistic回归模型处理。Logistic回归模型ROC曲线【朴素贝叶斯模型】朴素贝叶斯模型假设每个特征对分类变量的影响是独立的,这使得分类的联合条件概率很容易计算。其在信用评估方面得到了广泛的应用。因为在信用评估中,多数变量的属性为标称变量,并且原始数据存在较多的空值,而朴素贝叶斯主要对标称数据进行分析,对空值又不太敏感,因此选择该分类器对贷款违约行为进行预测。朴素贝叶斯模型ROC曲线【随机森林模型】随机森林近年来广泛应用的领域是信用评估,信用评估中样本量较大,原始数据存在较多的空值,并且数据中离散变量占多数。随机森林模型可以很好地处理这样的数据,因此可以选用随机森林算法对贷款违约行为的数据进行拟合预测。随机森林模型虽然对空值不敏感,但在部分样本的特征属性为空值的情况下,仍可以维持分类的准确度。随机森林模型既能够通过随机抽取的方式,抽取不同的特征变量进行分类,又能够处理大批量、多维度的复杂数据模型的泛化能力强,不易造成过拟合问题,而且具有较高的分类准确度。随机森林要求每个决策树差异尽可能的大,从而在最大程度上减少模型的方差。
随机森林模型超参数比较复杂不仅需要每一棵决策树的参数,还需要整个集成模型的参数,经检验发现随机森林在非平衡数据上依旧有着很好的效果。随机森林模型ROC曲线【SVM模型】SVM也适用于有监督的两分类问题。研究表明SVM在分类过程中可以利用少量的样本获得很好的分类效果,因此在贷款违约预测方面有很好的适用性。SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而且是样本空间的维数这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,这不但可以抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“稳健”性。经典的SVM算法只给出了两分类的算法,此次分析主要也是处理两分类问题,因此该算法的特点和所要分析的数据的特点较为符合。SVM模型ROC曲线04 算法比较根据AUC值此次选择预测模型的优先顺序为Logistic(0.8511)、SVM(0.8439)、随机森林(0.8096)、朴素贝叶斯(0.7984)(1)Logistic回归模型适用于特征维度适中、离散变量少的大容量样本,在特征变量选取适当的情况下,能够对两分类问题有较为准确的评分效果,但不能很好地处理多分类的情况。
此次对贷款违约的预测是两分类问题,并且样本容量大,起重要作用的特征数目为15个左右,特征数目较少,因此Logistic回归模型可以很好地处理该问题。(2)SVM算法有两个不足:一是SVM算法对大规模训练样本难以实施,二是用SVM解决多分类问题存在困难,经典的支持向量机局限于两分类的问题。此次对贷款违约的预测是两分类问题符合SVM算法的要求,但此次提供的样本容量大,存储和计算耗费大量的机器内存和运算时间。SVM运行的速度低于其他模型,且SVM的AUC值达到0.8439,与Logistic回归模型的AUC值0.8511比较接近,因此考虑运行效率问题,优选Logistic。(3)随机森林算法通常适用于离散变量、连续变量混合的样本对于特征变量维度较高的样本集具有良好的分类效果,对于数据特征属性变量少、噪声比例大的样本,随机森林算法易出现过拟合的情况,且对样本容量和特征数目的要求较高。起重要作用的特征数目为15个左右,特征数目较少,这将导致随机森林算法出现过拟合的情况,影响最终的预测结果。若提供更多的客户分类级别,例如不违约、逾期和违约等那么这里的贷款违约问题就变成了一个多分类问题,随机森林算法相对于Logistic回归模型算法可能会得到更好的预测结果。
(4)朴素贝叶斯的成功之处在于使得原本不独立的变量近似认为是独立的,大大减少了模型的参数,从而在一定程度上避免了过拟合的现象。变量之间并不是相互独立的,这会对预测的结果产生重大的影响,所以朴素贝叶斯模型在四个模型中的预测结果表现最差。明显Logistic回归模型优于其余三个模型,默认参数也提供了较高的准确率,所以最终选择Logistic回归模型为最优的模型修正前的混淆矩阵修正后的混淆矩阵用混淆矩阵比较分类结果和实际测得值,违约133人,不违约329人,最后对整体模型进行评价与检验,模型预测准确度约为 0.659305 结论违约状况随客户评分增加先恶化再改善, 而非简单的线性负相关。客户信用处于