尊龙凯时官网进入_浅析基于组合分类器的银行客户分类模型研究
概要:客户分类管理,对于银行有效地实行客户关系管理具备最重要意义。由于目前分类准确度不存在问题,如何有效地对客户展开分类预测就出了十分最重要并亟待解决的课题。本文以银行非常丰富的客户基本信息以及交易不道德为对象,创建客户分类预测模型,改良单一或非常简单人组分类器模型,明确提出一种基于SOM聚类和决策树的人组分类器方法,创建了客户分类预测模型并对模型展开优化,并探究该模型的实际应用于。
关键词:客户关系管理;客户分类;SOM;决策树;人组分类器 一、 研究方法阐述 本文使用数据挖掘技术对重庆某银行客户信息展开分析,使用SOM聚类方法对该银行已经常出现过风险的客户展开基于风险程度的聚类,将客户分成中风险客户和高风险客户,而并未出险风险的客户划为较低风险客户。通过决策树分类器方法对三种风险客户创建分类预测模型,得出结论对该银行客户风险分类预测效果较好的分类模型,以便及时有效地的找到较低风险和高风险客户,并对有所不同风险客户采行涉及管理措施,以指导该银行的客户关系管理。 分类器技术是模式识别及机器学习的最重要研究领域。
通过研究找到,某些模式识别问题,一般来说有多个特征可用作密切相关和识别模式,如果特征之间的差异过于大,则无法将它们集中于到单一分类器中展开决策。有效地融合SOM与决策树分类的优势,是本文在技术改良方面研究的侧重点。毕业论文 http://www.lw54.com 1. 数据模型。
数据模型是对客户风险聚类和创建客户风险分类预测的数据挖掘模型的前提和条件。 聚类数据模型主要属性还包括客户代码(ID)、第一、二、三、四季度收益(C1,C2,C3,C4)及一年的收益(all),属性类型皆为interval。 分类数据模型主要属性(及属性类型)为客户ID(Nominal)、性别(Binary)、年龄(Interval),以及年初余额、各季度笔数POS消费、金额POS消费、笔数柜台存款(皆为Interval),和风险客户分组group1、group2、 group3(Binary)等。
2. SOM。SOM网络算法是一种聚类算法,它能根据其自学规则对输出的模式展开自动分类,即在无监督的情况下,对输出模式展开自的组织自学,通过重复地调整相连权重系数,最后使得这些系数体现出有输出样本之间地相互关系,并在竞争层将分类结果回应出来。因此,SOM神经网络在结构上仿真了大脑皮层中神经元是二维空间点阵的结构,并在功能上通过网络中神经元间的相互作用和相互竞争,仿真了大脑信息处理的聚类功能、自的组织和自学功能。
该算法被普遍应用于各种模式识别和分类问题中。其聚类效果评估如下: 簇内部指标的有效性的度量都基于簇汇聚度和簇线性度。而簇的汇聚度一般来说以误差平方和SSE来度量;簇线性度一般来说以总组间变差SSB来度量。适当公式如下: 代笔论文 http://www.lw54.com 其中ci回应簇Ci的质心;c回应总体质心;mi回应簇 Ci中有mi个个体。
3. 决策树。决策树方法是更为常用的分类方法,它的预测效果较好且以树形结构回应,树根的节点处得出对结果预测起更为最重要起到的属性,结果形象直观,便于取得更好的挖出信息以及应用于。C4.5方法是在国际上影响较小的决策树方法。
因此本文使用C4.5决策树方法,对客户创建价值预测分类模型。 决策树C4.5算法使用信息增益亲率(Gain Ratio)作为决策树模型中的属性自由选择的测试条件,可有效地防止传统方法中熵和Gini指标有可能产生大量输入的测试条件的情况,提升模型的性能。
研究中使用后剪枝方法,在该方法中,初始决策树按照最大规模生长,然后展开剪枝的步骤,按照自底而上的方式遮荫几乎快速增长的决策树。当模型无法再行改良时中止剪枝步骤。分类效果评估如表格1右图,表明了混合总分类模型准确和不准确预测的实例数目的误解矩阵。
(1)对整个模型来说正确率和错误率为主要评估指标: 正确率Accuracy=(TP+TN)/(TP+TN+FN+FP) 错误率Error rate=( FN+FP)/(TP+TN+FN+FP) (2)对于更加推崇类别,在误解矩阵中主要有以下几种指标: 确实亲率(True Positive Rate,TPR)或灵敏度(Sensitivity)定义为被模型准确预测的于是以样本的比例,即:TPR=TP/(TP+FN) 代笔论文 http://www.lw54.com 骗负率(False Negative Rate,FNR)定义为被预测为负的于是以样本比例,即:FNR=FN/(TP+FN) 解任亲率(Recall)是一个普遍限于的度量,用作顺利预测一个转换预测其他类更加最重要的应用于。明确公式如下:r= TP/(TP+FN) 以上公式某种程度可以推展到3类以上的模型评估。 二、 案例分析 1. 客户数据。
本文以XX银行重庆分不道德事例,从XX银行重庆支行数据库中随机提取2007年1月至12月重庆地区部分客户的数据。原始数据包括了6 079个客户大约600 000条交易记录。 2. 数据预处理。
将样本数据中的遗缺值以0来填满,并且将同一客户的交易记录汇总,最后每个客户在银行的有所不同活动(如:POS消费、网上消费)的交易记录在一个月中只经常出现一次。 计算出来客户每个季度以及一年的利润,同时将收益属性视作完全相同,将其归一化。
获得聚类分析的数据模型。 将每个季度中的完全相同属性值拆分,构成以季度为单位数据值。同时使用1-1类标号处置方法对原始数据中的三个类别展开类标号处置。
获得分类预测的数据模型。 3. 聚类分析。
(1)研究思路。首先基于聚类数据模型,展开第一次聚类分析。因为本研究主要目的要准确检验银行中的三类客户,即较低价值客户、一般价值客户和低价值客户。
为了在客户分类上尽量少的将部分价值比较低的客户不属于价值比较较低的一类,研究中在第一次聚类中自由选择了四类,以便根据结果合理的展开价值归类。然后在第一次聚类结果中找到,第二、三、四类客户的价值远大于第一类客户,但是在数量上却近多于第一类,综合考虑到下,将第一类客户展开再度聚类分析,借此找到价值比较低一点的一般价值客户,为银行尽可能多的寻找有价值客户。
而某种程度为了在客户分类上尽量少的将部分价值比较低的客户不属于价值比较较低的一类,研究中在第二次聚类中自由选择了三类,以便根据结果合理的展开价值归类。最后通过对两次聚类结果的综合分析,得出结论银行客户的最后类别。思想汇报 http://www.lw54.com/sixianghuibao/ (2)聚类模型结果评估。
本文关键词:尊龙凯时官网进入
本文来源:尊龙凯时官网进入-www.bfxygs.com