编者按:4月14日上午,数据观-北大大数据“控制技术·最前沿”思享会在北京互联网金融创新服务中心成功举行,下期活动主轴为“大数据挖掘与发掘”。中国农业银行子公司销售业务发展发展战略部互联网化信息服务中心副总经理王彦博刊登了主轴为“以客户为服务中心的金融创新机构数据挖掘控制技术应用应用领域”的演说。
王彦博,爱尔兰富勒姆理工学院软件工程建设教授、曼彻斯特理工学院软件工程建设教授后,现任职中国农业银行子公司销售业务发展发展战略部互联网化信息服务中心副总经理,从事数据挖掘科学研究及应用应用领域工作十余年,具有丰富的信息技术智能化分析实战经验,实行“睿智银行”大数据金融创新发展战略。聘用招商银行以前,曾任爱尔兰国家文档发掘研究服务中心研究员,出任美国IGI Global杂志社《科学知识街道社区与社会互联网重大进展》丛书编委、ACM《智能化系统与控制技术》、爱尔兰剑桥理工学院《科学知识工程建设简述》、巴基斯坦DIVA《数据挖掘与新经济控制技术》、德国IBAI“业内数据挖掘”、IEEE“计算机应用应用领域与系统可视化”等国际学术期刊、讨论会学术论文第三十条研究者,并出任IBAI“业内数据挖掘”业内主会场副主席。王彦博教授刊登论著1部、论著段落3篇、科学学术论文40多篇、参与撰写金融创新专精书籍2部,获发明专利1项、市级奖赏1项、国家自然科学奖奖赏5项。
从试题上看,此次撷取所牵涉的控制技术内容是大数据应用领域中的“数据挖掘”;而在应用应用领域微观,他们著眼于“面向全国顾客的金融创新机构”应用应用领域。首先,他们上看数据挖掘在大数据应用领域中的功能定位。
● 大数据应用应用领域基本架构
他们给出一个大数据应用应用领域基本架构,从上至下上看:
1. 不论任何行业或企业,与顾客接触的方式已经从原来的“传统线下销售业务模式”转化为“互联网销售业务模式”,甚至还有“O2o2O线上线下相结合模式”,这产生了不同的销售业务应用应用领域场景;
2. 随后他们需要对顾客市场进行细分,
3. 底层是大数据所提供的基础支撑:一是“销售业务驾驭能力”,或者称为数据与销售业务的对接能力;二是帮助他们更加直观有效的理解数据所带来的销售业务洞察,因此他们需要“信息可视化能力”;三是“多类型数据处理能力”,因为他们可能需要牵涉对非结构性(文档、图像、音频、视频等各种类型)数据的处理和分析,而不是仅仅专注于结构性(库表类)数据;四是“分布式数据计算能力”,比如他们经常提到的Hadoop架构,主要包含分布式存储和并行计算两部分内容,它可以被看作是开展大数据应用应用领域的“加速器”;五是最为关键的“数据挖掘分析能力”,因为即便其他能力均已具备,若缺少有效的数据挖掘模型和算法,就好比“空有体表(销售业务、可视化)和骨架(多类型数据、分布式并行计算)而缺失灵魂(数据挖掘)”,所以他们说:数据挖掘是大数据应用应用领域的核心驱动力。
● 金融创新机构大数据金融创新四层级架构体系
更进一步,结合金融创新行业应用应用领域实践,尤其是面向全国金融创新机构大数据应用应用领域,他们提出了四层级架构体系,从下至上上看:
1. 所谓“巧妇难为无米之炊”,既然要做大数据金融创新,肯定得先有大数据以及用以承载大数据的平台,他们称之为“数据基础层”,包括IT基础设施、数据采集、数据存储、数据管控与治理、数据标准化、数据加工处理等内容;
2. 往上一层是“数据模型层”,反映了科学知识探索所通用的四大方法论(逻辑证明、假设检验、仿真模拟、数据挖掘),以及在此基础上数据科学的主要控制技术展现(固定报表、即席查询、灵活图表、数理统计、分析预测、人工智能化、虚拟现实);
3. 再往上一层是“销售业务模型层”,在金融创新机构应用应用领域中,主要会运用经济、金融创新、市场、管理四大理论体系,用以支撑银行运营中的顾客管理、产品管理、渠道管理、营销管理、风险管理、绩效管理、人力资源管理、财务成本管理等方面;
4. 最顶端“销售业务应用应用领域层”是按照市场进行划分的子公司银行、零售银行、金融创新市场三大销售业务板块,以及与顾客直接进行接触的分支行营业网点、事业部一线团队、电子银行与直销银行。
当这四个层级被完全打通之后,即可实现真正意义上的金融创新机构大数据金融创新。在四层级架构体系中,数据挖掘仅为“数据模型层”中的一个重要部分,但有时也可用来泛化理解为整个“数据模型层”,起到了对整体架构体系上下贯穿的重要作用。
既然“数据发掘”在大数据应用领域中如此重要,下面他们就来剖析一下数据挖掘的理论与内涵。
● 数据挖掘的定义
经过长时间的学习与实践,他们认为数据的核心思想就是“面向全国具体销售业务应用应用领域,按照一定的科学知识发现模式,从海量积累数据中发掘萃取出一切存在的、有价值的、但人类无法用肉眼识别的各类隐藏规律、规则、趋势等,并加以有效应用应用领域,从而达到‘总结过去、预测未来’的智能化效果”。尤其从金融创新机构这个角度上看,他们认为不存在独立于销售业务的“纯粹”控制技术,所以一定要面向全国具体的销售业务应用应用领域来做数据挖掘。数据挖掘的主要任务在数据之中发现潜在的规则,从而更好地描述数据和预测数据。
● 数据挖掘标准流程
有人说数据挖掘是一门科学,也有人说它美如艺术,但其实每个数据挖掘项目都是一项工程建设。既然是工程建设就应该按照标准化的作业流程予以实施,这就需要他们按照“销售业务理解”、“数据理解”、“数据准备”、“可视化”、“评估”、“发布”的流程将数据挖掘落地并实现价值。
● 数据发掘的起源
数据挖掘(Data Mining)或称“数据科学知识发现(Knowledge Discovery in Data,KDD)”这一术语早已让人耳熟能详。然而,作为软件工程建设发展中“最年轻”的分支领域,数据挖掘仅有不到30年的发展历史。数据挖掘的概念最早出现在1989年8月于美国底特律召开的第11届国际人工智能化联合会议上。在此次国际会议中,召开了一个题为“数据库科学知识发现(Knowledge Discovery in Databases)”的小型专题研讨会,从此为软件工程建设理论研究与应用应用领域应用领域掀开了一个新的篇章。在之后的2-3年中,很多软件工程建设家陆续刊登多篇学术论文,对“数据库科学知识发现”(即“数据发掘”)概念予以肯定,并投身于数据挖掘科学研究应用领域。
● 数据挖掘的发展历程
在过往的工作和学习中,他们尝试对整个数据挖掘发展历程进行总结归纳,他们认为数据挖掘从最初发展至今经历了五个阶段,分别为:“数据挖掘启蒙阶段”、“科学知识模式发展阶段”、“数据类型发展阶段”、“应用应用领域应用领域发展阶段”、“大数据发展阶段”。
首先,数据挖掘启蒙阶段(1989至1995年):
时间
重要事件
1989
美国底特律召开“数据库科学知识发现”研讨会;
1991
美国AAAI杂志社出版《数据库科学知识发现》;
1992
VLDB国际会议刊登“数据库科学知识发现:一个面向全国字段的方法”;
1993
提出关联规则发掘(购物篮分析)模式;提出C4.5决策树分类算法;
1994
提出Apriori关联规则发掘算法;
1995
数据挖掘应用领域首个国际讨论会“数据科学知识发现”(ACM KDD)诞生。
第二,科学知识模式发展阶段(1996至2000年):
时间
重要事件
1996
提出数量关联规则发掘模式;提出序列模式发掘模式;
1997
提出广义关联规则发掘模式;提出关联分类发掘模式;提出聚类关联规则发掘模式;欧洲PKDD和亚太PAKDD国际讨论会诞生;
1998
提出CBA关联分类发掘算法;提出负关联规则发掘模式;提出加权关联规则发掘模式;
1999
“数据仓库与科学知识发现”(DaWak)国际讨论会诞生;
2000
截至2000年,数据挖掘将多种控制技术方法引入自身研究范畴,如:线性、非线性等回归分析,时间序列分析,K-means等聚类分析,贝叶斯、支持向量机、神经互联网等分类分析……
第三,数据类型发展阶段(2001至2007年):
时间
重要事件
2001
出版《数据挖掘:概念与控制技术》论著;IEEE-ICDM、IBAI-ICDM、MLDM、SIAM-SDM国际讨论会诞生;探索音乐数据挖掘应用领域;
2002
研究图(拓扑图)发掘应用领域;探索图像数据挖掘应用领域;《互联网发掘:分析超文档与半结构化数据》问世;澳洲AusDM国际讨论会成立;
2004
第一部文档发掘论著问世,数据挖掘正式进入文档(非结构化)时代;
2005
“高级数据挖掘与应用应用领域”(ADMA)国际讨论会成立;
2006
《数据挖掘:概念与控制技术》(第二版)论著中加入流数据挖掘、社交互联网发掘、空间数据挖掘、多媒体数据挖掘等内容;
2007
提出“独立于语言”的文档分类控制技术。
第四,应用应用领域应用领域发展阶段(2008至2012年):
时间
重要事件
2008
2008年以前数据挖掘应用主要集中于市场营销、电子商务、生物医药、地理信息等应用领域;
2009
《数据挖掘控制技术:应用应用领域实例》中阐述了顾客关系管理、市场营销、证券应用领域、电信应用领域、产品设计、军事应用领域等数据挖掘应用应用领域;提出股票投资组合应用应用领域(基于分配规律发掘模式);将关联规则(分类)应用应用领域于哺乳类动物造骨干细胞分化研究;提出农业数据挖掘;将分类控制技术用于红酒制造业;提出数据挖掘与基于代理的仿真模拟应用领域相结合;刊登《数据挖掘应用应用领域于授权科学知识社会》,涵盖了诸多社会学应用应用领域;
2010
《科学知识发现实践与数据挖掘新经济应用应用领域》中涵盖DNA微阵列、数字电信系统、商务智能化、移动通讯等应用应用领域应用领域;将聚类用于飞机制造业;提出对火星陨石坑影像做数据挖掘分析;
2011
将分类用于零售银行业顾客流失预测;提出数据挖掘在半导体制造业的应用应用领域;
2012
将关联规则发掘引入酒店业应用应用领域;将数据挖掘引入交通与物流行业;开展能源应用领域数据挖掘……
第五,大数据时代发展阶段(2013至今):
时间
重要事件
2013
互联网金融创新元年,为发掘和分析提供了更广阔的数据源;大数据元年,数据基础微观得到了长足发展(Hadoop、HDFS、MapReduce、Hbase、Hive、Mahout……);在工具微观,R、Python在国内开始广泛流行;探索“深度学习”,并用于人脸识别等人工智能化应用领域;
2014
Hadoop生态圈中Spark控制技术在国内广泛推广;基于GPU并行计算的CUDA编程深入推进;
2015
机器人元年;语音识别、人脸识别、图像识别等人工智能化应用领域得到全面突破;
2016
虚拟现实元年;AlphaGo实现人工智能化应用领域“划时代”突破……
以上,他们以点盖面地对整个数据挖掘应用领域的发展历程做了一个“脉络性”梳理,越是在发展初期阶段,相关内容越容易整理,重要事件也列得比较全,但随着发展进入到应用应用领域应用领域阶段,数据挖掘呈现出“遍地开花”之势,他们梳理的内容可能只是数据挖掘无限广阔应用应用领域中的“冰山一角”。此外,当型进行处理和发掘。
今天他们已经进入到了大数据时代,所谓“无处不数据”,到处都可以采集、处理、分析和发掘数据,实现数据的价值。接下来,他们主要针对数据挖掘中的聚类和分类控制技术进行探讨,其目的不是要阐述数据发掘能为银行做什么,而是要从根本逻辑上探讨数据挖掘是如何实现银行智能化化应用应用领域的。
● 聚类控制技术与示例
聚类控制技术基于“物以类聚、人以群分”的朴素思想,依据数据特征属性对数据样本划分类别,实现分群。尤其当不知道数据样本所带有的类别标签时,可以使用聚类控制技术促使带有相同潜在类别标签的数据样本与其他(标签)的数据样本相分离。聚类是一种“无监督”学习过程。当类别中数据样本的相似性越大,类别间数据样本的差异性越大,聚类的效果就越好。如果一个对象不属于任何类别,那么该对象是基于聚类的离群点。
在聚类控制技术中,K-means算法最为经典,他们选取金融创新机构顾客细分的一个示例,即自动将A-I共9名顾客按照他们与银行的往来期(1、1、2、3、4、9、10、12、12个月)分为两群,实际上银行销售业务微观可能会考虑以“是否开户满6个月”进行划分。他们将K-means算法得到同一结果的计算过程演示如下:
● 分类控制技术与示例
分类控制技术要解决的问题是为一个数据样本归类,即确定一个特定的样本属于哪一类别。为达成将样本准确归类的目标,他们需要构建一个分类模型(或称“分类器”)。分类模型是通过对已知的历史数据进行学习和训练出来的,所以分类是一种“有监督”学习过程。这里用于建立模型的数据称为学习集(或称“训练集”),通常是已经掌握的历史数据。在学习集中每个数据样本都被赋予一个类别标记,不同的类别具有不同的标记,如“违约”和“不违约”。因此,在已知顾客是否违约、是否流失等类标的情况下,通常采用分类控制技术对顾客数据进行发掘和分析,并对未知类标的(新)顾客进行类别预测。
在分类控制技术中,决策树算法最为经典,他们选取金融创新机构顾客信用风险预测的一个示例,即基于14个顾客样本,采集顾客年龄、性别、月收入、行业信息以及类标信息(是否发生违约),构建决策树用以预测新顾客是否存有信用风险。他们将决策树算法的计算过程演示如下:
决策树可以很好地对数据库表进行归纳性描述。未来当面对一名新顾客(年龄不高于30岁、男性、月收入高、从事皮具行业)时,他们则先看其月收入信息,如果“高”则再看其行业信息,如果“皮具”则判断他未来会发生“违约”,即预测其存在信用风险。
● “以顾客为服务中心”的指导原则
金融创新机构大数据金融创新建设应遵循“以顾客为服务中心”的指导原则。实际上,他们以上给出的两个示例均为“以顾客为服务中心”的银行数据挖掘控制技术应用应用领域,即面向全国顾客采集信息,每个数据样本都表示一名顾客,他们对所采集的顾客信息进行分析和发掘,总结归纳相关规律,用以指导银行未来的顾客管理工作。
对于金融创新机构来说,他们总是应该将顾客摆在第一位,要充分了解顾客的需求,这样才能为顾客提供及时有效的产品和服务。接下来,他们需要考虑渠道,即通过什么样的途径与顾客接触。当顾客、产品、渠道结合在一起就形成了营销管理的概念。但是营销对于金融创新机构整体业绩来说只是一个方面,因为金融创新行业还应充分考虑风险,营销创造价值,但同时还要防范风险带来的不确定性和潜在的损失。将营销管理和风险管理结合在一起可以有效评价绩效,将绩效管理分解到每一名员工来进行人力资源管理,同时人力成本也是银行财务与成本管理的一个重要组成部分。而在“平衡计分卡”的逻辑中,财务承接发展战略。
实际上,他们从更细粒度以及逻辑微观阐述了人们较为广泛认知的金融创新机构大数据应用应用领域的四个方面:(1)营销支持(顾客管理、产品管理、渠道管理、营销管理),(2)风险管控(风险管理),(3)精细化管理(绩效管理、人力资源管理),(4)决策支持(财务管理)。
● 高端顾客细分与潜在提升识别
关于“以顾客为服务中心”的金融创新机构数据挖掘控制技术应用应用领域实践,他们介绍如下:
● 面向全国应用应用领域的“混合数据挖掘”
在“高端顾客细分与潜在提升识别”应用应用领域实践过程中,他们通过混合使用聚类控制技术(K-means算法)和分类控制技术(决策树算法),实现对目标顾客的科学细分,并发掘潜在顾客群的销售业务需求,形成银行的商业机会,与顾客实现共赢!
原本在聚类微观他们能够看到每个类别的“类核”,即对每个类别进行群体描述,但类核并不足以帮助他们对每个类别进行丰富的顾客特征识别,因此他们在聚类结果的基础上构建决策树分类,开展规则描述,这使他们有能力按照规则对每个(新)顾客个体进行类别预测,并阐述判别缘由以便后续制定行动策略。
今天,面对日益复杂的应用应用领域场景,仅使用单一的数据挖掘控制技术已经难以满足应用应用领域需要,他们将“混合数据挖掘”(Hybrid Data Mining)定义为:面向全国销售业务应用应用领域场景,将多种数据挖掘模型和算法综合运用,以实现应用应用领域价值。关于“混合数据挖掘”他们早期的一些工作可以参阅以下文献:
1. Y. J. Wang, Q. Xin, F. Coenen: Hybrid Rule Ordering in Classification Association Rule Mining. Trans. MLDM 1(1): 1-15 (2008)
2. Y. J. Wang, F. Coenen, R. Sanderson: A Hybrid Statistical Data Pre-processing Approach for Language-Independent Text Classification. ADMA 2009: 338-349
3. Y. J. Wang, F. Li, F. Coenen, R. Sanderson, Q. Xin:Hybrid DIAAF/RS: Statistical Textual Feature Selection for Language-Independent Text Classification. ICDM 2010: 222-236
4. J. Lei, G. Di, F. Coenen, Y. J. Wang: A Hybrid LR/DT Classification Approach for Customer Attrition Risk Prediction in Retail Banking. Industrial Conference on Data Mining – Poster and Industry Proceedings 2012: 95-100
5. 杨璇:基于数据挖掘的金融创新机构高端顾客细分模型实证研究,硕士学术论文,对外经贸理工学院,北京,2015