居理商品房做为亚洲地区最小商品房B2C网络平台,始终致力深入细致积极探索统计数据在不动产商品生产中的应用领域商业价值,提高居理商品房使用者的购房新体验。2018年,居理商品房在业内率先成立了AI大统计数据研究所,从而更加体系化的挖掘统计数据的决策力和想像力,透过大统计数据和AI技术发现和化解销售业务和产品核心难题,为销售业务的高速增长和使用者新体验的持续升级提供动力。
日前,居理商品房大统计数据VP李华师在私底下发表演说。他表示,目前居理商品房已经打造了独特的线上架下生态圈的生态系。
商品房销售业务情景客单价很高,频率较低,对比新闻资金流、广告推荐、快消商品等,是产业互联网中典型演算法不亲善情景。居理商品房构筑了F83E43Se性和可扩展性都较为好的演算法网络平台,能透过一些灵活的配置,实现有关监控、sysfs、数学模型奇偶校验、建模网页和AB Test。演算法网络平台下层支持多种演算法发动机包括机器学习数学模型网络平台(Spark-MLlib,Xgboost)、深度学习网络平台(Tensorflow,Pytorch)和图有关数学模型,透过pipeline的方法整合统计报文和演算法发动机。
以混合型客户辨识演算法为例,李华师事以下方面介绍了居理商品房的演算法结构设计思路。
一、样品优先选择
如何优先选择差值样品?较为简单的做法将“最后与否出现配售犯罪行为”做为差值样品的评估结果依照。
在居理商品房的销售业务情景下,虽然sculpture销售业务转换率低,从线上访问UV到最后房屋认购,比率在万分之一几以内。
为了化解样品浓密难题,透过设置了两个代理目标,将与否出现带看犯罪行为做为差值样品的评估结果依照。带看犯罪行为出现在配售犯罪行为之前,出现配售犯罪行为占带看比率约六分之一,周期性也可从一到两个月减为一周以内。
样品在两个周期性T内,将与否被带看做为差值样品的评估结果依照。另外能后续数学模型训练时,提高具有多次带看犯罪行为或者出现配售犯罪行为的权重。在两个时间周期性T内,可能存在跟单不完全的情况,但该些比率在10%以内,能忽视。虽然差值样品比率差异非常大,在样品量非常大的情况下,这种比率能接受,但在样品量较少的情况下,差值样品比率差异导致数学模型学习困难,因此在训练数学模型前能先对样品进行采样预处理。常见的样品采样方法有欠采样和过采样。欠采样是保持统计数据集正样品数量不变,根据一定比率去随机抽取负样品,过采样是透过已有正样品来构造虚拟正样品,来减小差值样品差异,常见的过采样方法有SMOTE等。但是采样方法会影响统计数据集
二、特征工程
自百度、Feed、广点通等网络平台,多设备、多账号等主要是用于衡量使用者与否出现过作弊犯罪行为。
使用者App犯罪行为类特征是占比最小的一类特征,主要是指使用者在留电话号码前,在App上点击、浏览、搜索等犯罪行为。
使用者粘性类特征是一些抽象统计特征,其中访问深度是指App网页使用者访问最长的路径,广度是指App中使用者使用的功能的数量。
三、数学模型调优
数学模型主要采用的传统数学模型LR、RF、XGBoost、LightGBM,也尝试了使用Deep Learning等,但实际效果不如传统数学模型好。
在当前情景下样品数量少,而且版本更新迭代较快的时候,常遇到统计数据分布不一致的难题。产品迭代了新的版本,但离线数学模型训练用的还是老的统计数据,而线上用的新版统计数据,这种信息不一致将拉低数学模型效果。当前采用的方案是时间窗口滚动的方式来训练数学模型,并尽量剔除一些可能因为版本导致统计数据不一致的特征,努力将影响降至最低。
在无论是深度学习还是传统机器学习,参数调优的方法大同小异,主要是网格搜索(Grid Search)、人工参数调优和分城市阈值调优。网格搜索调优虽然不能一定找到最优解,但是花费时间较短。另外也尝试了一些贝叶斯优化的方法,它和grid search有的区别就是它会根据上一轮做演算法的参数结果去优先选择最有可能产生最优演算法参数方向去优化这个参数,利用贝叶斯优化自动帮忙寻找参数优化方向。贝叶斯寻优容易陷入局部最优,需要多进行几轮贝叶斯优化,手工选出里面的极大值。分城市阈值调优是遇到的另两个更严重的两个情景,虽然居理商品房销售业务分布在全国12个城市,而且每个城市有自己不同的特点,使用者的犯罪行为都不一样,在数学模型分类时,每个城市应采取不同的阈值。在本身整体统计数据量就不多情况,每个城市的统计数据量更少,这种情况下或者将城市信息加入特征,或者每个城市都分别训练两个数学模型。
四、可解释性分析
整个不动产行业的客单价都较为高,每个客户都特别的宝贵。若将好线索误判,没有为客户好好服务将会导致非常大的损失。
对于居理商品房的销售业务人员(客服、咨询师)而言,数学模型预估结果会与他们原有的一些工作模式和习惯矛盾,需要向销售业务人员解释数学模型预估结果。当演算法去服务于销售业务团队的时候,这种可解释性显得尤为重要。
透过xgboost计算得到的特征重要性(feature importance)不一定是完全可解释的,和特征在决策森林中出现的次数有关。但特征在决策森林里面出现的次数越多并不能说明特征越重要。这里采用的是SHAP来进行可解释性分析,SHAP计算的是两个特征加入到数学模型时的边际贡献,考虑了该特征在所有的特征序列的情况下不同的边际贡献。在SHAP图中,纵坐标是特征列表,横坐标是从负数到正数的取值范围,表示对数学模型输出值的影响。留电口、渠道特征是从SHAP方法来看是最为重要的特征。一般来说透过搜索渠道来的使用者,买房的意向较强烈,这个也和基本认知符合。另两个较为显着的特征pv_p_select_city,表示切换城市的动作越多,买房意向越弱。
五、实际效果
从数学模型效果来看,客户配售量提高了十七个百分点,基本达到了演算法预期目标。从配售到带看的目标变化,将周期性从两个月减为了一周,后续希望能找到两个更好的指标来代替带看,进一步缩短数学模型周期性。另外居理商品房还做了很多线下统计数据的累积,如咨询师与客户的电话录音、交通犯罪行为等,透过这些离线统计数据能大概分析出咨询师和客户的犯罪行为。目前不同的城市统计数据累积量不同,等统计数据量积累到一定程度,能为不同的城市设置独立的数学模型。另外数学模型融合(stacking)是后续优化的方向,看能不能做出更有意思的效果。目前的数学模型是基于无线统计数据,PC统计数据相对无线来说,使用者犯罪行为较为少,下一步是跨站整合PC和无线的统计数据。