居理新房研究院:低频长周期场景下的算法设计


作为中国最大的新家电子商务平台,聚力新居一直在深入探索数据在房地产流通中的应用价值,并提升新居家用户的购买体验。 2018年,Ju Li的新家在行业中建立了AI大数据研究所,以更系统地挖掘数据的决策权和洞察力,通过大数据发现和解决业务和产品的核心问题。人工智能技术,以及高速的业务。不断升级的增长和用户体验提供了动力。

几天前,大力新房副总裁张立石在公开演讲。他说,目前的新家创造了一个独特的在线和离线闭环生态系统。

新房子的商业场景具有非常高的单价和非常低的频率。与新闻信息流,广告推荐和快速移动商品相比,它是工业互联网中典型的不友好场景。新家建立了一个具有良好可重用性和可扩展性的算法平台。它可以通过一些灵活的配置实现相关的监控,任务调度,模型验证,可视化页面和AB测试。该算法平台支持多种算法引擎,包括机器学习模型平台(Spark-MLlib,Xgboost),深度学习平台(Tensorflow,Pytorch)和图形相关模型,并通过管道方法集成数据流和算法引擎。

以首选客户识别算法为例,张伟士从以下几个方面介绍了新家的算法设计思想。

首先,样本选择

如何选择阳性和阴性样品?更直观的方法是使用“最终发生的订阅行为”作为评估正面和负面样本的基础。

在新住宅的商业场景中,由于住房交易业务的转换率较低,从在线到最终住宅订购的UV访问比例约为万分之几。

为了解决样本稀疏问题,通过设置代理目标,是否使用先行行为的出现作为评估正样本和负样本的基础。在订阅行为发生之前,订阅行为大约占比率的十分之一,并且周期可以从一个月减少到两个月到大约两周。

是否将样本作为评估时段T中的正样本和负样本的基础。此外,可以在随后的模型训练期间增加具有多个观看行为的重量或者发生订阅行为。在时间段T中,可能存在订单不完整的情况,但该部分的比例在10%以内并且可以忽略。由于正样本比例和负样本比例之间存在较大差异,因此在样本量较大的情况下该比率是可以接受的,但在样本量较小的情况下,正样本比率和负样本比率之间的差异使得模型难以学习,因此之前训练模型对样本进行预采样和预处理。常见的样本采样方法是欠采样和过采样。欠采样是为了保持数据集中的正样本数不变。随机样本按一定比例随机选择。过采样是通过现有的阳性样本构建虚拟阳性样本,以减少正样本和阴性样本之间的差异。常见的过采样方法是SMOTE。等待。但是,采样方法会影响数据集中正负样本的分布。在诸如概率值分类的业务场景中,有必要校准模型输出的概率。

二,特色工程

在特征工程中,有三种主要类型的要素类型:信息源类,用户App行为类和用户粘性类。

信息渠道的来源是指用户来自百度,Feed,广东通等平台,多设备,多账户等主要用于衡量用户是否有欺骗行为。

用户App行为类功能是最主要的功能,主要是指在用户离开电话号码之前在应用上点击,浏览,搜索等行为。

用户粘性类功能是一些抽象统计功能,其中访问深度是指App页面用户访问的最长路径,宽度是指用户在App中使用的功能数量。

三,模型调整

传统模型LR,RF,XGBoost和LightGBM(主要用于模型)也尝试使用深度学习,但实际效果不如传统模型。

当当前场景中的样本数量较少且版本更新较快时,数据分布通常不一致。该产品迭代一个新版本,但离线模型培训仍然是旧数据,而新版本的数据在线使用,这种信息不一致会降低模型的效果。当前的方法是以时间窗滚动方式训练模型,并尝试消除可能由于版本导致数据不一致的一些特征,并努力将影响降至最低。

在深度学习和传统机器学习中,参数调整的方法类似,主要是网格搜索,手动参数调整和子城市阈值调整。网格搜索调整虽然不一定能找到最佳解决方案,但花费的时间更少。此外,还尝试了一些贝叶斯优化方法。它与网格搜索的区别在于它将根据前一轮算法的参数优化参数,以优化算法的参数。自动优化以找到参数优化的方向。贝叶斯优化很容易陷入局部最优,并且需要几轮贝叶斯优化来手动选择内部的最大值。城市的门槛调整是另一个更严重的情况。由于新的家庭企业分布在全国12个城市,每个城市都有自己的特点,用户的行为也不同。每个城市都应采用不同的门槛。在总数据量不大的情况下,每个城市的数据较少。在这种情况下,城市信息被添加到特征中,或者每个城市分别训练模型。

4.可解释的分析

整个房地产行业的客户价格相对较高,每个客户都特别有价值。如果一个好的线索被误判,不能很好地为客户服务将导致巨大的损失。

对于新房的业务人员(客户服务,顾问),模型估计结果将与他们的一些原始工作模式和习惯相矛盾,并且需要向业务人员解释模型估计结果。当算法为业务团队服务时,这种可解释性尤为重要。

xgboost计算的要素重要性不一定完全可解释,并且与决策林中要素的出现次数有关。但是决策林中出现的功能越多,功能就越重要。这里,SHAP用于可解释性分析。 SHAP在将特征添加到模型时计算特征的边际贡献,考虑到在所有特征序列的情况下特征的不同边际贡献。在SHAP图中,纵坐标是特征列表,横坐标是从负到正的值范围,表示对模型输出值的影响。功率保持端口和通道的特性是SHAP方法最重要的特性。一般而言,通过频道搜索的用户具有购买房屋的强烈意图,这与基本知识一致。另一个更突出的特征,pv_p_select_city,意味着城市转换的行动越多,购买房屋的意图就越弱。

V.实际结果

从模型效应的角度来看,客户订阅量增加了17%,基本满足算法的预期目标。从订阅到目标的变化,周期从两个月减少到两周,后续希望找到一个更好的指标而不是看它,进一步缩短模型周期。此外,新家还进行了大量的离线数据积累,如电话录音和顾问和客户的流量行为。通过这些离线数据,可以粗略地分析顾问和客户的行为。目前,不同城市的数据累积量不同,当数据量在一定程度上累积时,可以为不同的城市设置独立的模型。此外,模型堆叠是后续优化的方向,可以看出它是否可以产生更有趣的效果。当前模型基于无线数据。 PC数据的用户友好性相对较低,下一步是跨站点集成PC和无线数据。

——