基于多模型融合Stacking集成学习保险欺诈预测Learning Insurance Fraud Prediction Based on Multi-Model Fusion Stacking Integration
缪智伟,韦才敏
摘要(Abstract):
本文结合人工智能的前沿理论研究,提出一种基于改进XGBoost与LightGBM模型融合的Stacking集成学习方式的保险欺诈行为预测模型.该模型对保险公司被保人保险欺诈行为的识别具有启示意义,有助于保险公司更好地识别被保人的骗保行为,强化自身风控体系.首先对XGBoost与LightGBM进行Stacking模型融合生成两个新特征,新生成的两个特征和原有的40个特征合并作为第二层Stacking训练模型的输入.其次,在Stacking的第二层中分别选择使用多种分类学习模型,包括Bagging、LightGBM、XGBoost以及传统机器分类模型,包括逻辑回归、高斯贝叶斯、决策树等,各模型的训练和参数均由K折交叉验证和遗传算法优化得到.算例数据来源于阿里云天池挑战赛公开的保险欺诈数据集,对构建多模型融合的Stacking模型预测性能进行了验证与测试.预测结果表明,与传统机器分类模型预测结果相比,基于XGBoost与LightGBM Stacking模型融合集成学习模型对保险欺诈行为具有较高的识别能力.最后,根据计算并可视化出最优分类模型不同特征的重要性结果,得出结论:被保人的职业、发生保险事故的城市、发生保险事故的地区、资本收益、资本亏损是识别保险欺诈行为的重要特征.
关键词(KeyWords): 保险欺诈预测;XGBoost;LightGBM;Stacking模型融合;特征重要性;遗传算法
基金项目(Foundation):
作者(Author): 缪智伟,韦才敏
参考文献(References):
- [1] MOHAMMED H,ALI T,TARIQ E,et al. Customer churn in mobile markets:a comparison of techniques[J]. International Business Research,2015,8(6):224-237.
- [2] SOLTANI Z,NAVIMIPOUR N J. Customer relationship management mechanisms:a systematic review of the state of the art literature and recommendations for future research[J]. Computers in Human Behavior,2016,61:667-688.
- [3] GILLIES C,RIGBY D,REICHHELD F. The story behind successful customer relations management[J].European Business Journal,2002,14(2):73-77.
- [4]于瑞云,薛林,安轩邈,等.基于改进GA-BP的移动通信用户流失预测算法[J].东北大学学报(自然科学版),2019,40(2):180-185.
- [5] DALVI P K,KHANDGE S K,DEOMORE A,et al. Analysis of customer churn prediction in telecom industry using decision trees and logistic regression[C]//2016 Symposium on Colossal Data Analysis and Networking(CDAN). IEEE,2016:1-4.
- [6]王天华.基于改进的GBDT算法的乘客出行预测研究[D].大连:大连理工大学,2016.
- [7]王黎,廖闻剑.基于GBDT的个人信用评估方法[J].电子设计工程,2017(15):5.
- [8]周星,丁立新,万润泽,葛强分类器集成算法研究[J].武汉大学学报(理学版),2015(6):6.
- [9]毕凯,王晓丹,姚旭,等.一种基于Bagging和混淆矩阵的自适应选择性集成[J].电子学报,2014,42(4):711-716.
- [10] BOWLES M. Python机器学习:预测分析核心算法[M].沙嬴,李鹏,译.北京:人民邮电出版社,2017.
- [11] JAMES G,WITTEN D,HASTIE T,et al.统计学习导论:基于R应用[M].王星,译.北京:机械工业出版社,2017.
- [12]戴昕琦.商业银行信用风险评估模型研究:基于线上供应链金融的实证[J].软科学,2018(5):139-144.
- [13] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1):5-32.
- [14]方匡南,吴见彬,朱建平,等.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(增刊):97-107.
- [15]刘波,秦川,鞠平,等.基于XGBoost与Stacking模型融合的短期母线负荷预测[J].电力自动化设备,2020,40(3):147-153.
- [16]李寿山,黄居仁.基于Stacking组合分类方法的中文情感分类研究[J].中文信息学报,2010,24(5):56-61.
- [17]崔树银,汪昕杰.基于最大信息系数和多目标Stacking集成学习的综合能源系统多元负荷预测[J].电力自动化设备,2022,42(5):32-39+81.