A卡开发流程
迁徙率分析
- 逐月计算客户当前逾期状态
- 计算当前月有状态的客户迁徙到下月的状态
- 要注意当前月客户和下月客户对齐
- 汇总当前月迁徙到下月的逾期状态
- 统计向前/保持/向后的占比,以向后迁徙90%作为坏定义的标准
Vintage分析
- 按授信月/客户,统计不同自然月(MOB)客户的当前逾期天数
- 统计Vintage矩阵和画Vintage图表
- 以曲线平稳时点作为表现期
样本统计
- 统计授信后客户用信分布,确定授信N天内用信客户作为数据集,一般考虑30/40
- 定义客户表现期,所有客户的表现期对齐,如首次用信后180天,注意不要用MOB来对齐表现期
- 数据集划分好坏灰,数据集划分好坏,问清楚需求方是否有特殊要求
- 数据量统计,每个自然月的客户量,每个自然月的样本量,坏样本率
- 对全量授信样本打上标签,标签可打多个mob2-12,标签,金额,余额;用于后续回溯
数据探索性分析
- 对数据进行描述性统计分析
- 查看缺失值、异常值或空值
- 调整异常数据
- 依据客户基础维度信息做客户画像
- 对全量授信样本打上特征,不要只是见面样本,后续用于回溯
数据预处理
- 剔除不参与建模变量,授信号、授信月份、人行征信编号等
- 缺失率过滤,剔除缺失大于90%的变量
- 单一值过滤,剔除单一值大于90%的变量
- 类别型变量过多,剔除类别型取值大于40的变量
数据分箱
- 细分箱,考虑最优分箱和等频等距分箱
- WOE编码,若失败则先做空箱调整
特征筛选
- IV筛选:保留大于等于0.02小于等于0.08的指标
- PSI筛选:逐月计算指标的PSI,要求PSI小于0.1,训练,OOT再算一遍
- 卡方检验,考虑做卡方检验
- 相关性系数,去除相关性系数大于0.7的指标
- VIF筛选,去除VIF大于10的指标
- 业务可解释性筛选
- 分箱调整,单调变量单调性调整,U型变量U型调整
- 短期badrate一致性,长期一致性筛选,特别关注近期样本的一致性时,考虑单独对近期样本的badrate一致性进行调整
- 空箱填充
- 以上步骤重新来一遍
模型开发
- 逐步回归
- LR建模
- 评分卡
模型评估
- 模型KS,AUC评估
- 指标相关性评估
- 指标PSI逐月评估
- 指标KS Vintage评估