ESB与服务网格:

ESB通过将行内各个系统封装为渠道和服务方,而其中系统之间的数据交换和调用封装为服务,
ESB就是负责服务注册、交易发现、服务治理。
而在服务网格是将之前需要在ESB中需要开发的交易统一进行下沉,转变为基础设施架构,
通过在控制面的配置信息来控制各个系统的路由信息,进而管理各个系统之间的交易。

ESB 日志优化:

基于原有的旧版本和开发方式不变的情况下,在修改部分架构下将原有的日志由文本输出改为了将日志输出到队列中,
由单独的一个小程序依赖redis和业务逻辑(多步骤)对日志进行整合和优化,最后就变成现有的结构化日志方式。
队列使用的是activemq的topic模式,多生产者写入单一消费者消费。
业务逻辑主要在于在交易进入系统时会获得一个全局ID,这个全局ID跟随交易流转,在每次将日志输出到队列时,
传入提前预设的流程标志、日志内容和该ID。在日志处理模块中从队列中逐个获取生产者输出的日志,放入到redis 的set中。
最后通过redis 内部set 结构的模型,由ID 获取到全部的日志内容和流程标志进行结构优化然后统一输出到不同的日志文件中。

支付:

客户点击支付按钮发起订单支付,用户微信端携带支付信息到达后端服务器,后端根据携带的渠道支付信息进行字符渠道选择,
然后组装对应的订单信息去到三方支付平台同时添加一条30分钟后查询支付结果的定时任务。
三方支付平台返回一个url,后端将url返回到用户微信端,用户微信端调用该url,三方支付平台收到请求,发起对微信支付的请求,
微信支付收到请求调起微信的收银界面,用户输入密码,支付成功后,微信支付将支付结果返回到三方支付平台。
而三方支付平台在收到结果后调用后端上送的订单信息中的结果通知url,
后端服务器随后处理订单的支付结果信息并通知商户微信端该笔订单的支付情况。

对账:

1、下载支付平台昨日的对账文件。
2、处理支付平台的对账文件,并存入到临时支付平台对账表中。
3、筛选昨日关于该渠道的支付订单到渠道支付订单临时表中。
4、以渠道订单支付表为基础坐关联查询,判断对应的订单信息是否一致。
5、将对账信息一致的结果进行存储。
6、收集不一致信息,存入到待处理对账表中,待人工处理。

清分:

1、获取前一天的对账结果信息。生成一份原始清分数据。
2、根据商户的清分数据计算对应的各种费率。
3、根据计算费率进行分润。
4、根据配置的结算信息进行计算。

8583协议

8583协议,是一个国际标准的报文格式,最多由128个域组成,每个域都有统一的规定,分别有定长和变长之分。
上送的报文格式主要包含TPDU、报文头和报文域。其中TPDU长度十个字节,报文头长度十二个字节(主要包含终端状态、软件版本号等信息),报文域主要包含信息类型域、位图域、报文数据域。另外报文最开始的地方还有一个包含所有报文的长度。

策略汇总

  • 进件渠道
  • 线上:信息流广告、APP等。
    线下:地推、网点进件、合作团办、客户自己申请等。

  • 指定策略
  • 策略主要是根据业务中的风险点,寻找有效的特征进行防范。
    将变量进行特征重要性排序,用排名较高/较大的IV的变量用作策略,同时需要按月回溯策略的命中率和逾期率,在尽可能较少对通过率影响的情况下抓住坏用户。
    排名中间/较低IV 的变量可以用于模型,但需要根据模型的特征筛选减少变量之间耦合问题。

  • 贷前策略
  • 贷前策略的主要目的在于防范黑产,预测客户的偿债风险,控制资产质量。常见的包含黑名单、数据验证、GPS信息、用户画像等。
    需要注意的指标:通过率、放款件均额度、客户风险等级分布、风控规则命中率。

  • 贷中策略
  • 关注在贷用户随时间变化风险,及时预警客户质量变化信息,联动调整贷前-贷后资产规模和质量。
    需要注意的指标:客户风险等级分布、账龄分析、滚动率分析、迁移率分析、逾期率分析。

  • 贷后策略
  • 关注逾期客户的回款表现能力,提升资金回收效率,保障业务收益。联动贷后-贷前建立黑名单制度和调整风控策略。
    需要注意的指标:扣款成功率、电话接通率、催回率、委外催回率、法诉催回金额。

  • 策略如何优化
    • 首先确认降低逾期优化(在通过客群中寻找差用户拒绝)还是提高通过率(在拒绝的客群中寻找好用户通过)。
    • 降低逾期优化主要通过离线数据分析,根据逾期指标,比较逾期指标前后的客群差异,分析并找出逾期率发生变化的原因,之后寻找变量组成规则,拒绝逾期率较高的用户。
      提高通过率优化需要决策引擎进行标记,分析通过率变化前后的客群差异,寻找拒绝率较高的规则,放松阈值进行 AB 测试。
    • 根据历史数据回溯数据,分析策略调整对通过率、逾期率的影响。
    • 观察验证结果是否与预期一致。

    具体如何操作?
    • 保持通过率,降低逾期率
    • D类调优,在已经通过的用户中寻找差用户将其剔除。
      Vintage 账龄分析,查看逾期率变化趋势。接着还可以对用户分层查看账龄分析,分析逾期率较大的部分,收紧对应策略即可。

    • 提高通过率,保持逾期率
    • A类调优,在被拒绝的用户中寻找好用户回捞。
      对所有用户进行客群分布,对优质客群进行下探,在中间客群中筛选客户,在获得其还款行为后,按照D类调优策略进行即可。调整中需要观察资产变化情况,以及账龄分析、滚动率分析。

  • 如何数据清洗
    • 缺失值:剔除、填补、不处理。
    • 异常值:需要了解异常值出现原因,在判断是否需要处理。

  • 特征衍生
  • RFM

    • R(Recency):客户最近一次消费时间的间隔。R 值越大表示客户交易发生的日期越近。
    • F(Frequency):客户最近一段时间内交易消费的次数。F 值越大表示客户交易越频繁。
    • M(Monetary):客户最近一段时间内交易消费的金额。M 值越大表示客户价值越高。
    常规统计特征:统计函数最大值、最小值、均值、标准差等。
    时间距离特征:最近一次、最远一次或某个特数时间的节点等。
    行为波动特征:刻画客户某段连续时间内的行为变化特征。
    集中度特征:用以刻画用户行为的偏好程度。

  • 特征筛选
  • 特征筛选常见有WOE值、IV值、PSI相关系数、CSI稳定性、逻辑回归变量显著性、xgb特征重要度等。

    $$ WOE_i = ln({\frac {Bad_i} {Bad_T}} / {\frac {Good_i} {Good_T}}) $$
    $$ IV = sum_i^n * {\frac {Bad_i} {Bad_T}} / {\frac {Good_i} {Good_T}} * WOE_i $$

  • 特征分箱
  • 离散型变量先one-hot 后再分箱;数值型变量有等频分箱、等距分箱、决策树分箱、卡方分箱、手动分箱等。
    分箱完成后计算 WOE 与坏账率是否成单调关系或者是否符合业务意义,若不符合再手动调整。

  • A/B Test
  • A/B 测试其本质是在同一时间内对目标受众进行科学抽样、分组测试,收集用户数据并统计分析其效果,评估出较好的版本。

    需要注意的方面:

    • 确定测试核心目标。
    • 确定测试的样本量。
    • 确定实验周期。
    • A/B需要遵从的原则。

风控经验

1. 风控的底层逻辑在于如何有效衡量用的还款能力、还款意愿和多头借贷。多头借贷在一定程度上能够修正还款能力和还款意愿(借来的钱和自己的钱还是有差别的)。
2. 大数据风控其本质就是大数据如何使用。简单用就是策略规则,复杂用就是模型。
3. 风控之道在于贷前、贷中、贷后的用户生命周期管理。贷前避免欺诈损失,贷中避免资产损失,贷后避免回款损失。
4. 风控之术就是策略和模型,二者不可混为一谈。
5. 业务和风控的关系就好比开店,前期只想快点开业,后期就要考虑增加收入。
6. 用户画像简单来说就是给用户打标签。
7. 风控决策引擎的本质就是如何管理规则集合和如何执行规则集合。
8. 模型的本质就是许多条IV 较小的变量封装成一个大 IV 的变量。
9. 业务促使策略不断迭代,使之非常复杂,永远做好下架任何策略的准备。
10. 策略三板斧:分层、触达、额度定价。
11. 模型是用于解决业务问题,提高业务效率才是重点。
12. 技术与经验同等重要。
13. 不同模型的区分就在于其目标数据的选择。
14. 模型的效果和稳定性同等重要。
15. 做好一切数据的监控。但及时响应有点难。
16. 数据分析三板斧:看趋势、看对比、看细分。
17. 模型的最后一步永远是验证,而不是训练完成。
18. 善用 A/B Test。
19. 风控永远都在亡羊补牢。
20. 不要过分关注风险,多关注你的用户。

模型开发流程

模型开发流程:

  • 1. 获取用户数据、订单数据、服务端聚合数据、风控特征数据,解析合并这些数据,同时预处理删除一些无用数据数据。
  • 2. 以订单ID 为维度,合并解析后的风控特征数据、订单数据、服务端聚合数据和用户数据,同时划分训练数据集和验证数据集。
  • 3. 特征选择,计算特征的iv、覆盖率、0值率、最小值占比、最大值占比,按照一定阈值筛选后排序;同时计算特征之间的关联度,删除关联度大于特定阈值的特征;计算特征的PSI指数并筛选大于阈值的特征。完成筛选后即模型可用的特征列表。
  • 4. 训练模型。从训练数据集中根据模型可用特征列表拿到所有的数据,之后GridSearchCV 寻找模型的最优参数,然后训练模型(计算tpr、fpr、auc指标,以此计算准确率、ks值)、保存模型文件;接着使用验证数据集验证模型的有效性(计算模型分之后检查其值分布、逾期数量、逾期占比、覆盖率、占比)。模型有很多种lgb、toad、xgb等。
  • 5. 合并多种模型的结果,对比检查其效果。

风控画像体系

    风控画像体系主要是从多个角度出发描述客户风险的工具。
    • 营销
    • 用户基础数据:年龄、学历、性别、职业、居住地等;
      多头借贷数据:机构申请数据、机构贷款数据、其他机构逾期数据;
      历史申请数据:申请订单数据、逾期订单数据、额度使用情况、利率变化等。

    • 贷前
    • 用户基础信息:本人基本情况、家庭情况、收入情况、资产情况、贷款情况等。
      用户授权信息:GPS、联系人信息、设备信息等。
      贷前行为数据:埋点数据、浏览数据、消费行为数据等。
      ID关联数据:身份证、银行卡、手机号、IP等。
      历史订单数据:申请订单、放款订单、逾期订单、联系人关联订单、GPS关联订单等。

    • 贷中
    • 贷中行为数据:埋点数据、浏览数据、消费行为数据等。
      贷前授权信息变动:设备信息、GPS、联系人信息等。
      未完结订单数据:额度使用情况、已完结订单信息、账龄等。
      还款提醒:还款提醒数据、逾期账单情况等。

    • 贷后
    • 贷前授权信息变动:设备信息、GPS、联系人信息等。
      贷中行为数据:埋点数据、浏览数据、消费行为数据等。
      贷后行为数据:埋点数据、浏览数据、消费行为数据等。
      贷后情况跟进:贷后提醒数据、催收跟进情况等。