互联网业务风控

2021-11-25 12:51 黑客安全

1. 社交平台风控

1.1社交平台风控手段

黑产手段:垃圾邮件、虚假关注/转发、水军评论、买卖粉丝、群控点赞。

算法选择:CatchSync算法

CatchSync算法介绍

基于欺诈者行为模式具有同步性和稀有性的特点构建的图异常检测算法。


1.2 内容业务风控

内容业务风控手段

垃圾内容形式:文本、语音、图片以及复合嵌套形式。

模型类型:行为识别模型、文本识别模型、图像分类模型

模型指标:可以使用用户的回复率作为垃圾内容的Y

算法选择:CNN、LSTM、GCN

应用方法:

垃圾文本识别 利用CBOW、SKIPGRAM和GLOVE等词向量作为输入利用Keras建立卷积神经网络,模型训练完毕后将其序列化到磁盘,可以利用python的Tornado框架搭建HTTP服务包装模型的预测输出。

垃圾图片识别 构建残差神经网络


1.4 信息反爬业务风控

互联网平台对流量监控在大多数情况下,宁可放宽监管力度,也不允许有太多的错杀的情况。


算法选择:wide&deep + LSTM + Attention

应用方法:使用IP地址访问的时间序列、类目序列、URL序列以及用户访问的时间间隔,来判断用户访问网站是否正常用户。

注意力机制:为了防止序列时间过长使模型的注意力被分散,并且让模型更多的关注URL等序列的跳转信息,增加了注意力机制

增加序列数据的长度:意识尝试不同的序列长度,二是尝试不同的数据截取方式。

增加更多的序列数据:通过对URL中多级类目进行分类处理,增加了类目之间的转移序列和refer的转移序列等信息。


 1.5反欺诈模型

反欺诈常用数据


A.设备指纹 唯一标识出该设备的设备特征或者独特的设备标识;从技术方法上,可分为:主动式设备指纹和被动式设备指纹。


主动式设备指纹:一般采用JS代码或SDK,在客户端主动地收集与设备相关的信息和特征,包括:


浏览器特征,包括UA、版本、OS、插件的配置、Canvas特征等;

设备的传感器特征,比如麦克风、加速传感器的特征等;

设备OS的特征,比如是否越狱等;

设备的配置,比如网络配置,系统flash的配置等;

主动式设备指纹算法一般将这些信息组合起来,通过特定的hash算法得到一个设备指纹ID值,作为该设备的唯一标识符。


被动式设备指纹:在终端设备与服务器通信的过程中,从数据报文的协议中提取出该终端设备的OS、协议栈和网络状态相关的特征集,并结合机器学习算法来标识和跟踪具体的终端设备。


B.生物探针 采集用户使用手机时的传感器数据和屏幕轨迹数据的技术;优点:• 无需其他硬件支持 • 用户无感知 • 行为习惯不易改变 • 可以进行连续判断 缺点:• 需要一定的算法支持


C.设备行为 APP安装列表;APP行为(包括安装、卸载、打开等);通话记录、短信等


D.WiFi列表 WiFi 名称、接入时间、接入时长等


E.LBS 设备与地理空间位置映射数据;包括IP、基站、WiFi、身份证、手机号及银行卡等多维度的地理位置信息的信息库 用户稳定性判断登录、交易等多环节多重验证


F.运营商 特点:完整、真实;涵盖:• 在网时长 • 通话记录、短信记录 • 网站、APP访问记录 • 位置信息


G.关联数据 前提假设:人是社会关系的总和、人以类聚物以群分;应用:人的社会关系网反映人的特征;目的:信息核验、度量身份和关系风险、社群团伙发现


H.多头 信贷全流程数据;涵盖注册、申请、审批、放款、还款成功、还款失败、逾期等整个信贷周期;场景贴合度高


1.6模型开发难度


大部分情况下没有标签,无法使用有监督学习算法

欺诈定义模糊,即没有明确的界限将欺诈和非欺诈区分开来

噪声点和异常点(欺诈点)易混淆,需要区分

不了解每种诈骗定义,很难区分不同诈骗类型

在有标签的情况下,也很难单纯依靠监督模型,因为欺诈的方式在不断进化,而监督模型只能识别出现过的欺诈行为

表面看是二分类,实际是多分类问题(每种欺诈类型为一类)

3反欺诈常用手段


可视化了解数据,分析异常情况。如相关矩阵、多维尺度变换(MDS)

时间序列分析,查看欺诈行为是否依赖时间变化

无监督学习,如Isolation Forest、各种Density Based的聚类方法(CBLOF)、KNN

不完全依赖监督模型,采用规则+模型的组合策略

分析异常点是否显著不同

GNN图形神经网络

基于关系网络的图算法

关系网络和知识图谱技术,发现团伙欺诈

4基于复杂网络反欺诈


传统反欺诈的困境


只覆盖申请人自身的单点属性

只覆盖了静态信息

动态事件数据的处理很繁琐低效

无法整合碎片化、异构数据

应用案例 A.app特征挖掘:


对APP列表进行拆分,one-hot处理

删除低频APP

app embedding

B.关联特征挖掘:


根据id间关联的类型(both/in/out)对边属性的处理 • 哪些月份发生关联 • 发生关联的月份数量 • 关联次数/权重的mean/std/sum • 关联次数/权重的month on month的difference

一度关联“点”的属性处理 计算一度关联id的各类风险、分类、APP类型属性衍生变量

“点”与“边”交叉特征 将(1)一度关系id的风险、分类、APP类型(2)关联类型进行交叉后统计衍生变量

C.其他特征挖掘


将Node tag与Edge属性交叉后,统计训练集样本中一度关系Node与Edge属性的交叉数据。

采用Network Embedding的方法,找到一种映射函数,该函数将网络中的每个节点转换为低维度的潜在表示。如Deep Walk、Node2Vec

图片


本文章转载自公众号:heikeanquan

首页 - 黑客 相关的更多文章: