PayPal大数据:大数据复杂风控模型在PayPal Risk的应用

随着第三方支付的迅猛发展,PayPal的风险控制也面临着日新月异的挑战。PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型和灵活的规则检测欺诈交易和欺诈用户。我们利用自主研发的大数据机器学习系统,不仅能满足盗号(Account take over)、盗卡(Stolen financial)等传统欺诈用例的模型自动化构建,亦能服务于新兴的同谋(Collusion)、洗钱(Money laundry)、信用(Credit)等等用例。同时,此系统还可以提供规则的自动学习、自动化的特征类型识别、自动化的特征选择、标准化的模型输出(PMML)等等一站式功能。利用该系统大大缩短PayPal离线风控模型的开发周期,我们已经成功将以前一周的工作周期减少为一天的时间。

 

听众受益:
  • PayPal风险控制业务背景
  • 如何基于Hadoop构建端到端的机器学习系统
  • 智能化、自动化的特征统计、特征类型识别和特征选择

作者介绍 张彭善:2008年硕士毕业于上海交通大学,从2010年起开始关注Hadoop的发展,2012年初加入PayPal Risk Data Science。刚加入PayPal主要使用Hadoop计算各种风险控制模型的变量;2013年初开始研发基于Hadoop的机器学习框架,以满足PayPal日益增长的风控大数据的需要。在这个机器学习框架中,本人主要负责如何使用Hadoop实现分布式的神经网络、逻辑回归等算法。经过不懈的努力,不仅完整实现了这个机器学习的框架,而且实现了一套基于Hadoop(包括MapReduce和YARN)的内存迭代式计算框架用以支持分布式的神经网络和逻辑回归等算法。今年四月份这两个项目分别以Shifu和Guagua命名对外开源。目前本人除了负责Guagua的维护外,还负责Guagua在Hadoop YARN的支持上的改进以及Guagua对大模型、分布式模型的支持。


Large-Scale Machine Learning at PayPal Risk

 


TO DECLINE, OR NOT DECLINE?

 

7:15pm: Card holder lives in US – His wife paid a bill online using their home laptop
4:16am CEST: Card holder’s son studies in Europe – He bought Angry Birds on iPad instead of studying
12:18pm AEST: Card holder travels to Australia – He just paid for lunch at a POS

 


AGENDA

 

  • PayPal & PayPal Risk
  • Large Scale Machine Learning Solution
  • Feature Engineering & Modeling
  • Future Plan

 

 

 


PayPal: Leading the Digital Payments Revolution

 


PAYPAL RISK

 


TRADITINAL FRAUD TYPES IN PAYPAL

 


“NEW” FRAUD TYPES IN PAYPAL

 

 


TRADE-OFF IN RISK DECISION PLATFORM

 


RISK MODELING ARCHITECTURE

 


RISK MODELING ARCHITECTURE

 


SHIFU: COMBINING FEATURE ENGNEERING AND DATA MODELING

 


SCALABLE FEATURE ENGINEERING

 


LARGE-SCALE MODELING

 

 


A DATA EXAMPLE

 


BASIC STATISTICS

 


MULTIPLE BINNING METHODS

 


DEFAULT BINNING ALGORITHM (SORT)

 


SCALABLE BINNING ALGORITHM(HISTOGRAM)

 


MULTIPLE FEATURE NORMALIZATION

 


CATEGORY FEATURE CONTINUOUS FEATURE

 


SENSITIVITY ANALYSIS FOR VARIABLE SELECTION

 


DISTRIBUTED NEURAL NETWORK TRAINING

 


BAGGING & CROSS VALIDATION & EVALUATION

 

 


FUTURE PLAN

 

  • Better Usability
  • Clear & Pluggable Model Ensemble Module
  • Spark Migration for ‘stats’ and ‘eval’ steps (WIP)
  • Restricted Boltzmann Machine (WIP)
  • Hash Variable Encoding (WIP)

推荐文章

沪公网安备 31010702002009号