技術(shù)
導(dǎo)讀:本文主要介紹機(jī)器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機(jī)器學(xué)習(xí)模型的流程以及提升模型效果的思路。
本文主要介紹機(jī)器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機(jī)器學(xué)習(xí)模型的流程以及提升模型效果的思路。
圖片來(lái)自“123rf.com.cn”
欺詐是一項(xiàng)超過(guò)十億美元的業(yè)務(wù),而且每年都在增長(zhǎng)。普華永道2018年全球經(jīng)濟(jì)犯罪調(diào)查發(fā)現(xiàn),在被調(diào)查的7,200家公司中,有約一半(49%)經(jīng)歷過(guò)某種形式的欺詐。而相關(guān)第三方數(shù)據(jù)調(diào)查顯示,消費(fèi)金融及互聯(lián)網(wǎng)金融公司的壞賬中接近50%來(lái)自于欺詐。其中,身份冒用類占比例最高,其次是團(tuán)伙欺詐以及惡意違約等。另外,多頭借貸行為也非常猖獗。反欺詐簡(jiǎn)單來(lái)說(shuō),就是為了找出“羊群中的狼”,其必要性和緊迫性不言而喻。
用于欺詐檢測(cè)的技術(shù)可分為兩大類:統(tǒng)計(jì)分析和人工智能。
統(tǒng)計(jì)分析技術(shù)的例子包括:
數(shù)據(jù)預(yù)處理 - 用于檢測(cè)、驗(yàn)證、糾正和填充缺失或不正確數(shù)據(jù);
計(jì)算各種統(tǒng)計(jì)參數(shù) - 例如平均值、分位數(shù)、性能指標(biāo)、概率分布等。例如,用戶通話記錄的平均呼叫時(shí)長(zhǎng),每月平均呼叫次數(shù)和賬單支付的平均延遲天數(shù);
時(shí)間序列分析 - 預(yù)測(cè)變化趨勢(shì)與風(fēng)險(xiǎn);
聚類分析 - 查找數(shù)據(jù)之間的模式和關(guān)聯(lián)性;
匹配算法 - 檢測(cè)交易或用戶行為中的異常。
用于欺詐管理的主要人工智能技術(shù)包括:
數(shù)據(jù)挖掘 - 對(duì)數(shù)據(jù)進(jìn)行分類、聚類和分段,并自動(dòng)查找數(shù)據(jù)中潛在的模式和規(guī)則,包括與欺詐相關(guān)的模式;
專家系統(tǒng) - 規(guī)則的形式來(lái)檢測(cè)欺詐的專業(yè)知識(shí);
機(jī)器學(xué)習(xí) - 自動(dòng)識(shí)別欺詐特征;
神經(jīng)網(wǎng)絡(luò) - 從樣本中學(xué)習(xí)可疑模式,并在未來(lái)檢測(cè)它們。
其他人工智能技術(shù),如鏈接分析、貝葉斯網(wǎng)絡(luò)、決策理論和知識(shí)圖譜等,也可用于欺詐檢測(cè)。
欺詐的新手段和方式層出不窮,僅依靠單一或簡(jiǎn)單的方法遠(yuǎn)遠(yuǎn)不夠。上述方法和技術(shù)已經(jīng)在業(yè)界獲得一定程度的應(yīng)用,業(yè)界對(duì)于相關(guān)技術(shù)的認(rèn)可度和重視度也在與日俱增。
事實(shí)證明,充分利用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)技術(shù)乃至復(fù)雜的人工智能模型等,能夠極大地提升公司的反欺詐水平,降低欺詐損失。
在下文中,筆者將主要介紹機(jī)器學(xué)習(xí)技術(shù)的反欺詐應(yīng)用,討論建立反欺詐機(jī)器學(xué)習(xí)模型的流程以及分享一些提升模型效果的思路。
實(shí)際業(yè)務(wù)中,常見(jiàn)的反欺詐手段主要包括:黑名單法、反欺詐規(guī)則系統(tǒng)以及機(jī)器學(xué)習(xí)技術(shù)。前兩種方法實(shí)施簡(jiǎn)單,且可解釋性較強(qiáng),但往往存在滯后性嚴(yán)重和準(zhǔn)確度低的問(wèn)題。而建立反欺詐模型,特別是基于機(jī)器學(xué)習(xí)的反欺詐模型,可以通過(guò)多樣的算法來(lái)準(zhǔn)確地識(shí)別欺詐屬性,降低欺詐風(fēng)險(xiǎn)。
如上圖所示,我們將機(jī)器學(xué)習(xí)和人工智能解決方案分為兩類:“有監(jiān)督”和“無(wú)監(jiān)督”學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí),或者說(shuō)監(jiān)督式學(xué)習(xí),是反欺詐檢測(cè)中最為廣泛使用的機(jī)器學(xué)習(xí)模式。其模型技術(shù)包括但不限于決策樹(shù)算法、隨機(jī)森林、最近鄰算法、支持向量機(jī)和樸素貝葉斯分類等。
監(jiān)督式學(xué)習(xí)的機(jī)器學(xué)習(xí)模型通常是從有標(biāo)簽的數(shù)據(jù)中自動(dòng)創(chuàng)建出模型,來(lái)檢測(cè)欺詐行為。簡(jiǎn)單地說(shuō),就是通過(guò)學(xué)習(xí)經(jīng)過(guò)分類的資料,建立一種模式,并依據(jù)這一模式來(lái)推測(cè)和判斷新的實(shí)例。
具體而言,監(jiān)督神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)以及神經(jīng)網(wǎng)絡(luò)和規(guī)則的組合已經(jīng)被廣泛應(yīng)用于電話網(wǎng)絡(luò)和財(cái)務(wù)報(bào)表欺詐;貝葉斯神經(jīng)網(wǎng)絡(luò)用于信用卡欺詐檢測(cè)、電信欺詐、汽車索賠欺詐檢測(cè)和醫(yī)療保險(xiǎn)欺詐等。
這種類型的模型僅能夠檢測(cè)與先前已經(jīng)發(fā)生的欺詐案例相類似的欺詐。想要檢測(cè)新型欺詐,還需要使用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法。
無(wú)監(jiān)督學(xué)習(xí)
相反,無(wú)監(jiān)督方法不需要預(yù)選和標(biāo)記欺詐類型。無(wú)監(jiān)督學(xué)習(xí)的反欺詐模型使用各維度的數(shù)據(jù)和標(biāo)簽進(jìn)行聚類,從而找出與大多數(shù)用戶行為相差較大的,并予以攔截。
下圖展示了主要反欺詐手段出現(xiàn)的先后以及各自的檢測(cè)效果和優(yōu)缺點(diǎn)。
黑名單和規(guī)則系統(tǒng)不能迅速和有效地應(yīng)對(duì)變化的欺詐手段,顯得有些“后知后覺(jué)”。有監(jiān)督的機(jī)器學(xué)習(xí)需要人工標(biāo)記欺詐標(biāo)簽來(lái)訓(xùn)練模型,無(wú)監(jiān)督學(xué)習(xí)則可以自動(dòng)產(chǎn)生標(biāo)簽,挖掘和聚類未知的欺詐行為。
迄今為止,尚未出現(xiàn)較為成熟和經(jīng)過(guò)實(shí)踐驗(yàn)證的無(wú)監(jiān)督學(xué)習(xí)解決方案,一方面,無(wú)監(jiān)督學(xué)習(xí)對(duì)于數(shù)據(jù)的廣度、深度都有著極其高的要求,另一方面,我們的對(duì)于該方法的探索還有待加強(qiáng)。
無(wú)論是使用監(jiān)督方法還是非監(jiān)督方法,輸出僅為我們提供欺詐的可能性,沒(méi)有獨(dú)立的統(tǒng)計(jì)分析可以確保特定對(duì)象是百分百欺詐性的,但是模型識(shí)別的準(zhǔn)確度非常高,尤其是結(jié)合黑名單和規(guī)則系統(tǒng)后,綜合準(zhǔn)確率會(huì)大大提升。
反欺詐模型的流程主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、風(fēng)險(xiǎn)特征挖掘、模型構(gòu)建、模型監(jiān)控五個(gè)環(huán)節(jié),如下圖所示:
數(shù)據(jù)采集
數(shù)據(jù)的質(zhì)量和維度是成功模型的基礎(chǔ)。在數(shù)據(jù)采集階段,既需要整合內(nèi)部數(shù)據(jù),如用戶申請(qǐng)信息、交易數(shù)據(jù)、網(wǎng)絡(luò)及設(shè)備終端數(shù)據(jù)等,又需要外部數(shù)據(jù)的補(bǔ)充。許多用于反欺詐的外部數(shù)據(jù)來(lái)自法院、公安部、工商局、社保局等,包含了刑事犯罪信息、商業(yè)犯罪信息、違法賬戶等信息。同業(yè)共享的各類欺詐信息也是重要的外部數(shù)據(jù)。
由于數(shù)據(jù)來(lái)源廣泛,直接導(dǎo)致數(shù)據(jù)種類和規(guī)模急劇增加。公司在數(shù)據(jù)處理技術(shù)方面除了采用成熟的商用數(shù)據(jù)庫(kù)外,還應(yīng)廣泛應(yīng)用大數(shù)據(jù)分析技術(shù)。
數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的處理,比如數(shù)據(jù)類型轉(zhuǎn)換、缺失值和極端值的處理等,或是通過(guò)平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
對(duì)于客戶數(shù)據(jù),可跨越不同渠道歸集客戶相關(guān)屬性,如年齡、賬齡、教育程度、地域等要素,建立客戶畫(huà)像檔案,描述客戶特征。對(duì)于商戶數(shù)據(jù),應(yīng)根據(jù)商戶信用評(píng)級(jí)信息、產(chǎn)品銷售量、商戶類別等要素,建立商戶檔案,劃分商戶風(fēng)險(xiǎn)等級(jí)。
風(fēng)險(xiǎn)特征挖掘
在風(fēng)險(xiǎn)特征挖掘階段,常用的分析方法有假設(shè)分析、關(guān)聯(lián)分析、模式歸納分析等。比如,假設(shè)分析的目的是對(duì)問(wèn)題提出各種可能的假設(shè),并評(píng)估假設(shè)的分析過(guò)程;關(guān)聯(lián)分析旨在從大量數(shù)據(jù)中發(fā)現(xiàn)事物之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。
對(duì)客戶的各類信息進(jìn)入深入分析,以時(shí)間、頻率、距離、比例等統(tǒng)計(jì)口徑,建立風(fēng)險(xiǎn)特征庫(kù),比如近3個(gè)月交易金額,距離一公里以內(nèi)的申請(qǐng)總?cè)藬?shù)等。運(yùn)用大數(shù)據(jù)技術(shù),計(jì)算出每個(gè)風(fēng)險(xiǎn)特征對(duì)相應(yīng)變量的貢獻(xiàn)能力,以及各風(fēng)險(xiǎn)特征之間的相關(guān)性,選取重要性高和貢獻(xiàn)力強(qiáng),以及相關(guān)性弱的變量,作為后續(xù)建模的備選變量。
模型構(gòu)建
反欺詐模型可使用傳統(tǒng)的邏輯回歸和流行的機(jī)器學(xué)習(xí)模型,比如Boosting算法類別的Adaboost、GBDT、XGBoost等。其中熱門(mén)的Xgboost模型,其主要優(yōu)化點(diǎn)在于對(duì)損失函數(shù)做了二階的泰勒展開(kāi),并在目標(biāo)函數(shù)之外加入了正則項(xiàng)對(duì)整體求最優(yōu)解,用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,避免過(guò)擬合。
一般來(lái)說(shuō)界定模型的好壞有兩個(gè)方面,一個(gè)是區(qū)分能力,另外一個(gè)是穩(wěn)定性,常用K-S值和PSI等指標(biāo)來(lái)衡量。
模型需要不斷迭代優(yōu)化,才能貼近真實(shí)情況。在模型迭代階段,運(yùn)用交叉驗(yàn)證等方法,不斷優(yōu)化模型,使模型各項(xiàng)指標(biāo)(包括準(zhǔn)確率、對(duì)數(shù)損失函數(shù)、精確率-召回率、混淆矩陣等),達(dá)到理想的預(yù)測(cè)效果。
模型監(jiān)控
經(jīng)過(guò)模型評(píng)估、選擇及審批后,需要技術(shù)部門(mén)配合進(jìn)行部署、生產(chǎn)測(cè)試,最終投入使用。在模型上線后,定期對(duì)模型的穩(wěn)定性、區(qū)分度、精確性等指標(biāo)進(jìn)行監(jiān)控。根據(jù)宏觀經(jīng)濟(jì)環(huán)境或內(nèi)部業(yè)務(wù)的變化,及時(shí)進(jìn)行模型檢測(cè),及早發(fā)現(xiàn)隱患。根據(jù)監(jiān)控結(jié)果,在模型性能發(fā)生明顯退化時(shí),根據(jù)退化的嚴(yán)重程度對(duì)模型進(jìn)行迭代調(diào)整,或是重新開(kāi)發(fā)。
如果發(fā)現(xiàn)反欺詐模型的效果不太理想,可以嘗試從以下四個(gè)方面提升:
一是數(shù)據(jù)方面,如果最終模型效果不太好,首先考慮數(shù)據(jù)采集階段的變量維度是否足夠,同時(shí)也需要嘗試構(gòu)建出更多的特征來(lái)。數(shù)據(jù)預(yù)處理是否到位,是否考慮到各種情況,有沒(méi)有犯低級(jí)錯(cuò)誤,導(dǎo)致后續(xù)建模效果不好等。
二是算法選擇,使用一個(gè)簡(jiǎn)單的算法,比如線性模型,作為基準(zhǔn)模型,后續(xù)用復(fù)雜的算法來(lái)擬合數(shù)據(jù),對(duì)比各種模型在所擁有數(shù)據(jù)集上的表現(xiàn)與提升,通常復(fù)雜的算法會(huì)比線性的算法有著更好的效果,但也意味著更多的調(diào)參時(shí)間。
三是算法調(diào)參,一般說(shuō)來(lái),越復(fù)雜的算法所需要的參數(shù)越多。比如神經(jīng)網(wǎng)絡(luò)的參數(shù)就非常多,對(duì)算法本身需要有一定的了解,再花時(shí)間去一步步調(diào)參。
四是模型融合,當(dāng)我們使用不同的或相似模型不同參數(shù)的模型得到結(jié)果后,可將各個(gè)模型融合在一起,各模型作為新模型的輸入重新訓(xùn)練,這樣綜合起來(lái)的模型效果可能會(huì)出乎意料。
至此,我們還必須認(rèn)清一個(gè)現(xiàn)實(shí):?jiǎn)渭円揽繖C(jī)器學(xué)習(xí)模型來(lái)檢測(cè)欺詐是片面的。比較折中且可行的方法是把人為欺詐規(guī)則和機(jī)器學(xué)習(xí)模型合二為一,一起來(lái)使用。反欺詐模型難度很高,需要和反欺詐領(lǐng)域?qū)<乙黄饏f(xié)作才能有最好的結(jié)果。
互聯(lián)網(wǎng)金融科技的迅速發(fā)展成為整個(gè)新金融不可逆轉(zhuǎn)的大方向,新技術(shù)的逐步應(yīng)用落地將逐步擠壓“黑灰產(chǎn)業(yè)”的生存空間。隨著市場(chǎng)的相關(guān)政策法規(guī)的完善,以及大數(shù)據(jù)、人工智能等技術(shù)的應(yīng)用,互金行業(yè)必將走上發(fā)展的快車道。
有陽(yáng)光的地方總會(huì)有陰影,陰影的存在方能彰顯陽(yáng)光的難能可貴。技術(shù)、監(jiān)管和風(fēng)控三位一體助力金融反欺詐,金融行業(yè)的太陽(yáng)每天都會(huì)照常升起。