人在江湖飄,哪有不挨刀。
作為一名有11年經(jīng)驗的資深剁手黨,手起刀落,咱們也是參與了N多億萬項目的社會人(雙11、618、520。。。)。雖然,現(xiàn)在雷鋒網(wǎng)編輯小李已經(jīng)練成火眼金睛,但是也經(jīng)歷過那么幾個“沮喪”時刻。
2008年,我打開了第一張新世界的大門:在淘寶上買了一雙傳說是耐克dunk sb新款的鞋,收到之后,得瑟了半天,眼尖的室友尖叫一聲:不對,你的對勾好像反了。。。。奉行“貧窮我就暫時性失明”的宗旨,我還是開開心心地穿了一個星期,然后在體育課上華麗麗地跑掉了鞋底。。。。
自此,那雙辣眼睛的對勾“耐克”就成了剁手黨進階路上無時無刻提醒我的“路標”:注意假貨,還有。。。多賺錢。
2012 年雙 11 開啟,開心的我認認真真地在購物車囤了一個星期的貨,只待零點,結果零點的鐘聲響起,我還沒反應過來,提交訂單時就遭遇了崩潰——怎么一下就被搶光了?跟我眼光一致的人這么多?
那時,命運給我上了一堂我自己還沒搞明白的課:原來還有種東東叫做“秒殺神器”。再到以后,我苦練搶購絕技,卻發(fā)現(xiàn)雖然和我一樣的剁手黨越來越多,但踩的坑越來越少。
直到有一天,阿里安全一個做人工智能研究的專家告訴我,他們有個系統(tǒng),這個系統(tǒng)里的圖片數(shù)據(jù)總量相當于 186 個中國國家圖書館藏量,累積的打假圖片樣本量超過 137 億張。以前他們阿里小二人肉對比打假,吭哧吭哧地干活,卻怎么也追不上淘寶發(fā)展的速度,現(xiàn)在他們讓 AI 小二上陣,人工查看1張圖片的信息需要 10 秒,5 萬人同時工作的效率才能勉強趕上“知產(chǎn)保護科技大腦(AI 小二)”掃描甄別圖片的速度。
除了打假,他們還靠 AI 打擊黃賭毒,在搶購節(jié)點圍追堵截干壞事的機器人,并抗擊圖謀不軌,準備趁機搞破壞的攻擊者。
曾經(jīng),無數(shù)安全從業(yè)者告訴我——“感受不到的安全就是真的安全”“什么都沒發(fā)生就是好事”,我總無法感同身受,但是說到“買買買”,我突然就理解了。
8 月 28 日,阿里巴巴集團安全首席算法專家陸全霹靂吧啦說了一堆,大意是上面 AI 能幫我們順利“買買買”的東西其實就是阿里巴巴商業(yè)操作系統(tǒng)的風控大腦,也叫做“安全AI”。
我突然又不懂了,“安全AI”除了讓我們這種吃瓜群眾能感受到順利地“買買買”,背后還有什么黑科技?跟雷鋒網(wǎng)一起了解一下。
“看到”假貨
為了便于理解,我們還是從特別實操的“如何讓你不買到假貨”說起。
阿里的技術人員是怎么看哪些是“侵犯了知識產(chǎn)權”的商品呢?
對比圖片,對比款式,對比商標。
但是,不是所有商家上傳圖片時,都是“正正經(jīng)經(jīng)‘立正’商標拍照”,有些人只露出商標的一部分,有些是擺出不同的角度,還有一些人故意遮擋。對付文字就更“精明了”,他們可能使用變形的文字,并充分利用漢字博大精深的特點。
后來,可以上視頻代替圖片后,有些商家就更厲害了——在很多幀圖片里上傳一張“隱晦”圖片。
陸全在聊天之前先給我放了一段視頻:仿冒商家在一件正品連衣裙上做了很簡單的樣式改動,比如加了一個蝴蝶結,都能被認出來。
這就要依賴上述打假樣本庫和相關算法。
有意思的是,陸全告訴雷鋒網(wǎng),現(xiàn)在已經(jīng)不是采取“敵動我跟”的單點對抗策略,比如,不僅是出現(xiàn)了假貨,收集假貨特征,被動跟隨打擊,他們會主動尋找假貨特征,甚至整個黑產(chǎn)的情況,綜合多方面信息“摸底打擊”。甚至在違規(guī)商戶只是打算上架“假貨”時,都能精準“擊斃”。
在這樣的背景下,依靠 AI 在商品發(fā)布環(huán)節(jié),96%的造假都能被攔截,在修改的過程中不斷檢測和控制,最后能達到每一萬筆中,只有1.1筆被消費者懷疑為假貨。
這種圖片審核和視頻審核背后所采用的 AI 是阿里提出來的“安全AI”大腦的感知區(qū),這個感知區(qū)域的核心技術是計算機視覺技術及語音識別技術,是整個系統(tǒng)的感官系統(tǒng),是對象識別的基礎,為形成后續(xù)一系列處理動作邁出第一步。
說白了,“感知區(qū)”就是一雙“眼睛”。
剛才“抗擊假貨”只是其中一個應用場景?!把劬Α边€有用于線上商品識別的商標檢測、物體檢測、光學字符識別技術,用于營銷環(huán)節(jié)檢測的廣告圖片分析和視頻直播監(jiān)測技術,以及用于原創(chuàng)作品保護的多媒體檢索和圖像水印技術等。
如果你要開個店,“眼睛”還要對用于開店身份進行人臉識別、聲紋識別、活體檢測等生物識別。
“眼睛”給線下零售提升效率
不僅是線上,另一個與感知的“眼睛”有關的重要場景是:阿里開設的新零售——線下泛安全場景的保護以及提升效率。
之前有個笑話,說現(xiàn)在小偷已經(jīng)無錢可偷——因為大家都用電子支付工具,帶個 500 塊現(xiàn)金出門都筭“身懷巨款”?,F(xiàn)在,小偷不僅無錢可偷,可能連實體商品都難以“作案”了。
傳統(tǒng)門店抓小偷的鏈路是這樣的:從錄像看這些貨哪些被人拿走,發(fā)現(xiàn)之后,還要看這個人還拿了其他哪些貨。確定之后,要找到這個人正面照片,把照片打印出來再分發(fā)給保安。整個回溯錄像和偷竊人的照片的過程,可能需要12-24小時。
如果說“安全AI” 完全替代保安、店員確實是危言聳聽,但它能顯著提升效率。原來線下商店每天需要花 2 小時盤貨,現(xiàn)在可以實時盤貨,原來對丟貨要進行12-24小時的盤貨,現(xiàn)在AI盤貨只需要2個小時。
到底是怎么做的?
“線下店面現(xiàn)在毛利率很低,你肯定不能通過改造硬件成本提高他們的成本。”雖然陸全看上去是高大上的算法專家,但是考慮用戶需求很實際,那就只有一個辦法,從 AI 算法上改進。
“這些線下店如果采用的是無人店的技術,就會裝貨架攝像頭,對同一個物品有多維去展現(xiàn),很容易知道這個物品的定位在哪里,但是一般的監(jiān)控攝像頭很難知道一個平面的多維度,有可能商品的位置在這兒,實際有很大的偏差,從攝像頭角度,商品的位置已經(jīng)被挪動,這就要解決二維到三維的問題,我們解決的方式是要對其中很多點事先做多維定位,這樣消耗的是算力資源,比硬件成本要低很多。”
這樣下來,“安全AI” 就知道到底哪些人真的在偷盜,從而實現(xiàn)預警和跟蹤。
一個有意思的數(shù)據(jù)是,傳統(tǒng)打印慣偷照片分發(fā)給保安的情況下,抓住慣偷的概率只有5%,讓 AI上了以后,這個概率能提升到 35%,但是一段時間后,概率大幅下降,原因是,小偷不敢來了。
它不會讓你找出白百合、楊臣剛和C杯
“看見”只是第一步,作為一個有“腦子”的阿里商業(yè)風控還需要“認知”。“安全 AI 認知層”的核心技術是自然語言處理技術。
再回到線上場景,如果要對抗購物節(jié)和我搶熱銷商品的那么多機器人,“安全 AI”可以做點什么?
第一個案例就是“問答式驗證碼”,這是平常我們進行賬戶驗證時時不時會遇到的“關卡”。
以前,我們吐槽過這些逆天的“驗證碼”:
請找出圖中的白百何
請分辨出這里的楊臣剛、王大治和孫楠
這些我們都忍了,直到有一天,有人拿出了一張驗證碼的圖片:XXXXXXX,請找出這里的C杯。
“安全AI”比較人性化,好像沒有問這么令人腎上腺素飆升的問題,因為它問的問題可能是從大家在淘寶中的評論里提取的。
比如:
“顏色比圖片上暗,是比較氣質(zhì)的款式,快遞真的超級快。”
AI 會從其中提取情感屬性和商品屬性,然后呈現(xiàn)出一個驗證問答:
陸全告訴雷鋒網(wǎng),這種驗證模式利用阿里電商平臺海量信息做文本生成,其實包含了三重防護體系:
1)認知問答:給出一段文本,基于對文本的理解和推理回答問題,考察語言認知能力。
2)圖像對抗:文本問題以圖片的形式展現(xiàn),通過注入對抗樣本,影響主流OCR識別算法的檢測效果;
3)行為檢測:回答問題需要通過拖拽的方式完成,基于行為的大數(shù)據(jù)分析以及端上的安全防控,進行人機區(qū)分;
通過這三個方式,對于某些風險較高的賬戶進行認證,可以以95%的概率識別出“非我族類”。
這樣做主要還是為了提供攻擊方的門檻。因為淘寶等電商平臺可以日均產(chǎn)生千萬級的高質(zhì)量評論,題庫規(guī)模足夠大,想通過扒題庫的方式破擊驗證系統(tǒng)幾乎不可能,另外基于自有數(shù)據(jù)也導致一般的算法模型很難適用。
AI 通過對商品評論做屬性級的情感分析,提煉出問答知識點,例如對商品某一屬性的評價是什么,評價是正面還是負面的,這樣j基于提煉的結構化知識點,生成自然語言的問答,增加了問題的多樣性。
一句話,機器要想看懂并明白它,很難。
AI 當臥底,海底撈針
另一個能提升“安全 AI ”認知能力的是“風險分析”,也就是說,靠 AI 算法從海量信息中找到這些問題的答案:
1.誰在對我虎視眈眈?他們從哪里來,到哪里去,要干什么?堪比回答人生的終極疑問。
2.以前那些看上去“沒有什么背景”的攻擊到底是誰干的?張三家大白鵝丟了和五百公里外的李四家有什么潛在關系?XX團伙發(fā)起的攻擊與一年前發(fā)起的那一波攻擊有沒有關聯(lián)?
3.現(xiàn)在主流威脅有哪些?我未來還會受到哪些黑灰產(chǎn)攻擊?
“安全AI”背后的阿里安全團隊自己上還不夠,以防萬一,要請來大牛坐鎮(zhèn)——安全AI的“風險分析”與達摩院有諸多合作,達摩院在自然語言處理技術上很強,在機器翻譯、多人對話方面都取得了挺多公開數(shù)據(jù)級測試世界第一。
“我們跟它進行深度合作,做NLP的處理”。陸全說。
靠著自己爭氣和“背后有人”,60%的黑灰產(chǎn)風險被機器自動化發(fā)現(xiàn)并首次最先報警,“安全AI”發(fā)掘了黑灰產(chǎn)關系于線上風控,并開啟“大喇叭”推廣到全域經(jīng)濟體。
當然,判斷“用戶”是機器人還是真實人類,發(fā)掘黑灰產(chǎn)情況還不夠,一個優(yōu)秀的大腦還要跟蹤風險賬戶的行為,由己及彼,具有超強的推理能力。
“安全AI”決策層的核心技術包括深度學習和強化學習兩塊,用來解決現(xiàn)實中的復雜決策問題。它決定了系統(tǒng)該如何動作,如何更合理有效地作出最佳應對。例如,當面臨商家實時博弈、信息內(nèi)容的變異,以及黑產(chǎn)的惡意攻擊時,在全局視角下做出更有利的決策。
比如,如果它發(fā)現(xiàn)了一個可疑份子,一次可疑行為,要像一個深謀遠慮的軍師一樣善于布局,“拔出蘿卜帶出泥”,清楚地構建一個整體線索圖,更具全局觀。
“帳號跟帳號之間是有關聯(lián)的,它的關聯(lián)可能通過共同買同樣的商品,或者共同評價同樣的商品,或者互相評價這些關聯(lián),我們做風控就是用全局的信息才能夠挖掘到后面的團伙信息?!标懭f。
如果今天有一群穿著黑衣服的人來“打家劫舍”,明天就算這群人穿了綠衣服,戴了口罩,AI 也能“認出”他們。
“安全AI” 也要自衛(wèi)
可能出乎你意料的是,“安全AI”大腦不僅要有發(fā)現(xiàn)威脅的各種感知、認知、決策能力,還要有自衛(wèi)的能力——保護層,保護自己和系統(tǒng)不受到傷害。
這里要提到三項有意思的技術:源碼保護、自動化漏洞挖掘及對抗樣本訓練。
為了保證自己辛辛苦苦做出的各類 AI 引擎不被壞人輕易復制、利用和對抗,阿里的安全研究人員還要“抱”住自己的 AI 模型。
但是,現(xiàn)在有越來越多的機器學習的模型代碼都會布到端上,或者是布到不可控的地方。為了保護自己的源碼,他們只好選擇把編譯好的編譯碼放到端上,而不是把源碼放上面,這樣人即使可以讀懂源碼,但讀不懂編譯碼,陸全等人把“安全AI”的核心模型都變成了一個只有阿里的知識引擎才能看懂的機器。
此刻,我想起了明星閨蜜才知道的一個暗號。
A:今天我去做頭發(fā)。
B:懂,如果你老公問我的話。
陸全還提到,安全 AI 在很多應用上面歸根結底變成了代碼,有代碼就會有漏洞。
“可怕的是,我們現(xiàn)在發(fā)現(xiàn)有一個問題在 AI 界是比較嚴重的。大家模型和框架都有非常強的同質(zhì)性,你用的、我用的、他用的都差不多,就好像大家基本上基因構造都很類似。以后萬一有一種病毒或者有一種攻擊方式出來,基本上所有的人都沒有免疫力,都很容易中招?!?/p>
所以,“安全AI”要對自身和阿里本身的業(yè)務系統(tǒng)進行自動化的漏洞挖掘,未雨綢繆,找到更多缺陷,及早預防。
上述都是從外部治理 AI 系統(tǒng),但是提升 AI 模型本身對付惡意攻擊的適應能力,還要靠對抗訓練樣本的方式。
“事先產(chǎn)生一些比較接近于黑客或者黑灰產(chǎn)容易攻擊的樣本,把樣本加到訓練集里面,讓模型在訓練產(chǎn)生的時候,就已經(jīng)具備抵抗一些變異和攻擊的能力?!?/strong>
不知為何,陸全的闡釋讓我想到了大神周伯通的雙手互搏。
最強高手的目標,永遠在于如何戰(zhàn)勝自己。
[陸全]
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))。