移動廣告作弊流量的淺潛規則
轉自這裏
流量作弊彌漫在互聯網廣告行業中,已經成為公開的秘密。
黑格爾的哲學命題”存在即合理“,往往被人濫用,其原意是“合理即合符某種規律”,通過黑格爾辯證法,不存在不變的東西,這個命題也可以解釋成“凡是存在的,都是應該會滅亡的”。 不知道虛假流量什麽時候會滅亡,那時這篇文章就失去意義了,不過既然這篇文章現在存在,那麽就是合理的(rational)。
今天的話題集中在移動流量作弊上面,作弊(反作弊)形式和技術與PC作弊不盡相同。PC的用戶標識通常使用瀏覽器的Cookie;而移動的標識通常是IDFA(蘋果),Google Ads ID(海外Android),IMEI(國內Android)。移動App有更多信號(機會)辨別真偽,PC瀏覽器的限制會比較多。
這篇文章就膚淺介紹一下虛假流量後的一些潛規律,很多分析都很淺顯,因此叫做淺潛規則。
1. 虛假流量的術語
本文聊的作弊流量,有好多種說法,側重點也不盡相同。
-
作弊流量(Fraud Traffic) :大白話,容易明白,就是騙人的流量
-
非人為流量(No-Human Traffic ): 這種流量特指一些Bot流量,機器模擬的;對於一些劫持的流量,有些灰色地帶,因此不夠準確。
-
非激勵正常流量(No-Incentive Traffic):有些流量雖然是人為流量,但常常是由某種誘惑而來(例如不合理頁面設計,獎券,紅包,遊戲點卡等),因此激勵流量通常轉化效果比較差。
-
無效流量(Invalid Traffic) :為了規避過於敏感的作弊(Fraud)而使用的術語,這樣不容易得罪人,無效流量中既有故意為之,也有無意為之的。
-
異常流量(Abnormal Traffic) :類似於無效流量,強調流量的異常性。
這些術語之間並沒有太多包含關系(或沒必要嚴格細分),更多的是用在不同的場景和角色。例如,有些研發人員關註No-Human Traffic(Bot Traffic) ;有些效果監測的公司更加關註計費的流量,因此願意使用invalid traffic;早期,這些流量都稱為Fraud Traffic,因此作弊流量也是一種常用說法。
2. 移動廣告的業務模式圖:
有錢的就地方就是作弊,常在河邊走,哪有不濕鞋?看看錢是如何流動的就可以理解其中利益關系。錢流的上遊是付錢的主,下遊的機構總想放大收入,那麽在付錢主的所能容忍範圍內最大化收入就是各個環節優化的目標。這是一個在限制條件下,單優化目標的問題。
常見流量作弊的動機:
1.媒體:制造虛假流量,提升收入
2.廣告代理/銷售:運營虛假流量,保證合同,提升收入
3.交易平臺:對虛假Supply審查不嚴格,提升收入
4.用戶:為獲得激勵(紅包,點卡等)而產生低(無)效果流量
5.廣告主:惡意消耗競爭對手的預算
3. 移動廣告目前的虛假流量比例
由於虛假流量過於復雜和敏感,大家在報數的時候都是非常謹慎小心的。盡管如此,最後大家報的數字千差萬別,因此無法考證各個數據的置信度,大家參考一下就好。
1.ANA( Association of National Advertisers): “聲譽差的交易平臺作弊流量達到25-50%,聲譽好的通常低於10%”。
2.AppFlyer:2016年,AppLift的報告指出34%的移動流量為有風險的虛假流量(Risk of fraud, 22%可疑,12%高風險) 。Android虛假流量比例大於iOS,系統版本約高,虛假比例越低。
2.秒針:2016年垂直網站與網盟媒體異常流量占比最高。其中,垂直類媒體曝光異常大幅增至 24.93%,點擊異常中網盟類媒體最為明顯,占比高達 71.07%。
3.AdMaster :2016年全年無效流量整體占比為30.2%;下半年出現小幅度惡化現象,無效流量增加3.7%;
4.移動虛假流量的分類
虛假流量有很多種分類,各種分類都會有灰色的領域,下面我試圖用作弊的基本原理方式來分類,而且主要是針對移動的場景。更加全面和系統的分類,可以參考劉鵬老師的《互聯網廣告作弊十八般武藝》。
另外一種分類可以按照設備和人為的四象限分類
5. 移動反虛假流量的模型
在討論如何對付移動虛假流量的方法之前,我們先看看移動作弊的一些主要黑技術,做到知己知彼。
移動作弊中涉及很多黑技術,其中包括一下一些:
-
模擬器:BlueStacks, AndyWin, GenyMotion
-
Spoofer: 不斷的修改機器的IP , IMEI, MAC等
-
Proxy: 網關,修改ISP, IP, UA , 設備類型等
-
蘋果: 沒有模擬器,主要通過硬件和軟件模擬
-
激勵流量(incent Traffic ): 真實人流量,但是轉化率差的流量
...
對於如何防範移動虛假流量,這確實是一個復雜的問題。並非沒有防範作弊的高端技術,也不是因為這個問題不夠嚴重,最主要的原因有三個。
-
精準打擊反作弊的成本比較高
-
各種玩家的利益分配原因
-
作弊者的受益高和風險低,大部分情況下,作弊者不會受到任何懲罰。
例如,最近友盟+在法院起訴某家App刷量公司,理由是影響了友盟統計計算的正確性和公正性。目前法院並沒有判定,我也不得知其訴訟的合理性。打個比方,有一個刷墻公司把路上所有廣告牌都刷成某家公司,然後有一個品牌影響力排名公司去控告這個刷墻公司,嚴重影響了它的品牌排名公正性。總感覺這個邏輯,不算太對。我也確實非常討厭App刷量公司,但是從哪個角度去批判和懲罰他們,確實值得法律法規上更多的討論。
不聊倫理和法規,聊聊技術吧,我覺得技術上可以按照如下模型來對付虛假流量,這裏特指移動端。
硬件:手機擁有更多的硬件信息,因此通過硬件信息進行虛假流量的防範,可以防範通過非手機(即Bot,服務器等)的虛假流量。雖然,現在手機系統提供了有一些標準函數可以獲得硬件信息,例如IMEI,MAC等,但這些函數很容易被一些通用軟件工具所攻破。另外,這個硬件標識的信息,也無法在服務器端得到有效校驗。因此,在虛假流量的鬥爭中,第一步往往就是識別流量的來源,是真實手機,還是模擬器,服務器模擬等工具。
規則策略:規則往往是最簡單有效的防範機制,例如,對於第一次訪問全新流量,將虛假流量的可能性設置為高。對於每天多余X次的有規律訪問,堅決抵制等等。規則有很多很多,不斷的增加,修改,發展到最後,規則的匹配次序也成了一門藝術了。對於一些初級的造假者,往往會落到這些規則中。
機器學習:機器學習就是通過一些訓練數據集合訓練出一個分類器,對於一些特征,訓練出一些權重信息,而後用於流量的分類識別上。做虛假識別的團隊很多時候在這個方向會越做越深,使用更多的特征,使用更多數據,使用更加及時的數據,嘗試更多的模型。這個領域工作很“苦”,做嚴格了,收入可能受影像,做寬松了,廣告主投訴ROI下降,這種平衡有點裏外不是人。
智勇雙全:有些作弊並非一定通過死板的技術手段完成的,其實有很多五花八門的方法。舉例來說,通過加大對於媒體的懲罰力度,可以提高媒體的作弊成本,從而降低作弊率。另外,還有一種有趣的反作弊方法,叫做Honey Ad(有時也叫Bluff Ad),這些廣告有些特點(例如,預期點擊率很低),通過觀察點擊率是否和預期一樣,可以判斷流量是否是機器流量(機器流量無法判斷這些廣告的貼點)。
6 識別虛假流量的技術流派
這一部分主要是集中在通過機器學習的辦法辨識虛假流量的技術,有一大部分內容可以在相關的論文中找到。
6.1 分類方法
大部分算法工程師在處理虛假流量都是從分類技術開始的,構造一個分類器,找各種各樣的特征,找到一些虛假流量的(例如轉化率異常)訓練數據。這種方法對於對於虛假流量的樣本非常依賴,不同的樣本很容易訓練出不同的模型,容易過渡擬合。 對於新的虛假流量模式,不容易及時發現。
常見的有邏輯回歸和貝葉斯方法,可以參考如下論文
《Measuring and Fingerprinting Click-Spam in Ad Networks》Vacha Dave etc.
6.2異常檢查(Anomaly-Based Detection)
學術上有很多論文,討論通過聚類的方案識別異常流量,在移動端,可以通過跟蹤某一個用戶標識的歷史行為,各種上網行為,廣告請求行為,瀏覽行為,特別是跨媒體的使用情況,以辨別這個流量是否是正常手機的使用軌跡。
-
基於歷史信息和行業平均水平進行異常分析
-
基於時間的變化,發現一些突變點
-
這一技術在金融和交易的反欺詐,用的非常多,技術也非常繁多
-
常用方法可以聚類,分類或者內容分析;
《Using Co-Visitation Networks For Classifying Non-Intentional Traffic》 Ori Stitelman et al. Dstillery 2013.
6.3 APP的廣告作弊的自動化檢查
市面上有很多APP,那些APP是制作虛假流量的來源?有沒有什麽自動的檢查方法? 微軟有一篇論文就是介紹這方面的工作,通過自動運行APP,分析APP的廣告情況:太多廣告,廣告大小過小,重疊廣告等等。
2014,《DECAF: Detecting and Characterizing Ad Fraud in Mobile Apps》
6.4. 審計(Audit)
審計是一種傳統的反欺詐方法,也是有效的,對於調查一些刷量問題也是有直接幫助的。
-
當有些在某些媒體(publisher) 點擊發生點擊
-
廣告平臺/廣告主向媒體發送一些審計的請求,確認之前受到的點擊的有效性(時間點,基本信息),而後進行對比。
6.5 偽廣告驗證(Honey Ads)
-
廣告平臺發送一些小比例的廣告,例如一些信息提示,按道理,這些提示內容並沒有讓用戶Click的意圖。
-
如果這些偽廣告的點擊率,仍然很高,像其它的廣告點擊率一樣高,說明這些流量有問題。
6.6 設備ID的真偽辨別
在移動設備上,對於設備ID的辨別可以極大的幫助識別虛假流量。有兩件事需要確認,第一,這個ID是有效的ID,第二,這個廣告請求確實是來自這個ID所在的設備。
移動設備ID也比較多,國內安卓以IMEI的MD5/SHA256為主;IMEI通常也會帶有制造商的一些基礎信息。
如何確定這個ID是來源於真實的設備,這就需要利用硬件的技術,或則通過歷史數據的一些分析來看。例如有一個IMEI ,請求的IP來源忽悠不定,上午的IP在鄭州,下午在杭州和南寧等,或則不熟悉的地方,那麽這些廣告請求中,通常有虛假的成分。因此,對ID進行辨別,對常見ID可以采用輔助的技術進行識別,包括訪問頻率,IP範圍,瀏覽行為,搜索行為,APP事情情況等等,訪問時間等,而且可以通過數據鏈的方式來判定請求的真實性。
6.7 分享一些反欺詐的論文
這裏推薦老東家的一篇論文,《Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft》,這篇文章介紹了微軟2014年之前的一些心路總結,從RuleBitmap 到 Model Fighting,如何定義Metric (Value per Click)。我有幸與部分作者一起工作,期間真心感到反欺詐的工作的無冕之艱辛。
我收集了一些Papers,有興趣的同學可以到我的主頁上下載
互聯居-廣告技術資料下載 - 互聯居-歐陽辰
7 反作弊技術公司
1) Integral Ad Science
2009年成立的反作弊公司,保護品牌安全等,這家公司和尼爾森有很多合作, 詳情可見http://integralads.com
2. Solve Media
專業提供CAPTCHA( "Completely Automated Public Turing test to tell Computers and Humans Apart")的服務,也就是驗證是否是人操作,而不是機器訪問。
3.Double Verify
主要從事視頻的可見性的檢測,它和Facebook和Youtube都有合作,經過MRC的認真。
4. Forensiq
專業處理虛假流量的技術公司,在投前,投中,投後都能夠提供解決方案。
8.最後不得不說的話
打擊異常流量,是一件苦勞總是多於功勞的事情,處理不利常常遭到廣告主的投訴以及平臺的信譽度下降,如果過於激進,廣告主消耗可能會顯著減少,交易平臺流水也會減少。反欺詐算法的同學通常需要保守各種算法規則的秘密,很多時候,一些新的規則上線,也不能大肆宣揚,只能暗中觀察效果,與非正常流量開始一波又一波的拉鋸戰鬥。
最後,為長期打擊反欺詐的同學鼓掌加油!
我的相關參考文章
廣告技術:
互聯網廣告的歸因分析(Attribution Analysis) (新!)
MarTech是廣告主視角的的營銷,技術和管理
廣告點擊率預估是怎麽回事?
“自由即奴役”的Google AMP
兩分鐘搞明白Beacon,iBeacon和EddyStone
預算平滑(Budget Smooth)是怎樣花錢的?
互聯網廣告CPM,CPC,CPA的魔咒和聖杯
拒絕壟斷,走向開放的Header Bidding
自由之設備,獨立之人格:從設備識別到跨屏營銷
DSP的繁華和傷心
移動DeepLink的前生今世
談談廣告平臺的競價原理:GFP,GSP,VCG
聊一聊小米廣告平臺的構建、底層模塊和坑
Java技術:
Java 9的模塊化--壯士斷"腕"之涅槃
致青春,Java 20年!
大數據分析:
逆流而上,獨辟蹊徑的Oracle Exadata數據庫
彪悍開源的分析數據庫-ClickHouse
作者介紹:
歐陽辰,小米MIUI商業產品部 架構師/主管,超過16年的互聯網老兵,負責廣告平臺架構和數據平臺,曾負責微軟移動Contexual Ads廣告平臺,參與Bing搜索引擎IndexServe的核心模塊研發,有空也會在個人微信公眾號“互聯居”中,分享一些互聯網技術心得,訂閱“互聯居”公眾號,與作者直接交流。
移動廣告作弊流量的淺潛規則