1. 程式人生 > >虛假流量的識別(1)

虛假流量的識別(1)

接下來兩篇文章都是針對虛假流量的識別,上篇圍繞虛假流量的發生機制、發生原因(背後的利益捆綁)、識別虛假流量的常見維度等;下篇從一個案例完整介紹如何識別虛假流量。

電商、支付平臺、O2O、自媒體、廣告等行業無一例外地充斥著虛假流量,不同行業的流量作弊形式不同。對廣告主來說, 瞭解廣告投放過程中虛假流量的作弊形式和獲益形式,是識別虛假流量的基礎與前提。

圖 1 各行業虛假流量的形式

一、看似正常的廣告投放的環節

一般而言,廣告投放過程包含這樣幾個環節:

  • 第一步,廣告主選擇投放哪種廣告,常見的形式包括 SEM、DSP、資訊流、開屏廣告等;
  • 第二步,確認廣告的付費形式,常見的廣告付費形式有 CPM、CPC、CPA、CPS 為主要的結算方式,分別按照展示量、點選量、 轉化量、銷售額結算;
  • 第三步,跟蹤廣告的投放資料,常見的投放資料有展現量、點選率、點選量、消費、成功註冊量、下載量等。

由於廣告投放過程中渠道服務商存在各級代理,存在流量獲取的透明度不高的問題,讓可供作弊的灰色區域越來越多。

圖 2  廣告投放流程

二、虛假流量的發生機制及獲益形式

看似正常的廣告投放流程,其實隱藏著虛假流量的危機。站在廣告主的角度,我們從兩個方向去解讀虛假流量:

  • 第一種是 虛假流量的“發生機制”;
  • 第二種是虛假流量的“獲益形式”。

1. 虛假流量的發生機制:機器作弊 + 人為作弊

圖 3 機器作弊 & 人為作弊

“機器作弊”常見的手段有,通過機器傳送虛假流量、肉機訪問網頁、修改 DNS/IP 訪問網頁、爬蟲技術訪問網頁等手段來 製造虛假流量,目的是模擬瀏覽行為產生大量瀏覽痕跡或點選和實現流量增加,機器作弊的成本相對較低,但都離不開程式碼程式。

目前較好的預防措施,是通過基礎的使用者行為分析來識別此類虛假流量,再通過補量、遮蔽的方法來減少此類虛假流量。 例如:頻繁更換使用者身份,在一個 cookie 身上猛薅羊毛,一個使用者有成千上萬次展示;

再如:iframe 造假展示也是常用方式,iframe 是一個 HTML 標籤,常常被用來作為承載展示廣告的載體,作弊可以通過將 iframe 的尺寸改為肉眼無法識別的圖片。但這畢竟算一次曝光,廣告主會要向此付費,實際上使用者並未看到。

“人為作弊”場景的手段有,通過僱傭、激勵的方式僱傭大批人員去點選廣告、下載 APP、訪問網頁,因為屬於人為操作。

這類虛假流量較難遮蔽,但成本相對較高。可通過深度使用者行為分析,如轉化情況來識別此類虛假流量,並提高“人為作弊” 的運營成本來減少此類虛假流量。

2. 虛假流量的獲益形式

圖 4 虛假流量的獲益形式

提到虛假流量的獲益形式,就離不開上文提到的廣告付費形式。每種廣告都會有對應的結算和考核指標,這就成為虛假流量作假的痛點之一。

  • CPM、CPC 付費形式的作弊場景主要為刷廣告指標,如:曝光、點選等。
  • CPA 付費形式的作弊場景是刷下載、啟用及留存等。
  • CPS 付費形式的作弊場景是刷訂單。

每種廣告都有對應的付費形式,每種付費形式都有虛假流量獲益的訴求點,這些組成了虛假流量獲益的形式。這些虛假流量的出現,通常帶有明顯特點,比如:點選變得很頻繁但無有效互動、一段時間內同一個人頻繁訪問投放的廣告等。

三、虛假流量的“生態圈”下的利益捆綁

虛假流量之所以能成為“生態圈”,是因為供需雙方有著共同的利益。在這個“生態圈”中,虛假流量的提供者、虛假流量 的獲取者是兩個重要角色。

1. 虛假流量的提供者:媒體與廣告平臺的利益捆綁

廣告平臺和媒體是虛假流量的提供者,兩者掌握著大量的流量資源。

  • 媒體廣告平臺媒體廣告平臺是廣告流量的源頭,也是廣告投放鏈條中收益最大的一方,每年中國在營銷廣告的投放已經有數百億元。日益增加的廣告投放需求與流量需求,不停推動著廣告平臺自身對流量擴增的需求,這樣虛假流量也就隨之出現了。
  • 廣告服務商:廣告服務商,作為廣告主與廣告平臺的橋樑,是廣告投放鏈路中重要的環節,廣告服務商與廣告主達成協議去完成其要求 的 KPI 業績,若無法完成 KPI,虛假流量也會成為實現 KPI 業績的一種手段,例如:想盡辦法創造下載量、訪問量、閱讀量等。

2. 虛假流量的獲取者:“KPI”壓力下的無奈與默許

在一定程度上,廣告主很容易成為虛假流量的“推動者”,例如在以下場景中:

  • 面對考核指標的壓力:當企業(廣告主)過分追求 KPI 以及某些效果指標的時候,基於考核指標的壓力會越來越大,當曝光、 點選等指標無法完成時,不自覺地會忽視廣告刷量的影響。
  • 投放價格低:歸因分析能夠幫助企業判別最終轉化源自哪個渠道(或哪些渠道對轉化有積極影響),而企業經常會忽略這一功能。常見的原因是當投放預算充足、獲客情況滿足 KPI 的情況下,企業的營銷運營會忽略不同渠道存在的虛假流量。而有些渠道的流量真假參半,若不去追溯每個渠道流量質量,就會縱容虛假流量對營銷效果的長期影響。這對於以效果為目標的營銷最為重要,尤其在年度覆盤的時候,才發現損失也不是一個小數目。
  • 企業融資需求:一些創業公司為了把下載量等資料做得好看,吸引更多的投資,也會主動用虛假流量的方式刷單。

3. 高利潤、低風險助長雙方流量作弊

虛假流量並無高深的技術含量,且流量造假成本極低。相關資料顯示:刷流量的成本不及正常流量成本的十分之一。

廣告主對流量質量的評估,除了釋出方提供的報告外,無直接證據證明對方造假,因此追究虛假流量難度大,維權較為困難。

四、識別虛假流量的難點

為識別虛假流量,廣告主會因以下兩個問題而犯難:

1. 廣告投放資料與網頁轉化資料斷層,無法判斷後續轉化情況

廣告投放資料與網頁轉化資料斷層是資訊不透明的重要原因。

什麼是廣告媒體資料?

前文提到,虛假流量會針對曝光和點選資料做假,這兩個資料就屬於廣告媒體資料。

什麼是轉化資料?

當流量來到網站後就成為了訪客,訪客在網站完成互動(如:L註冊、有效呼起、下載等)可以認定為線索, 這就是轉化資料。 廣告媒體資料與轉化資料斷層,也就是通常說的前後端流量資料割裂。

這種情況下,一旦轉化率下降,廣告主將無法判斷 是投放策略問題還是虛假流量作怪。 廣告主只能統計到前端的點選轉化,不知道後續業務轉化如何,廣告主不能獲得使用者的詳細資訊,就很容易被廣告平臺所 矇蔽,儘管對廣告平臺的流量有所懷疑,也沒有明確的作弊證據。

2. 無法判斷虛假流量渠道,並進行規避

無論是哪種轉化行為(註冊、呼起、下載、啟用等)都離不開流量渠道,更多時候轉化行為是由多個流量渠道共同承擔的。

當全部流量混在一起的時候,即使你知道有虛假流量存在,也無法準確定位是哪一個渠道帶來的虛假流量。

五、全流程資料流量監控是識別的基礎

無論從哪個維度入手,識別虛假流量,需要將流量資料、行為資料和轉化資料通過一定的資料採集手段,來獲取完整、全 面和準確的資料,目的是實現全流程資料流量的跟蹤與分析。只有獲取了完整全面的資料,我們才能找到虛假流量的蹤跡,只分析一個虛假流量環節,不足以支撐虛假流量的證據。

下圖是流量轉化的完整過程:為方便大家理解什麼是“全流程資料流量”,可見下圖:

圖 5 全流程資料流量

六、識別虛假流量的常見維度

一般來說,真實流量一般自然 (真實的流量在各個維度中表現一定是自然的)與多樣(網民的喜好各不相同,行為一定也是 多樣的)。而對於虛假流量,常表現出一定的目的性(虛假流量的產生一定和某個特定的目的有關)和規律性(特定的目的導致虛假流量一定有特殊的規律)。

由於虛假流量與真實流量在具體訪問行為有較大差異,圍繞使用者行為可從以下幾方面識別出虛假流量。

圖 6 識別虛假流量的常見維度

1. 基本屬性

具體包括:時間 & 地域維度、終端型別、作業系統、聯網方式、運營商、IP 集中等。

  • 時間維度 & 地域維度:正常的流量訪問分佈在一天中的各個時段、地理分佈較為均勻(區域性投放或者活動除外)、訪問趨勢較為平緩。而不同流量出現時間段特殊、來源區域集中、趨勢突增的情況。因此,通過流量產生的時間、地理位置、訪問趨勢變化都可以成為判斷虛假流量的參考方式。
  • 終端型別:不同的渠道覆蓋不同的使用者群,使用者終端會有一定的區別。比如:小米應用商店渠道的使用者,十之八九手機是小米手機,如果對方是中國移動的客戶,他們則來自於移動運營商。排除這些特殊渠道的應用商店,大部分渠道的使用者終端跟整個互聯 網終端分佈是類似的。因此在正常情況下,使用者訪問裝置應該多元化。同理,使用者的裝置作業系統、聯網方式、運營商等裝置屬性,同樣可以成為判斷虛假流量的參考標準。

2. 產品參與度

具體包括跳出率、平均訪問深度、平均訪問時長、使用者行為路徑、頁面點選情況、流量留存情況、單頁面人均訪問次數等。

(1)跳出率

我們通常通過跳出率來衡量網站效能與質量等,跳出率也可以作為辨別虛假流量的參考指標。如果跳出率過高,我們除了要判斷投放渠道的質量和定位客戶群體是否精準外,還應該警惕虛假流量。

(2)平均訪問深度

訪問深度是使用者一次瀏覽網站、APP 的深度,它是衡量網站服務效率的重要指標之一。以刷量為目的的虛假流量,使用者訪 問深度通常非常低。當然,造成使用者訪問深度不夠的原因有多種,如:新投放的落地頁的失敗引導等。

因此我們在觀察此指標時, 應率先排除產品較大改動造成的訪問深度不足等特殊情況,或者與其他渠道的流量資料綜合比較,進行科學評估。

(3)平均訪問時長

平均訪問時長指標,主要用來衡量使用者與網站、APP 互動的深度。互動越深,相應停留的時長也越長。顯然虛假流量追求 的是“量”,而非“時長”,因此平均訪問時長也可以配合幾個網站參與度指標一起分析。

(4)使用者行為路徑

使用者在 APP 或網站中的訪問行為路徑,使用者路徑的分析模型可以將使用者行為進行視覺化展示。因此通常使用者通過渠道來到 網站後會有不同的行為,他們一般會從落地頁開始進行分流,會訪問不同的頁面,並在不同的頁面結束對網站的訪問。

顯然, 使用者行為序列分佈是沒規律的,而對於虛假流量,雖然通過某些方式完成 2-3 次點選,但也是預先設定,有跡可循的。

(5)頁面點選情況

虛假流量使用者的頁面點選通常是不點選,或者雜亂點選的,藉助熱力圖工具可以較為容易地發現問題。

(6)留存情況

留存可以判斷使用者忠誠度,真實的流量總會有一部分訪問者會再次訪問,而虛假流量在合作結束後是不會進行這些收尾工作的。

(7)流量的單頁面人均訪問次數

如果某個落地頁面的人均訪問次數很高,比如:4 次以上的話,就很可疑了,因為在一次訪問中使用者一般是不會多次瀏覽同一 個落地頁的。結合該頁面在網站整體的人均訪問次數進行對比,結果會更加準確。

3. 轉化情況

很多作弊流量可以模仿人類行為,成功繞過跳出率、平均訪問深度和停留時長這些巨集觀指標,但是要模仿一個業務轉化就 比較難了,如果巨集觀指標表現很好,業務轉化很少的話,就需要提高警覺。

下篇將從使用者行為資料講述如何多維度診斷虛假流量。