1. 程式人生 > >用資料找機會—《決戰大資料》精粹

用資料找機會—《決戰大資料》精粹

未來是大資料的時代,未來的競爭就是資料的競爭。以前,我們都是有問題找資料,而大資料時代,其最核心的特質則是“用資料找機會”。——車品覺

《決戰大資料:駕馭未來商業的利器》是我在兩年前接觸到的第一本關於大資料的書籍,由阿里巴巴集團副總裁車品覺所著。此書不是講具體的大資料處理技術,而是從一個大資料運營踐行者的角度來講大資料的本質、資料處理的核心思想以及阿里巴巴資料運營的“內外三板斧”。文章並非枯燥的學術性論文,作者在文中加入很多工作小案例對觀點進行引出、闡述或佐證,過渡自然,即使讀者毫無大資料運營經驗,亦能輕鬆把握關鍵思想。本文將對書中的關鍵思想進行提取,刪繁就簡,以便讀者以最快最方便的途徑獲取書中的精華。

第一部分 從資料化運營到運營資料

大資料,為什麼很多人只會談,不會做

現在網路上很多人都在談大資料,但是那些所謂的“大資料專家”只會談,不會做,因為他們根本就沒有做過。目前,在大資料方面,無法深入應用的原因在於,從收集到使用的大資料價值鏈出現了問題。只有先資料化運營,然後才能運營資料。而現在的情況是,用資料的人不知道大資料從哪裡來,做資料的人不知道大資料如何使用。

收集資料的人並不知道未來使用資料的人要做什麼,這是目前大資料的一大關鍵命門。此外,使用資料建模的人也有可能不清楚資料是如何獲取的。舉個例子,比如我在搜尋引擎裡發現某個地方搜尋“感冒藥”的頻率非常高,於是我就斷定這個地方可能出現了流行性感冒。然而這個資料是從何而來的呢?我完全不知道搜尋這個詞的人是誰,提供資料的人也沒有必要告訴我資料的來源和質量。當建立模型的人可能不知道模型的效果如何,導致使用模型的人也不知道該怎麼去反饋使用的結果。這樣一來,資訊的不對稱會原來越嚴重。這正是體現了大資料實踐過程中非常嚴重的斷層問題。

資料化運營就是用資料去解決問題,但是如果我們用資料去解決更多的問題或者提前發現問題,就要運營資料。要使大資料產生真正的商業價值,我們關注的內容並非僅僅4個V,而應該將焦點放在如何真正讓資料落地之上.

大資料的本質就是還原使用者的真實需求

在思考資料的價值時,可以從三個維度來考慮:

  • 你是否可以清楚地識別(Identity)使用者的身份?
  • 你能否搞清楚收集的資料對你的價值(Value)是什麼?
  • 收集資料時的場景(Situation)是什麼?

首先來說識別。現在很多人同時擁有手機、PC和平板等多個裝置,這個人每天都登入你的網站。這種情況下你能否知道是同一個使用者?現在分辨使用者並非難事,但是還有一些情況需要考慮,比如你會將手機借給別人用嗎?是否知道使用者是誰,決定了企業資料收集行為的意義大小。

資料收集的價值包含兩個維度:

  • 企業價值:你不會將使用者的所有行為都記錄下來,而是記錄對企業自身有幫助的資料。資料收集可以實現企業對資源的合理分配。
  • 客戶價值:資料如何幫助企業為客戶提供更好的服務。資料收集可以實現顧客體驗的提升

當我們談大資料價值的時候,第一點要注意的就是角色不一樣,對於資料價值的看法也不同,所以在衡量價值的時候要考慮到受眾和給予者這兩個對立面的不同看法。以電子商務推薦系統為例,從企業考核的角度來說,他們想要的是如何讓使用者跟多地點選自己的產品,而對於消費者來說,他們想的卻是有一個很想買的東西能不能快速買得到。

在準確識別和衡量了資料價值之後,我們再看一下資料收集的場景。大量的碎片化資料是噪音,讓事實串聯起來的行為變得非常困難,並且當我們把這些枯燥的資料串聯起來的時候,就一定能代表事實嗎?

早上你在路上看到一個人穿了件很好看的T恤,你心動了,到公司後馬上搜索T恤,然後電商網站給你推薦了10W個相關商品。當你猶豫怎麼挑選的時候突然要開會。會議中無聊你開啟手機應用,繼續搜尋T恤,但是依然沒有找到那件T恤。最後,手機彈出一個手機促銷廣告,你發現了一款價格便宜的品牌手機,你毫不猶豫買下了。

一家公司到底有多大的能力,才能還原使用者所處的場景呢?

當你搜索T恤時,跟電商的第一個接觸點出現,電商還原的場景是“你搜索了T恤,搜出10W個結果,但是你一個都沒點選進入”。電商完全不知道你不點選的原因是你要開會。會議中你開啟手機應用再次搜尋T恤,有了第二次接觸,但是你為什麼最後卻買了一部手機?有誰知道你為什麼這麼選擇?最後你買手機選擇了上海賣家,事實上你只是去過上海出差幾個月,現在卻在杭州。

如你看到的,在本應有那麼多連線的資料裡面,在購買T恤的案例中卻沒有了任何連線,那麼企業該如何實現還原呢?每天都有大量的碎片化資料產生,那麼這種狀態下分析資料能有多可靠?所以說,企業在手機資料的時候,一定要明確自己是否有能力去收集使用者在你的網站中發生的所有行為。

正如前面分析的,資料的價值必須來自於場景。

“活”的資料才是大資料

“死”資料就是單純存在資料庫中,無法進行分析和使用,並不能產生價值的資料。大資料的真正價值就是將資料用於形成主動收集資料的良性迴圈中,以帶動更多的資料進入這個自迴圈中,並應用於各個行業。比如很多網站的推薦系統,不管是音樂、視訊還是商品,都可以讓使用者來選擇“喜歡”或“不喜歡”,這樣一來企業就可以通過使用者的選擇基於後臺演算法為使用者重新推薦。多樣的自迴圈方式打開了大資料之門,而關鍵就是從解決問題出發。在資料的        自迴圈中,有兩個核心關鍵點:

  • “活”做資料:就是要跳出既定思維的框架,從相關聯的行業和業務中去收集能夠為現在所用的資料。
  • “活”看資料指標,動態使用資料:收集到的資料,必須要用場景去驗證,靈活使用資料。

“活”用資料,就是看你能否看出這個資料本身的侷限是什麼。一方面,是我們的資料為使用者體驗改善了什麼;另一方面,企業是使用資料時,對活資料的運用解決了什麼問題或者開創了什麼機會。要牢記,活用資料很重要。

無線資料,大資料的巔峰者

現在移動網際網路的主流是APP,APP資料收集的方式包括兩種:

  • 手機使用者聯網時請求伺服器的記錄
  • 將使用者的行為資料記錄下來之後,適時地傳給網站

但不管是什麼樣的收集方式,無線資料的最終表現是在沒有帳戶體系的情況下,和PC的使用者行為完全沒有辦法進行關聯,這也以為著使用者的資料出現了斷層。

為此,我的看法是,保證PC和無線兩份資料的完整,通過使用者體系將兩份資料關聯起來,就可以在分析的時候用彼此的融合來還原使用者行為。

  • 首先,需要經無線資料單獨儲存起來,不能將其混入PC資料中。對於不需要還原使用者行為的資料,比如頁面整體點選率、使用者訪問時長等基於應用本身的資料就可以用無線資料來分析。
  • 其次,由於PC和無線資料無關係,因此需要一套賬號體系來使兩者發生關係。

資料分類與資料價值,什麼才是你的核心資料

在大資料時代,首先要做的是收集大量資料,但更重要的是對資料進行分類、存放和管理。

從資料分類的角度來看,可以分成以下4類:

  • 按照是否可再生的標準來看,可分為不可再生資料和可再生資料。不可再生資料通常就是最原始的資料,比如使用者訪問網站時如果沒有被記錄下來,就無法還原了。這類資料必須有完善的保護措施和許可權設定。可再生資料就是可通過其他資料生成的資料。
  • 按照資料所處的儲存層次來看,可分為基礎層、中間層和應用層。基礎層與原始資料一致,避免失真;中間層是基於基礎層加工的資料,也被認為是資料倉庫層,會根據不同的業務需求進行存放;應用層則是針對具體資料問題的應用。
  • 按照資料業務歸屬來看,可分為各個資料主體,如交易類資料、會員類資料和日誌類資料等。
  • 按照是否為隱私來區分,可分為隱私資料和非隱私資料。

資料的5大價值:

  • 識別和串聯價值:在大資料時代,越能夠還原使用者真實身份和真實行為的資料,就越有價值。
  • 描述價值:在負責的資料中抽象出核心點。
  • 時間價值:考慮了時間的維度後,資料會產生更大的價值,對於時間的分析,能夠更好的歸納出使用者對於某個場景的偏好,對使用者的推薦也更加精準。
  • 預測價值
  • 產出資料的價值:對部分資料整合之後產生新價值

資料的盲點,負面資料的力量

如果資料存在盲點,核心資料就無法輕易顯現出來。盲點可以分為兩類:一類是物理盲點,一類是邏輯盲點。

  • 物理盲點:指資料庫中不存在這樣的資料(未收集)
  • 邏輯盲點:有資料但未很好地發掘出來

對於物理盲點,如果出現在手機客戶端問題就非常大,一是無線終端的資料手機技術不是很成熟,二是彌補受限,比如釋出新版本流程耗時長、使用者安裝問題等。在邏輯盲點中,最大的盲點就是將PC資料和無線終端資料混著看。

也許對面對海量資料,我們通常只將焦點放在正面資料上,而忽略掉負面資料。比如公司每個月有10億的交易量,雖然額度已經很大了,但你是否分析過為什麼還有2億可能的交易量沒有做成?因為很多人看了不買,為什麼不買?通過這些“負能量”資料,你其實很可能發掘出非常有價值的平臺交易增長點。

第二部分 阿里巴巴的大資料祕密

混、通、晒,阿里巴巴資料化運營的內三板斧

資料化運營首先要從“人”做起,阿里巴巴資料化運營的內功就是利用好“混、通、晒”三板斧。

現在很多資料分析師缺乏商業意識,往往會導致分析師不知道該用什麼樣的邏輯去分析資料,公司決策層也得不到任何有價值的參考意見。那麼資料分析師要擁有商業敏感的話,就要靠“混”,就是要常跟業務部門混在一起,瞭解業務部門在做什麼,才有可能服務於他們。
當你和業務“混”熟後,看到某些資料你就會明白它和商業決策有無關係及重要性。堅持帶著業務問題來觀察資料或者帶著資料來觀察業務,兼備二者的敏感,就是做到了“通”。“通”有兩種場景。如現在有一個商業場景和一堆資料,這兩者產生關係時,就是商業模式和資料彼此的“通”。因外一種更深入的就是公司組織中各部門的資料交叉,比如統一各部門資料標準和介面等。

“晒是一種在“混”和“通”的基礎上產生出來的最終資料表現,通過業務和資料的結合,形成競爭力。

存、管、用,阿里巴巴運營資料的外三板斧

2011年開始,阿里巴巴開始從資料化運營想運營資料發展。

“存”就是把資料收集起來。關於資料收集,最重要的不是我們收集了什麼資料,而是要思考這些資料如何使用以及到底能起到什麼作用。收集資料不是目的,產生價值才是最終目標。

“管”就是對儲存的資料進行管理。海量資料儲存的代價是巨大的,需要考慮哪些資料可以放冷庫,哪些資料需要先備份,是集中管理資料還是分散運作,是封閉保密還是開放等等問題,

“用”就是用資料解決問題。在“用”的問題上,資料分裂和重組,都能做到顛覆性創新。比如使用者的生理性別是決策的重要依據,而現在可以從購物屬性上變成“早男晚女”,這種改變並不違背運營資料的原則。

大資料,未來商業的利器

今天,我們正處於決策成本產生鉅變的爆發點,過去無法獲取的資料如今唾手可得,而當有些表面上毫不相關的資料關聯起來時居然產生了新的商業價值。更重要的是,過去我們更多地是帶著問題去尋找能夠驗證自己觀點的資料,如今我們卻可以用資料去預測未來可能出現的問題。海量資料使人的智慧得到更大的發揮,並變得更加規模化。

假定資料是髒的。美國一家公司專注於與地理位置相關的資料收集、整理和查詢服務,它對於所收集來的資料會提供質量評分以反映資料的可信度,而且會對資料處理的每個階段所用的演算法進行評分以反映質量水平。這是大資料時代非常重要的一個趨勢。

學會淡化資料。資料是有優先順序的,有些是特別核心,而有些是缺失了也無關緊要的,我們要學會認真盤點那些最有價值的資料。

資料的標籤化管理。資料的標籤屬性是人類經驗判斷的依據,是資料後的資料。這是個非常重要的趨勢,在運營資料時,應該找出一些屬性進行歸類,然後慢慢考慮如何提煉,這對於未來非常重要。

資料與資料的連線。大資料最重要的是資料與資料之間的關係,而不是資料本身。這就是知識圖譜。