強相關關係《智慧時代--大資料和智慧革命重新定義未來》
阿新 • • 發佈:2019-02-06
我們通常通過邏輯推理得到結果,先有原因,再有結果,如果沒有原因,我們往往覺得不可信。比如青黴素的和其他的抗生素髮明過程中,人們不斷分析原因,然後尋找答案(結果),但時間可能會特別久,不是患者可以等待的。有大資料以後,如果將每一種藥和每一種病匹配,就會有意外的驚喜,比如治療心臟的藥物對心臟特別好。這樣找到治療胃病的藥物只要三年,這種方法依靠的是強關聯關係。然後再反過來找為什麼有效。
在大資料時代,我們能夠得益於一種新的思維方法,從大量的資料中直接找到答案,雖然不知道原因,如果能夠接受,那我們的思維就跳出了機械時代單純追求因果,開始有大資料思維了。
Google05年之前一直不斷使用資料來提高搜尋質量,但主要工作方法是遵循因果關係,但是搜尋質量提升速度太慢了,根據資料的積累,大家發現,搜尋質量和很多的資料特徵有很強的相關性,利用這些特性可以迅速提升搜尋結果的質量。在所有的資料中,與搜尋質量相關性最高的是大量的點選資料,即對於不同的搜尋關鍵詞,使用者都點選了哪些搜尋結果(網頁)。要麼改進搜尋排序結果,要麼相信使用者的點選結果。度量使用者點選資料和搜尋結果相關性的模型,通常被稱為“點選模型”,點選模型現在在搜尋排序中至少佔70%-80%的權重。當然,點選模型的準確性取決於資料量的大小。