推薦那麼準,除了模型,還有什麼。。。
阿新 • • 發佈:2021-01-17
最近v2ex論壇上出現一篇很熱門的帖子《QQ正在嘗試讀取你的瀏覽記錄》,題目很聳動,結果也很令人吃驚。
簡要介紹一下事情的來龍去脈,樓主反映火絨防毒軟體提示QQ正在觸發一些規則,QQ嘗試讀取使用者的AppData\Local\Google\Chrome\User Data\Default\History等目錄,目錄中的資訊為使用者瀏覽器歷史記錄。有點東西,隨後看雪平臺的安全大佬對行為進行了逆向分析([原創]關於QQ讀取Chrome歷史記錄的澄清),其先讀取各種 User Data\Default\History 檔案,讀到了就複製到Temp目錄下的temphis.db。然後再用SQLite讀取資料庫,然後“select url from urls”,獲取到使用者的歷史資訊域名,至於獲取這些域名資訊後面的操作已經可以猜到了!
但是,資料的獲取細節,我們可能也不太瞭解。對於資料來源,我以前的猜想是使用者在app上的點選埋點資訊以及集團下面的兄弟企業間的資訊共享就可以達到我在百度搜索了團建遊戲,微信朋友圈就有望京小腰的廣告推薦。
只要友商夠多,收購的小弟們夠多,這種做法理論上是行得通的,也是有效的。但是這種模式相當受限,想讓百度、阿里、騰訊進行這種準實時的資料合作相當之難。而且,在技術層面想達到服務間的資料及時共享也得耗費大量人力財力。
直接扒瀏覽器資料夾,相較於我的猜想可謂是神之一手,不用商務去對接“友商”,不用產品去互啃對方文件,不用技術加班996,只用把資料夾複製一份就搞定,妙!
不過,目前的一些資訊也只是兩位熱心市民的自助探索,到底騰訊對這一步技術操作如何解釋,我也相當好奇(吃瓜
最後,提醒各位一句,網際網路上無隱私,保護好自己,你偷偷看的東西,還有一群人在幫你分析=。=
插圖來源:帆咔嚓@FanKetchup
微信公眾號:正版喬
結論,QQ並不是特意讀取Chrome的歷史記錄的,而是會試圖讀取電腦裡所有谷歌系瀏覽器的歷史記錄並提取連結,確認會中招的瀏覽器包括但不限於Chrome、Chromium、360極速、360安全、獵豹、2345等瀏覽器。大部分的瀏覽器都會中招,QQ就這麼輕而易舉地扒掉了瀏覽器的“底褲”。 對於後面的結果我不太驚訝,我吃驚於為何手段如此簡單。 過去經常有人發出“手機竊聽說話、聊天資訊導致app推薦如此之準”的疑惑,作為一名演算法工程師,我對於推薦的精準一點都不意外,因為基於使用者的大量瀏覽記錄、留存於app上的基礎資訊和目前所在環境資訊,這些大量的使用者資訊在模型的“召回-》精排-》粗排”過後給使用者推薦出感興趣的音樂、視訊、新聞並不是一件什麼困難的事情。