2018.11.10計算未來輕沙龍——聽九個清華大神聊大資料
昨天,很榮幸參加了PaperWeekly和清華大學聯合舉辦的“大規模資料儲存與挖掘”系列講座,彙報人是九個清華大學的研究生,從硬體加速、字串查詢、推薦系統、視覺化等幾個方面介紹了自己的工作。收穫很大,現將講座內容做簡單整理,分享給大家,也留待自己回顧。只記錄了自己感興趣的內容,全部內容和PPT請移步PaperWeekly查閱。
張凱:軟體定義儲存
目前CPU發展緩慢,但儲存技術發展較快。硬體追求persistant memory,軟體追求降低其自身開銷。隨著硬體技術的飛速發展,軟體的開銷成為儲存技術的主要掣肘。
B+樹是為磁碟或其他直接存取輔助裝置而設計的一種平衡查詢樹,在B+樹中,所有記錄節點都是按鍵值的大小順序存放在同一層的葉節點中,各葉節點指標進行連線。我的理解是,B+樹可用於查詢磁碟故障。
可用機器學習演算法代替B+樹,預測磁碟故障。如果預測出某段時間之後磁碟可能故障,那麼久提前將資料進行備份。其目的是預測故障的總體趨勢,而非波峰或波谷。
李開宇:眾包資料庫中基於rating-ranking的Top-k查詢
rating即給目標實體打分,ranking即給目標實體排序。如果給出若干個實體,如何基於眾包技術(讓好多人進行評判,然後綜合所有人的意見給出結論)對其進行打分或排序是要解決的問題。問題的解決分為以下幾個步驟:
1. 資料獲取。首先可以通過爬蟲等技術得到若干打分或排序,或者在網路上進行提問,讓使用者進行反饋。然而,眾包是需要花錢的,如何通過提問最少的問題分析出自己想要的答案是一個需要研究的問題。
2. 去噪。有些人的回答可能不可靠。比如對某部電影評分,他因為不喜歡其中某個演員而打了低分,但這並不能反映電影的真實水平。所以要通過去噪來對資料進行預處理。
3. 分佈預測。可以通過對得分的統計得到得分的分佈情況。我們希望知道其最可能服從哪種分佈。
在rating task中,人對實體的打分可構成一個分佈。我們可以考慮人的可信度,為每個打分賦予權重。
在ranking task中,不同的人可能給實體集合以不同的ranking。這時候可以用逆序數給出一個最終的參考排序:若某個排列與所有人給出排列的逆序數之和最小,那麼就將這個排列作為最終的排列。
權重等未知引數可通過梯度下降法進行求解。
李秀星:資料庫中的字串查詢
利用樹形查詢結構進行查詢。將低頻標籤放在前面,高頻標籤放在後面。查詢時優先匹配低頻詞,這樣能更快匹配到對應目標。
可以先對所有資料進行聚類(作者用的是kmeans++),聚類後的資料有中心點。這樣查詢時先與聚類中心比較,然後再查詢最為匹配的那個聚類中心下屬的個體。
袁海濤:基於大資料的出行軌跡分析
(這時候已經開始有點走神了……)
評估兩個軌跡的相似度。相似度有兩種定義方式:
1. 基於取樣點匹配的軌跡相似度
2. 基於路段交集的軌跡相似度
孫佶:分散式字串查詢系統
問題1:實體匹配。判斷兩個實體是否為同一實體。實際上是字串匹配問題。這個問題是NP難的。
問題2:查詢推薦問題。
目前常用的字串相似性度量主要有以下幾種:
1. 餘弦距離。兩個字串向量的餘弦。
2. 歐氏距離。兩個字串向量的歐氏距離。
3. 編輯距離。字串1轉化成字串2所需要的最少編輯次數。編輯指的是修改字元。
4. Jaccard距離。1-兩字串的交集/兩字串的並集。
字串近似查詢時,返回與查詢字串相似性大於閾值的字串。(作者用的是Jaccard距離)
駱昱宇:DeepEye-資料視覺化
傳統視覺化方法:載入資料集-手動選擇列-資料轉化-視覺化。
怎樣融合人類認知進行資料視覺化?
1. 給定一個視覺化怎樣判斷好壞?
利用分類器進行判別。
2. 給出若干個視覺化結果,怎樣判斷哪個更好?
基於偏序關係的視覺化排序。
根據列的重要性、轉化質量等給每個視覺化圖賦予一組引數(圖的向量化)。若某個圖a的所有引數都大於另一個圖b,那麼a,b滿足偏序關係a>b。
利用機器學習演算法和偏序關係綜合排序,可以得到較現有方法更好的結果。
秦雪迪:基於關鍵字搜尋的資料視覺化
根據圖之間的關聯構造有向圖。將每個圖看作一個節點,圖之間的關係看作連邊(相似關係是雙向邊,還有覆蓋關係等),並根據不同關係賦予邊權重。然後用PageRank演算法計算出最重要的圖節點作為最佳視覺化結果。
劉寧:基於醫療大資料的死亡預測
MetaMap3D可以挖掘文字中的concepts,做相當於entity linking的工作。
冉晨偉:基於因子圖的微博實體連結
實體連結即將文字中的實體連結到知識圖譜中的實體。一般都是長文字中的實體連結。然而,微博中的文字上下文少,噪音大,更新快,比較難處理。
作者提出用因子圖模型進行實體連結,並結合注意力機制進行操作。得到了很好的結果。
總結:
聽講座的時候正好是下午,比較困,好多idea沒有仔細聽,不過還是有挺多收穫的。利用逆序數整合不同使用者ranking,得到標準ranking的演算法可以用於知識圖譜中重要概念標準的生成;基於偏序關係的重要圖選取可以進行擴充套件,應用於其他領域中的重要個體選取問題;將圖與圖之間的關係轉化成複雜網路,並利用PageRank演算法評估重要節點的方法也可以拿來借鑑,進行重要個體的選取。有時候經典演算法的恰當利用也會產生比較好的效果,所以自己那些奇奇怪怪的想法貌似也合情合理了。
順便立個flag,最近有個自認為不錯的想法,希望下週能實現一下,萬一成功了呢?