1. 程式人生 > 資訊 >資料庫頂會 VLDB 2021 大獎頒佈,華人學者囊括三項榮譽

資料庫頂會 VLDB 2021 大獎頒佈,華人學者囊括三項榮譽

8 月 19 日訊息當地時間 8 月 16 至 20 日,第 47 屆 VLDB 2021 會議在丹麥哥本哈根召開

VLDB 會議全稱 International Conference on Very Large Date Bases,是資料庫領域的頂級學術會議和另外兩大資料庫會議 SIGMOD、ICD 共同構成了資料庫領域的三大頂級會議。

按照慣例,今年 VLDB 會議開設了最佳研究論文獎、最佳 EA&B 論文獎(實驗、分析和基準)、最佳可擴充套件資料科學論文獎、最佳工業論文獎等多個獎項。此前華人學者便在此領域一騎絕塵,今年也不例外!

大會共收錄了 216 篇 Research Paper、23 篇 Industry Paper、56 篇 Demo Paper ,其中入選的最佳研究論文、最佳 EA&B 論文、最佳工業論文的一作作者均為華人學者

,他們分別是新加坡國立大學研究員楊任馳、西蒙弗雷澤大學博士生 Xiaoying Wang、加州大學伯克利分校博士生 Audrey Chen。

AI 科技評論將獲獎華人學者及論文資訊介紹如下:

最佳研究論文獎

獲獎論文《Scaling Attributed Network Embedding to Massive Graphs》

論文作者:Renchi Yang,Jieming Shi,Xiaokui Xiao,Yin Yang,Juncheng Liu,Sourav S. Bhowmick

本篇論文一作楊任馳,目前是新加坡國立大學研究員。他在 2015 年獲得北京郵電大學工學學士學位;2020 年獲得南洋理工大學計算機科學系博士學位,師從 Xiaokui XIAO 教授和 Sourav Saha Bhowmick。主要研究大規模資料管理與分析,對圖挖掘、海量高維資料設計、高效演算法感興趣。

個人主頁:點選開啟

論文地址:點選開啟

論文摘要:

要想獲得準確預測的屬性網路嵌入( Attributed Network Embedding,ANE)是一項很有挑戰性的工作,而將有效的 ANE 計算擴充套件到包含數百萬節點的海量圖上,又將其難度推到了一個新高度。現有的解決方案在這種圖上基本上會失敗,或造成過高的成本、低質量的嵌入,或兩者兼而有之。

本文提出了一種有效的、可擴充套件的計算海量圖的 PANE 方法,其在多個基準資料集上達到了最高效能水平,其衡量標準包括屬性推斷、連結預測和節點分類三種常見的預測任務的準確度。特別是,對於擁有超過 5900 萬個節點、9.8 億條邊和 2000 個屬性的大型 MAG 資料,PANE 是唯一已知的可行的解決方案,它可以 12 小時內在單個伺服器上獲得有效的嵌入。

PANE 通過三種主要演算法的設計實現了高擴充套件性和有效性。首先,基於一種新的屬性隨機遊走(random walk)模型,提出了學習目標,而在處理大型圖優化任務上,仍然具有挑戰性。其次,PANE 為解決優化問題提供了一個高效求解器,其關鍵模組在於精心設計的嵌入初始化,它大大減少了收斂所需的迭代次數。最後,PANE 通過對上述求解器的非線性並行化利用多核 CPU,從而實現了可擴充套件性,同時保留了高質量的嵌入結果。通過廣泛的實驗,在 8 個真實資料集上比較了 10 種現有的方法,證明了 PANE 在結果質量方面優於所有現有方法,同時速度要快幾個數量級。

最佳 EA&B 論文獎(實驗、分析和基準)

獲獎論文:《Are We Ready For Learned Cardinality Estimation?》

論文作者:Xiaoying Wang, Changbo Qu, Weiyuan Wu, Jiannan Wang, Qingqing Zhou

本篇論文一作 Xiaoying Wang,目前是西蒙弗雷澤大學資料庫系統實驗室的博士生,師從王健楠教授。2016 年 7 月至 2018 年 4 月,她在奇虎 360 擔任 AdExchange 的 C++ 開發人員。

個人主頁:點選開啟

論文地址:點選開啟

論文摘要:

基數估計 (Cardinality Estimation) 是查詢優化中長期未解決的基本問題。最近不同研究小組的多篇論文一致指出,基於學習的模型有可能取代現有的基數估計器。對此,我們提出了一個具有前瞻性的問題:基於學習模型的基數估計方法是否已經可以應用於真實的資料庫產品中?本文的研究包括三個主要部分:一是專注於靜態環境(即無資料更新的資料庫系統),在統一的工作負載設定下,比較不同的學習的方法和傳統方法在四個真實資料集上的表現,結果表明,基於學習的方法比傳統方法更精確,但需要更高的訓練成本和推理成本。二是基於學習的方法是否可用於動態環境(即頻繁更新的資料庫系統)。實驗證明,它們無法跟上快速更新的資料變化,並很可能引起較大的誤差。第三,通過深

入地研究基於學習的方法可能出錯的幾種情況。我們發現,相關性、分配或領域大小的變化會極大地影響該方法的效能。更重要的是,這些方法的行為通常很難解釋和預測。基於以上發現,我們確定了未來應該進一步研究的兩個方向,即如何降低學習模型的成本,以及提升模型的可信性。希望這項工作能夠指導研究人員和從業人員共同合作,將基於學習到的基數估計器應用到真正的資料庫系統中。

最佳可擴充套件資料科學論文獎

獲獎論文:《Optimizing Bipartite Matching in Real-World Applications by Incremental Cost Computation》

論文作者:Tenindra Abeywickrama, Victor Liang,Kian-Lee Tan

論文地址:點選開啟

論文摘要:

Kuhn-Munkres (KM) 演算法是一種經典的組合優化演算法,在交通等諸多應用場景中被廣泛用於最小成本的二部( bipartite)匹配。例如,網約車服務可以用它來匹配司機和乘客,以儘可能地縮短等待時間。通常情況下,給定的兩個二部集合,需要計算所有二部對之間邊的成本並找到最優匹配。然而,現有研究忽略了邊成本計算對整體執行時間的影響。實際上,邊計算會大大超過最優分配本身的計算,例如在為乘客匹配司機時,最短路徑往往需要很高的計算成本。根據這一觀察,我們發現,常見的現實世界的設定表現出一個有用的特性,即允許我們僅在需要時使用最低的下限啟發式增量計算邊成本。與原始 KM 演算法相比,這種技術顯著降低了分配的總體成本,這一點我們已經在多個真實資料集、工作負載上得到了驗證。此外,該演算法並不限於這個領域,它還可能適用於其他有下限啟發式演算法的環境。

最佳工業論文獎

獲獎論文:《RAMP-TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store》

論文作者:Audrey Cheng,Xiao Shi,Lu Pan,Anthony Simpson,Neil Wheaton,Shilpa Lawande,Natacha Crooks,Ion Stoica

論文一作 Audrey Cheng 目前是加州大學伯克利分校電腦科學專業在讀博士生,RISELAB 成員,師從 Ion Stoica 教授和 Natacha Crooks 教授,曾獲得伯克利校長獎學金,對資料庫與分散式系統感興趣。

個人主頁:點選開啟

論文地址:點選開啟

論文摘要:

與其他分散式資料儲存一樣,Facebook 社交圖譜 TAO 會優先考慮可用性、效率和可擴充套件性等因素,而不是滿足大型、可讀性強的工作負載所需要的一致性或保密性。隨著產品開發人員在此係統上構建不同的應用程式,他們開始更多地關注業務語義。然而,為選定的應用程式提供高階功能,同時保持系統整體的可靠性和效能一直是一項挑戰。在本文中,我們首先描述了開發者多年來的業務需求,以及目前 TAO 出現的原子級錯誤(即寫),以此探討了如何引入一個直觀的讀取業務 API。我們通過對潛在異常的測量研究,強調了 API 原子級可見性的必要性,這些異常通常在沒有強讀取隔離的情況下發生。我們的分析表明,1500 次批量讀取中有 1 次反映部分業務性更新,這可能使開發人員體驗變得複雜化,併產生意外的結果。為了緩解這個問題,我們提出了 RAMP-TAO 協議,這是一個基於讀取原子級多分割槽(RAMP)協議的變體,支援最小開銷的部署,同時確保大規模讀取優化工作負載的原子級可見性。