HBase全網最佳學習資料彙總
大資料 監控 阿里雲 hbase HTTPS Apache http 網際網路 阿里巴巴 叢集 aliyun 物聯網 報表html 儲存
前言
HBase這幾年在國內使用的越來越廣泛,在一定規模的企業中幾乎是必備儲存引擎,網際網路企業阿里巴巴、京東、小米都有數千臺的HBase叢集,中國電信的話單、中國人壽的保單都是儲存在HBase中。注意大公司有數十個數百個HBase叢集,此點跟Hadoop叢集很不相同。另外,資料需求,很多公司是mysql+hbase+hadoop(spark),滿足關係型資料庫需求,滿足大規模結構化儲存需求,滿足複雜分析的需求。如此流行的原因來源於很多方面,如:
- 開源繁榮的生態:1. 任何公司倒閉了,開源的HBase還在 2.幾乎每家公司都可以去下載原始碼,改進她,再反饋給社群,就如阿里已經反饋了數百個patch了。加入的人越多,引擎就越好
- 跟HADOOP深度結合:本就同根同源,在資料儲存在HBase後,如果想複雜分析,則非常方便
- 高擴充套件、高容量、高效能、低成本、低延遲、稀疏寬表、動態列、TTL、多版本等最為關鍵,起源google論文,發揚社群及廣大網際網路公司,設計之初就是為儲存網際網路,後經過多年的改進升級,如今已經是結構化儲存的事實標準
以下資料會一直更新中......請大家關注!
書籍
最好買紙質書籍,集中時間看下
- HBase權威指南(HBase: The Definitive Guide):理論多一些
- HBase實戰:實踐多一些
總結性
- HBase2.0: HBase2.0 :預計今年會發布,hbase2.0是革命性的版本
- HBase Phoenix:Apache Phoenix與HBase:HBase之上SQL的過去,現在和未來
- 社群hbase部落格:https://blogs.apache.org/hbase/
方法論
- HBase使用場景和成功案例 儲存網際網路的初心不變
- 一種基於物聯網大資料的裝置資訊採集系統及方法
- 一種基於HBase的智慧電網時序大資料處理方方案:一種基於HBase的智慧電網時序大資料處理方方案
- HBase配合GeoHash演算法支援經緯度:此文主要講GeoHash演算法的
- ** 基於HBase的海量GIS資料分散式處理實踐**:設計了一種基於分散式資料庫HBase的GIS資料管理系統。系統優化了柵格資料的生成和儲存過程,將海量柵格資料直接寫入HBase儲存、索引。同時,針對向量空間資料的儲存、索引與檢索,提出了一種新的rowkey設計,既考慮經緯度,又考慮空間資料型別和屬性,使得在按空間位置檢索向量地理資訊時,能通過HBase的rowkey迅速定位需要返回的資料。在HBase的叢集環境上用真實GIS資料對上述方法進行了驗證,結果表明,提出的系統具有較高的海量資料儲存和檢索效能,實現了海量地理資訊資料的高效儲存和實時高速檢索。
- 基於HBase的金融時序資料儲存系統:金融類時序資料的儲存方案,寫的還是結合實際場景的。
各大公司的實踐
基本圍繞在使用者畫像、安全風控、訂單儲存、交通軌跡、物理網、監控、大資料中間儲存、搜尋、推薦等方面:
- 阿里巴巴-大資料時代的結構化儲存HBase在阿里的應用實踐:講述在阿里巴巴集團的實踐,HBase在阿里集團已經10000臺左右,主要在訂單、監控、風控、訊息、大資料計算等領域使用
- 阿里巴巴搜尋-Hbase在阿里巴巴搜尋中的完美應用實踐:講述在搜尋場景下hbase的應用及相關的改進
- 日均採集1200億資料點,騰訊千億級伺服器監控資料儲存實踐:本文將從當前儲存架構存在的問題出發,介紹從嘗試使用 Opentsdb 到自行設計 Hbase 儲存方案來儲存 TMP 伺服器海量監控資料的實踐歷程。
- 滴滴-HBase在滴滴出行的應用場景和最佳實踐:統計結果、報表類資料、原始事實類資料、中間結果資料、線上系統的備份資料的一些應用
- HBase上搭建廣告實時資料處理平臺]:主要分享 1. 如何通過HBase實現資料流實時關聯 2. 如何保證重要的計費資料不重不丟 3. HBase實戰經驗,優化負載均衡、讀寫快取、批量讀寫等效能問題
- HBase在京東的實踐 :跟阿里一樣,京東各個業務線使用了HBase,如:風控、訂單、商品評價等
- 中國人壽基於HBase的企業級大資料平臺:使用一個大跨表儲存所有的保單,HBase寬表的實踐
- HBase在Hulu的使用和實踐:使用者畫像、訂單儲存系統、日誌儲存系統的使用
- Apache HBase at Netease:在報表、監控、日誌類業務、訊息類業務、推薦類業務、風控類業務有所使用,另外講述了一些優化的點。
- 10 Million Smart Meter Data with Apache HBase:講述Hitachi為什麼選擇hbase及在HBase方面的應用
- G7:如何用雲端計算連結30萬車輛--EMR&Hbase 在物聯網領域的實踐及解決方案 講述了怎麼使用spark及hbase來滿足物聯網的需求
HBase資料庫
- HBase:https://pan.baidu.com/s/1jILzgns
- 知乎HBase討論:https://www.zhihu.com/topic/19600820/hot
- hbase-help:http://hbase-help.com/
- csdn HBase資料庫:http://lib.csdn.net/hbase/node/734
結尾
這些資料是筆者整理,以供有大規模結構化需求的使用者及HBase愛好者學習交流,以使用HBase更好的解決實際的問題。
交流群
如果大家對HBase有興趣,致力於使用HBase解決實際的問題,歡迎加入阿里雲Hbase技術交流群交流.
前言
HBase這幾年在國內使用的越來越廣泛,在一定規模的企業中幾乎是必備儲存引擎,網際網路企業阿里巴巴、京東、小米都有數千臺的HBase叢集,中國電信的話單、中國人壽的保單都是儲存在HBase中。注意大公司有數十個數百個HBase叢集,此點跟Hadoop叢集很不相同。另外,資料需求,很多公司是mysql+hbase+hadoop(spark),滿足關係型資料庫需求,滿足大規模結構化儲存需求,滿足複雜分析的需求。如此流行的原因來源於很多方面,如:
- 開源繁榮的生態:1. 任何公司倒閉了,開源的HBase還在 2.幾乎每家公司都可以去下載原始碼,改進她,再反饋給社群,就如阿里已經反饋了數百個patch了。加入的人越多,引擎就越好
- 跟HADOOP深度結合:本就同根同源,在資料儲存在HBase後,如果想複雜分析,則非常方便
- 高擴充套件、高容量、高效能、低成本、低延遲、稀疏寬表、動態列、TTL、多版本等最為關鍵,起源google論文,發揚社群及廣大網際網路公司,設計之初就是為儲存網際網路,後經過多年的改進升級,如今已經是結構化儲存的事實標準
以下資料會一直更新中......請大家關注!
書籍
最好買紙質書籍,集中時間看下
- HBase權威指南(HBase: The Definitive Guide):理論多一些
- HBase實戰:實踐多一些
總結性
- HBase2.0: HBase2.0 :預計今年會發布,hbase2.0是革命性的版本
- HBase Phoenix:Apache Phoenix與HBase:HBase之上SQL的過去,現在和未來
- 社群hbase部落格:https://blogs.apache.org/hbase/
方法論
- HBase使用場景和成功案例 儲存網際網路的初心不變
- 一種基於物聯網大資料的裝置資訊採集系統及方法:怎麼使用HBase、sparkStreaming、redis處理物聯網大資料
- 一種基於HBase的智慧電網時序大資料處理方方案:一種基於HBase的智慧電網時序大資料處理方方案
- HBase配合GeoHash演算法支援經緯度:此文主要講GeoHash演算法的
- ** 基於HBase的海量GIS資料分散式處理實踐**:設計了一種基於分散式資料庫HBase的GIS資料管理系統。系統優化了柵格資料的生成和儲存過程,將海量柵格資料直接寫入HBase儲存、索引。同時,針對向量空間資料的儲存、索引與檢索,提出了一種新的rowkey設計,既考慮經緯度,又考慮空間資料型別和屬性,使得在按空間位置檢索向量地理資訊時,能通過HBase的rowkey迅速定位需要返回的資料。在HBase的叢集環境上用真實GIS資料對上述方法進行了驗證,結果表明,提出的系統具有較高的海量資料儲存和檢索效能,實現了海量地理資訊資料的高效儲存和實時高速檢索。
- 基於HBase的金融時序資料儲存系統:金融類時序資料的儲存方案,寫的還是結合實際場景的。
各大公司的實踐
基本圍繞在使用者畫像、安全風控、訂單儲存、交通軌跡、物理網、監控、大資料中間儲存、搜尋、推薦等方面:
- 阿里巴巴-大資料時代的結構化儲存HBase在阿里的應用實踐:講述在阿里巴巴集團的實踐,HBase在阿里集團已經10000臺左右,主要在訂單、監控、風控、訊息、大資料計算等領域使用
- 阿里巴巴搜尋-Hbase在阿里巴巴搜尋中的完美應用實踐:講述在搜尋場景下hbase的應用及相關的改進
- 日均採集1200億資料點,騰訊千億級伺服器監控資料儲存實踐:本文將從當前儲存架構存在的問題出發,介紹從嘗試使用 Opentsdb 到自行設計 Hbase 儲存方案來儲存 TMP 伺服器海量監控資料的實踐歷程。
- 滴滴-HBase在滴滴出行的應用場景和最佳實踐:統計結果、報表類資料、原始事實類資料、中間結果資料、線上系統的備份資料的一些應用
- HBase上搭建廣告實時資料處理平臺]:主要分享 1. 如何通過HBase實現資料流實時關聯 2. 如何保證重要的計費資料不重不丟 3. HBase實戰經驗,優化負載均衡、讀寫快取、批量讀寫等效能問題
- HBase在京東的實踐 :跟阿里一樣,京東各個業務線使用了HBase,如:風控、訂單、商品評價等
- 中國人壽基於HBase的企業級大資料平臺:使用一個大跨表儲存所有的保單,HBase寬表的實踐
- HBase在Hulu的使用和實踐:使用者畫像、訂單儲存系統、日誌儲存系統的使用
- Apache HBase at Netease:在報表、監控、日誌類業務、訊息類業務、推薦類業務、風控類業務有所使用,另外講述了一些優化的點。
- 10 Million Smart Meter Data with Apache HBase:講述Hitachi為什麼選擇hbase及在HBase方面的應用
- G7:如何用雲端計算連結30萬車輛--EMR&Hbase 在物聯網領域的實踐及解決方案 講述了怎麼使用spark及hbase來滿足物聯網的需求
HBase資料庫
- HBase:https://pan.baidu.com/s/1jILzgns
- 知乎HBase討論:https://www.zhihu.com/topic/19600820/hot
- hbase-help:http://hbase-help.com/
- csdn HBase資料庫:http://lib.csdn.net/hbase/node/734
結尾
這些資料是筆者整理,以供有大規模結構化需求的使用者及HBase愛好者學習交流,以使用HBase更好的解決實際的問題。
交流群
如果大家對HBase有興趣,致力於使用HBase解決實際的問題,歡迎加入阿里雲Hbase技術交流群交流.