1. 程式人生 > >hadoop應用場景

hadoop應用場景

本地 計算 本地緩存 Lucene 智能 場景 搜索 學習 基於

    • 大數據量存儲:分布式存儲
    • 日誌處理: Hadoop擅長這個
    • 海量計算: 並行計算
    • ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
    • 使用HBase做數據分析: 用擴展性應對大量的寫操作—Facebook構建了基於HBase的實時數據分析系統
    • 機器學習: 比如Apache Mahout項目
    • 搜索引擎:hadoop + lucene實現
    • 數據挖掘:目前比較流行的廣告推薦
    • 大量地從文件中順序讀。HDFS對順序讀進行了優化,代價是對於隨機的訪問負載較高。
    • 數據支持一次寫入,多次讀取。對於已經形成的數據的更新不支持。
    • 數據不進行本地緩存(文件很大,且順序讀沒有局部性)
    • 任何一臺服務器都有可能失效,需要通過大量的數據復制使得性能不會受到大的影響。
    • 用戶細分特征建模
    • 個性化廣告推薦
    • 智能儀器推薦

hadoop應用場景