1. 程式人生 > >Hadoop可以用來做什麼?

Hadoop可以用來做什麼?

在資料為王的時代,資料探勘能力已經成為衡量企業競爭力的重要指標之一。如何利用好通用大資料平臺Hadoop,如何選擇一款合適企業業務的Hadoop發行版也毫無疑問成為了企業的必備技能。在這個成本高昂的探索過程中,大資料行業內各個領域無疑成為了各個機構一個重要的認知和學習途徑。

What Is Apache Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Hadoop可以解決的問題:
海量資料的儲存(HDFS:Hadoop Distributed File System)
(HDFS就是Hadoop分散式儲存系統)
海量的資料分析(MapReduce)
(MapReduce就是分散式計算模型)

Hadoop作者受Google三篇論文的啟發(GFS、MapReduce、BigTable)

Hadoop擅長日誌分析,Facebook就是用Hive來進行日誌分析,2009年時Facebook就有非程式設計人員的30%的人來使用HiveQLib進行資料Fenix;淘寶搜尋中的自定義篩選也使用的Hive;利用Pig還可以做高階的資料處理,包括
Twitter、Linkedln上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果,淘寶的商品推薦也是!在Yahoo的40%的Hadoop作業還是用pig執行的,包括垃圾郵件的識別和過濾,還有使用者特徵建模。
2012年8月25日更新的天貓推薦系統使用的是hive,少量使用mahout。但是現在淘寶的推薦系統都是storm來實現實時推薦。

Hadoop的部署方式分為3種:
第一種:本地模式,本地模式可以在使用eclipse除錯的時候使用,只起一個Map一個Reduce。

第二種:偽分散式,通過一臺機器模擬生產環境進行測試,看能否完成基本邏輯和功能。

第三種:叢集模式,是真正的生產環境,有成百上千臺的機器。