1. 程式人生 > >Spark Streaming 輸入DStream之基礎資料來源HDFS檔案

Spark Streaming 輸入DStream之基礎資料來源HDFS檔案

  1. Socket:之前的wordcount例子,已經演示過了,StreamingContext.socketTextStream()
  2. HDFS檔案

    基於HDFS檔案的實時計算,其實就是,監控一個HDFS目錄,只要其中有新檔案出現,就實時處理。相當於處理實時的檔案流。     Spark Streaming會監視指定的HDFS目錄,並且處理出現在目錄中的檔案。要注意的是,所有放入HDFS目錄中的檔案,都必須有相同的格式;必須使用移動或者重新命名的方式,將檔案移入目錄;一旦處理之後,檔案的內容即使改變,也不會再處理了;基於HDFS檔案的資料來源是沒有Receiver的,因此不會佔用一個cpu core。