streaming流式讀取hdfs採坑記

阿新 • • 發佈：2018-12-14

package rockerMQ


import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext, sql}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * @Auther: sss
  * @Date: 2018/11/26 10:05
  * @Description:Streaming接收hdfsDemo
  */
object Demo02 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val ssc = new StreamingContext(conf, Seconds(5))
    val session = SparkSession.builder().config(conf).getOrCreate()
    import session.implicits._
    val value = ssc.textFileStream("hdfs://192.168.xx.xx:9000/tmp/cxbtest")

    value.foreachRDD(rdd => {
     val df= rdd.map(row => {
        val name = row.split(" ", row.length)(0)
        val name1 = row.split(" ", row.length)(1)
        val name2 = row.split(" ", row.length)(2)
        Test(name, name1, name2)
      }).toDF()
      df.createOrReplaceTempView("tmp")
      session.sql("select name,name1,name2 from tmp where name='a' ").show()
    })

    ssc.start()
    ssc.awaitTermination()
  }
}

case class Test(name: String, name1: String, name2: String)

程式碼如上，自己測試寫的

發現流式讀取hdfs有個大坑，公司是用rocketMQ作為訊息中介軟體，實時將資料接到hdfs上，因為不會

用sparkStreaming整合mq，就用這種方式來接，發現死活接收不到hdfs的流資料，自己在hdfs上建立目錄然後再往裡面上傳文字發現程式碼是好使的，最後猜想原因是

自己往hdfs上傳的檔案或是文字都是幾KB，而hdfs接收mq的資料都是幾GB為一個文字，感覺流式讀取hdfs是以

一個個文字為讀取的批次？？不是沒有讀到文字，而是一個文字形成的時間太久了，hdfs還沒形成一個文字，我這邊就給kill了

streaming流式讀取hdfs採坑記

package rockerMQ import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext, sql} import org.apache.spark.streaming.{

按照當前日期的前一小時讀取hdfs採坑記 Calendar.HOUR_OF_DAY

只讀到23點的資料讀不到00點看程式碼發現是這裡寫錯了 //獲取前一個小時 24小時制Calendar.HOUR_OF_DAY def getFrontHour(): String = { var dateFormat: SimpleDateForma

spark流式讀取hdfs中資料

名詞解釋： spark streaming：定義：一個對實時資料進行高容通量、容錯處理的流式處理系統，可以對多種資料來源進行Map、reduce和join等複雜操作，並將結果儲存到外部檔案系統、

使用spreadsheet-reader流式讀取超大excel文件

array ring input 生成 wps fine ads emp 報錯 github：https://github.com/nuovo/spreadsheet-reader 最近有一個讀取超大excel文件的功能需求，使用的phpexcel，有嚴重的內存泄露問題，暫

leetcode add_binary 採坑記

儘管add_binary在leetcode中是一個簡單難度，但是踩了不少坑，記錄一下描述：給兩個字串形式的二進位制數，要求求和並輸出字串形式的結果，其中a和b均不為空字串樣例： a=“1010”，b="1011"，輸出“10101”. 過程：剛看到題目的時候覺得很簡單，只要

jdbc百萬資料批量匯入，流式讀取

Connection connReader = null; Connection connWrite = null; String url = "jdbc:mysql://XX:3306/XX?" + "user=XX&password=XX&

mpvue採坑記——專案搭建

專案搭建簡介 1、安裝node 2、配置npm源為淘寶映象 3、全域性安裝 vue-cli 4、建立一個基於 mpvue-quickstart 模板的新專案 5、安裝依賴 6、啟動構建

springboot結合jsp採坑記

網上找了一圈都沒有解決自己的問題 Whitelabel Error Page This application has no explicit mapping for /error, so you are seeing this as a fallback. Wed Nov 21 16:

小程式採坑記 mpvue + Vant Weapp

最新在做一個小程式專案，框架使用的是：mpvue + Vant Weapp；其餘還用的技術棧：vue.js、微信小程式、網路庫flyio等。 mpvue是美團開源的微信小程式框架，由於無限接近vue開發而受到大量關注； Vant Weapp UI庫是輕量、可靠的小程式 UI 元件庫，是

github 採坑記 —— 專案提交到github後部分檔案缺失

在使用git push到GitHub上後，發現部分檔案缺失,如下圖所示：可以看到dist資料夾為執行 npm run build 之後打包生成的檔案，node_modules 檔案也是缺失的導致檔案沒有提交的原因是在專案根目錄下有個檔案：開啟檔案：可以看

Service worker (@nuxtjs/workbox) 採坑記

PWA（Progressive Web App）是前端的大趨勢，它能極大的加快前端頁面的載入速度，得到近乎原生 app 的展示效果（其實難說）。PWA 其實是多種前端技術的組合，其中最重要的一個技術就是 service worker。 Service worker

ionic cordova-plugin-pingapp採坑記

需求：ionic3專案使用p++對接支付寶，微信支付。 1.安裝h5sdk，實現wap支付安裝：npm install pingpp-js 使用語法：宣告：public pingpp=require('pingpp-js'); 支付：this.pingpp.cre

ionic專案升級環境採坑記（1）

為了專案需要，升級環境，npm更新完成之後。ionic serve執行報錯： Property 'toPromise' does not exist on type 'Observable<Response>'. 重新整理之後報錯： webpackJsonp is no

阿里雲深度學習採坑記

原因打算研究下AI，以便不那麼落後於這個時代，但是看了看，搞一個能支援AI演算法的顯示卡就要天文數字。所以找到了阿里雲的PAI平臺，打算跑跑自己寫的演算法，採坑無數，搞了兩天才搞定。基本流程踩過的坑（需要注意事項）資料檔案自己寫的python程式碼本身讀取資料和儲存模型都在本地，可能做了硬編碼，如

小程式採坑記（四） picker元件

從底部彈起的滾動選擇器，現支援五種選擇器，通過mode來區分，分別是普通選擇器，多列選擇器，時間選擇器，日期選擇器，省市區選擇器，預設是普通選擇器。普通選擇器：mode = selector 後臺給我返回的是一個數組物件，我需要的range資料是這個陣列物

小程式採坑記（五）動態改變資料

專案當時有個需求是，在詳情頁面點選關注，要把關注的內容傳給首頁顯示出來，開始的時候，我以為是把資料傳給後臺，顯示關注成功就可以了，這樣只能實現頁面重新整理時，可以在首頁顯示關注的內容，但是需求不是這樣的，是要在點選了關注後，返回首頁時就顯示出來，沒有重新整理，也

Restlet流式讀取遠端檔案內容 InputRepresentation

OneCoder驗證用Restlet做服務，讀取遠端檔案內容功能，編寫驗證程式碼。目前測試通過，主要是利用restlet內部提供的InputRepresentation物件，通過ReadableByteChannel，按位元組流的方式讀取檔案

https信任庫採坑記

最近在客戶現場遇到一個棘手的http問題，現象很直接，訪問某https的時候報錯： javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated at sun.security.ssl.SSLSessionImpl.

Taro小程式採坑記

小編推薦：Fundebug專注於JavaScript、微信小程式、微信小遊戲，Node.js和Java實時BUG監控。真的是一個很好用的bug監控費服務，眾多大佬公司都在使用。 Taro，京東凹凸實驗室出品的適配多端的一個框架，Taro 是一套遵循 React 語法規範的多端開發

pomelo使用採坑記(學習使用部署相關)

pomelo推送方式 pomelo和客戶端保持長連結，推送可以根據頻道推送或者根據使用者連線的伺服器推送頻道推送建立頻道 let channel = this.app.get('channelService').getChannel(channelNa

streaming流式讀取hdfs採坑記

相關推薦