1. 程式人生 > >spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

為了學習,從網上搞到了SogouQ1.txt,執行到rdd3.count()顯示了一堆亂碼懷疑編碼不對,使用em轉成utf-8ok了

結果再執行rdd3.count(),又提示等等

Caused by: java.lang.NumberFormatException: For input string: "什麼是OSI參考模型?各層的主要功能是什麼?]"   at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)   at java.lang.Integer.parseInt(Integer.java:580) 看了看val rdd3=rdd2.filter(_(3).toInt==1).filter(_(4).toInt==2)程式碼的含義,感覺是取第四個第五個列進行排名的比較

結果取得是第三列的搜尋內容,找到這幾行一看,我靠有\t再次啟用em正則替換

表示式如下:(\[[^\[\]]*)\t([^\[\]]*\])  替換成    \1\2即可

處理好的檔案已經上傳,請自己下載