1. 程式人生 > >Hadoop綜合大作業

Hadoop綜合大作業

分享圖片 遇到 oop hive 適合 打開 技術 下載 src

1.1.用Hive對爬蟲大作業產生的文本文件(或者英文詞頻統計下載的英文長篇小說)詞頻統計。

因為大數據爬出來的數據不太適合進行詞頻統計,所以我換了一篇簡易的英文文章,其次因為英文長篇小說實在是太長,詞頻統計出來截圖截不完。

技術分享圖片技術分享圖片技術分享圖片技術分享圖片技術分享圖片技術分享圖片技術分享圖片技術分享圖片

2.用Hive對爬蟲大作業產生的csv文件進行數據分析,寫一篇博客描述你的分析過程和分析結果。

在做的過程中遇到個問題,因為用python導出來的csv有亂碼,我是先嘗試用xsxl文件格式導出然後再轉到csv,在Excel裏無亂碼,但用txt打開的話好像是亂碼。其次是我優化了一下導出來的數據,便於嘗試用來進行數據分析。

Hadoop綜合大作業