大數據基礎之詞頻統計Word Count

阿新 • • 發佈：2018-12-13

als spark 級別 NPU share block 內容 atm world

對文件進行詞頻統計，是一個大數據領域的hello word級別的應用，來看下實現有多簡單：

1 Linux單機處理

egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10

2 Spark分布式處理（Scala優雅簡潔）

val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false 
).take(10).foreach(println)

3 Hadoop示例

hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output

附：測試文件test_word.log內容如下：

hello world
hello www

輸出如下：

2 hello
1 world
1 www

大數據基礎之詞頻統計Word Count

als spark 級別 NPU share block 內容 atm world 對文件進行詞頻統計，是一個大數據領域的hello word級別的應用，來看下實現有多簡單： 1 Linux單機處理 egrep -o "\b[[:alpha:]]+\b" test_wor

大資料基礎之詞頻統計Word Count

對檔案進行詞頻統計，是一個大資料領域的hello word級別的應用，來看下實現有多簡單： 1 Linux單機處理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分散式處理（Sca

大數據基礎之Oozie（2）常見問題

lns odi dir 大數據基礎 dep rect false tar cat 1 oozie如何查看任務日誌？通過oozie job id可以查看流程詳細信息，命令如下： oozie job -info 0012077-180830142722522-oozie-ha

大數據基礎之ORC（1）簡介

ups fields with including seve cor val posit record https://orc.apache.org Optimized Row Columnar (ORC) file 層次結構： file -> stripes

分分鐘理解大數據基礎之Spark

概念 rap http oss 結果文件 yar 客戶 mapreduce 一背景 Spark 是 2010 年由 UC Berkeley AMPLab 開源的一款基於內存的分布式計算框架，2013 年被Apache 基金會接管，是當前大數據領域最為活躍的開源項目之一

大數據基礎之如何導出jar包並放在hdfs上執行

img 基本 ces 環境大數據基礎 process pro java oop 我口才不好，文字描述也不行，但是基本邏輯是通的。導出jar包1.首先完成mapper和reducer還有main方法的編碼2。右鍵點擊peopleinfo的包，選擇export-》Java-

【原創】大數據基礎之Spark（4）RDD原理及代碼解析

sso 數據 queue running upd parallel input gettime side 一簡介 spark核心是RDD，官方文檔地址：https://spark.apache.org/docs/latest/rdd-programming-guide.h

【原創】大數據基礎之Spark（7）spark讀取文件split過程（即RDD分區數量）

ali ces ORC row mapreduce 獲取 sse repo 大致 spark 2.1.1 spark初始化rdd的時候，需要讀取文件，通常是hdfs文件，在讀文件的時候可以指定最小partition數量，這裏只是建議的數量，實際可能比這個要大（比如文件特別多

【原創】大數據基礎之Kudu（1）簡介、安裝

變化決策 leader 通用修改 amp use case 容錯性 stream kudu 1.7 官方：https://kudu.apache.org/ 一簡介 kudu有很多概念，有分布式文件系統（HDFS），有一致性算法（Zookeeper），有Table

【原創】大數據基礎之Mesos（1）簡介、安裝、使用

物理 variable 服務器集群 ast 過程 ould task pos 編譯 Mesos 1.7.1 官方：http://mesos.apache.org/ 一簡介 Program against your datacenter like it’s a sin

【原創】大數據基礎之集群搭建

centos7 ini redis ril ystemd use ive ges env Cluster Platform redhat/centos7, docker, mesos, cloudera manager(cdh) Checklist 1 check u

【原創】大數據基礎之Spark（9）spark部署方式yarn/mesos

cli 原創 container 大數據 per containe ber exe 調整 1 下載 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spar

【原創】大數據基礎之Benchmark（4）TPC-DS測試結果（hive spark impala）

內存 1.5 測試數據大數據基礎 .com cpu mas exe apr 1 測試集群內存：256GCPU：32Core （Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz）Disk（系統盤）：300GDisk（數據盤）：1.5T*

【原創】大數據基礎之Presto（1）簡介、安裝、使用

epo embedded mach img ans 公司 mkdir redis running presto 0.217 官方：http://prestodb.github.io/ 一簡介 Presto is an open source distrib

【原創】大數據基礎之ElasticSearch（5）重要配置及調優

acc del refresh part closed efault end read_only bsp Index Settings 重要索引配置 Index level settings can be set per-index. Settings may be:

【原創】大數據基礎之Logstash（4）高可用

htm 無法 sep fsync sage tin www cert upd logstash高可用體現為不丟數據（前提為服務器短時間內不可用後可恢復比如重啟服務器或重啟進程），具體有兩個方面：進程重啟（服務器重啟）事件消息處理失敗在logstash中對

Spark快速大數據分析之RDD基礎

數學 ref 內存相關應用級別要求分數 png Spark 中的RDD 就是一個不可變的分布式對象集合。每個RDD 都被分為多個分區，這些分區運行在集群中的不同節點上。RDD 可以包含Python、Java、Scala中任意類型的對象，甚至可以包含用

大數據開發之路---Java基礎(一)

arr 參數 bubuko abr 適用於 oid har turn 小寫因為最近工作用到java，所以了解一些java的知識，當然這篇文章也是適用於有語言基礎的，因為是用於快速熟悉java的一些語法規範，並沒有整理細節的內容，零基礎的不適合看這篇文章 Hello wo

大數據學習之MapReduce編程案例二流量日誌統計 10

本地編寫代碼效果 system 持久 window highlight 手機 img 每一個用戶的統計總流量一：編寫代碼之前。先了解一下hadoop中的序列化 JAVA 類型 HADOOP 類型 int　　　　 IntWritable

大數據江湖之即席查詢與分析（下篇）--手把手教你搭建即席查詢與分析Demo

dmi 安裝centos 用戶 author sla repo 相關中文 plugin 上篇小弟分享了幾個“即席查詢與分析”的典型案例，引起了不少共鳴，好多小夥伴迫不及待地追問我們：說好的“手把手教你搭建即席查詢與分析Demo”啥時候能出？說到就得做到，差啥不能差

大數據基礎之詞頻統計Word Count

1 Linux單機處理

2 Spark分布式處理（Scala優雅簡潔）

3 Hadoop示例

相關推薦