使用hadoop mapreduce分析mongodb數據

阿新 • • 發佈：2017-07-27

getc 原創 word 官網哪些 data span insert 需要

使用hadoop mapreduce分析mongodb數據

（現在很多互聯網爬蟲將數據存入mongdb中，所以研究了一下，寫此文檔）

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： http://www.cnblogs.com/sxt-zkys/
QQ技術交流群：299142667

一、 mongdb的安裝和使用

1、官網下載mongodb-linux-x86_64-rhel70-3.2.9.tgz

技術分享

2、解壓（可以配置一下環境變量）

3、啟動服務端

./mongod --dbpath=/opt/local/mongodb/data --logpath=/opt/local/mongodb/logs --logappend --fork(後臺啟動)

第一種：不帶auth認證的

技術分享

第二種：需要帶auth認證的（即需要用戶名和密碼的）

技術分享

當指定用戶名和密碼在查看數據，發現就可以看得到了

技術分享

4、啟動客戶端

./mongo

技術分享

5、客戶端shell命令

show dbs 顯示mongodb中有哪些數據庫

技術分享

db 顯示當前正在用的數據庫

技術分享

use db 你要使用的數據庫名

技術分享

(註：若database不存在，則會創建一個，此時若不做任何操作直接退出，則MongoDB會刪除該數據庫)

db.auth(username,password) username為用戶名,password為密碼登陸你要使用的數據庫

db.getCollectionNames() 查看當前數據庫有哪些表

技術分享

db.[collectionName].insert({...}) 給指定數據庫添加文檔記錄

技術分享

db.[collectionName].findOne() 查找文檔的第一條數據

db.[collectionName].find() 查找文檔的全部記錄

技術分享

db.[collection].update({查詢條件},{$set:{更新內容}}) 更新一條文檔記錄

技術分享

db.[collection].drop() 刪除數據庫中的集合

技術分享

db.dropDatabase() 刪除數據庫

技術分享

二、 Mapreduce 分析mongodb的數據實例

1、編寫mapreduce的代碼前，需要另外添加兩個jar包，還有需（jdk1.7以上）

技術分享

2、需求介紹與實現

原數據：

技術分享

結果數據：

技術分享

代碼編寫：

Job：

技術分享

Mapper:

技術分享

Reduce:

技術分享

最終的結果數據：

技術分享

三、最後給大家推薦一個mongodb數據庫的管理工具，挺好用的

技術分享

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： http://www.cnblogs.com/sxt-zkys/
QQ技術交流群：299142667

使用hadoop mapreduce分析mongodb數據

大數據采集、清洗、處理：使用MapReduce進行離線數據分析完整案例

大數據 Hadoop MapReduce 數據清洗離線數據分析 [TOC] 1 大數據處理的常用方法大數據處理目前比較流行的是兩種方法，一種是離線處理，一種是在線處理，基本處理架構如下：在互聯網應用中，不管是哪一種處理方式，其基本的數據來源都是日誌數據，例如對於web應用來說，則

詳細分析Memcached緩存與Mongodb數據庫的優點與作用

io瓶頸緩存語句一分鐘 SQ 維護靈活出了友好 http://www.mini188.com/showtopic-1604.aspx 本文詳細講下Memcached和Mongodb一些看法，以及結合應用有什麽好處，希望看到大家的意見和補充。　　Memcache

ETL項目2:大數據清洗,處理:使用MapReduce進行離線數據分析並報表顯示完整項目

tcl tostring span 自帶 utf hadoop result spi lib ETL項目2:大數據清洗,處理:使用MapReduce進行離線數據分析並報表顯示完整項目思路同我之前的博客的思路 https://www.cnblogs.com/symkmk12

python 操作mongoDB數據庫

查看 $set 一個關於 pan date set 完整 mongodb 網上關於python 操作mongoDB的相關文章相對不是很多，並且質量也不是很高！下面給出一個完整的增刪改查示例程序！ #!/usr/bin/python # -*- coding

使用網絡監視器（IRSI）捕捉和分析協議數據包

命令 net 開頭下載類型封裝源地址記錄 .net 轉載請註明原地址。實驗名稱：理解子網掩碼、網關和ARP協議的作用一、實驗目的和要求 (1) 熟悉IRIS的使用 (2) 驗證各種協議數據包格式 (

MongoDB數據模型和索引學習總結

-c 指定 explain creat 生效上下通信協議必須數據類型 MongoDB數據模型和索引學習總結 1. MongoDB數據模型： MongoDB數據存儲結構： MongoDB針對文檔（大文件採用GridFS協議）採用BSON（binary jso

Scala實現Mapreduce程序4-----數據去重

text tracker rtb () 輸出 pack eric 去重 ray 數據去重，key只輸出一次 scala實現：先groupByKey(),然後SortByKey(),然後輸出keys object Reduplicate { def main(args:

Mongodb數據庫命令端經常使用操作

-c padding 建數據庫 nbsp pop def b-s 年齡取模運算數據庫基本命令操作數據庫經常使用命令 1、Help查看命令提示 help db.help(); db.yourColl.help(); db

mongodb 數據庫操作--備份還原導出導入

都是備份 connected comment tac 文件格式 clas 存在 bsp 原文：http://www.jb51.net/article/52498.htm 一，mongodump備份數據庫 1，常用命令格 ? 1 mongodump -

node.js零基礎詳細教程(6)：mongodb數據庫操作

insert lte 數組執行 cmd命令行 tables 頁面 down 切換第六章建議學習時間4小時課程共10章學習方式：詳細閱讀，並手動實現相關代碼學習目標：此教程將教會大家安裝Node、搭建服務器、express、mysql、mongodb、編寫

MVC排球計分（二）——需求分析與數據庫設計

logs 用例圖中國隊 eight 需求 back 過程 style .cn 需求分析和數據庫的設計是很重要的一個環節，這個環節會直接影響項目的開發過程和質量。這裏做的排球計分程序是一個例子，而且其業務極為簡單，因此，這裏並不是真正的需求分析和數據庫設計，而是將排球計

Hadoop中的CRC數據校驗文件

本地磁盤 ati onf ase utc 獲取 line fileutil pan 錯誤分析: 今天在A程序中生成了數據,然後將A結果數據作為B的輸入數據,在查看A結果數據時候,發現有一條數據不符合規則,遂將其刪除,刪除後執行B程序則報錯.嘗試打斷點,發現程序連map過程

需求分析與數據庫設計（二）

-s size spa blog png 設計需求分析技術詳細需求分析：作為一名觀眾，我希望知道詳細的隊伍比分變化和隊伍得分信息，以便於了解比賽信息和運動員的精彩得分用例圖：數據庫設計：用mvc中自帶的數據庫SQL Server

ASP.NET MVC 排球計分程序（三）需求分析與數據庫設計

arch 情況 img 需求全場 ima 功能每次 str 需求分析：軟件名稱：排球計分程序 1、需要鍵入比賽人員的的姓名，需要根據場上的比賽結果及時做出操作，記分員可以在記錯的情況下撤銷上一部操作。比賽結束，記分員應能查詢到每個隊伍的進球情況，以及攔網、擊球等的

linux mongodb數據庫的安裝

std 後臺安裝mongodb mongodb eal setname lec real kill 折騰兩天，前領導留下的爛攤子，前天忽然掛掉了，整個公司就我會linux，奶奶的，一言難盡。下面記錄下怎麽安裝mongodb，前面是從菜鳥教程復制來的

MongoDB數據庫的數據類型和$type操作符

clas 添加 ring scope defined ger 必須錄制操作符前面的話　　本文將詳細介紹MongoDB數據庫的數據類型和$type操作符數據類型　　MongoDB支持以下數據類型類型數字備註

MongoDB數據庫文檔操作

數據庫插入文檔　　要將數據插入到 MongoDB 集合中，需要使用 MongoDB 的 insert()或save()方法，還有insertOne()或insertMany()方法【insert()】　　insert()命令的基本語法如下db.COLLECTION_NAME.insert(document)　

MongoDB數據庫基本操作

完整用戶 redis hba 數據 table 傳統標準數據庫操作為了保存網站的用戶數據和業務數據，通常需要一個數據庫。MongoDB和Node.js特別般配，因為Mongodb是基於文檔的非關系型數據庫，文檔是按BSON（JSON的輕量化二進制格式）存儲的，增刪改

ip代理池-基於mongodb數據庫

url upd tostring mls from path ida request protocol 代碼用的python2.7，抓取xici免費代理，檢測放入數據庫中，為以後爬蟲做準備。下面直接上代碼 1 #-*-encoding=utf-8-*- 2 3 i

使用hadoop mapreduce分析mongodb數據

相關推薦