抓取網路json資料並存入mongodb（1）

阿新 • • 發佈：2019-01-23

我們在百度中搜索http://shixin.court.gov.cn/ ，會有一個內嵌的查詢頁面：

這個是通過ajax技術載入的，因為是js渲染，所以頁面原始碼中並不包含這些資訊。

通過Firefox的Firebug監視網路請求，發現是向百度opendata請求的，結果返回一個包含100條資料的json

這樣，通過分析請求字串的引數，自定義請求，可以通過爬蟲直接爬取的資料。

有了資料之後需要解析，每次請求會返回100條資料，現在需要把這100條資料全部解除出來並存入Mongodb資料庫中。

爬蟲使用webmagic：https://github.com/code4craft/webmagic

資料庫Mongodb驅動使用 https://github.com/mongodb/mongo-java-driver

maven座標：

<dependencies>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.2</version>
        </dependency>

        <dependency>
            <groupId>org.mongodb</groupId>
            <artifactId>mongo-java-driver</artifactId>
            <version>2.7.3</version>
        </dependency>
</dependencies>

webmagic爬蟲框架使用參考：http://webmagic.io/docs/zh/

我在爬取時候自定義了PageProcessor，在這裡將資料解析並存入Mongodb，並且使用了爬蟲框架自帶的FilePipeline將資料持久化到磁碟檔案。

每次請求返回的是100條資料，需要通過分析，將這100條分離成一個個獨立的json字串，然後一條條插入。

插入資料的時候，還要判斷資料是否重複。

json格式字串可以直接存入資料庫。

Mongo mongo = new Mongo();
DB db = mongo.getDB("shixinTest");
DBCollection q=db.getCollection("shixinTest1");
// new BasicDBObject();
// 通過JSON.parse構造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)

q.save(query);

json字串存入mongodb資料庫：

抓取網路json資料並存入mongodb（1）

我們在百度中搜索http://shixin.court.gov.cn/ ，會有一個內嵌的查詢頁面：這個是通過ajax技術載入的，因為是js渲染，所以頁面原始碼中並不包含這些資訊。通過Firefox的Firebug監視網路請求，發現是向百度opendata請求的，結果返

如何用Fiddler抓取手機JSON資料

1 手機必須和電腦是在同一網路內 2 設定手機無線網上的修改網路 3 點選高階選項 4 設定伺服器主機名，也就是ip地址（ip地址在電腦端命令列輸入 ipconfig 即可獲取到）

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

如何利用Python網絡爬蟲抓取微信朋友圈的動態（上）

Python 網絡爬蟲微信朋友圈 Python開發今天小編給大家分享一下如何利用Python網絡爬蟲抓取微信朋友圈的動態信息，實際上如果單獨的去爬取朋友圈的話，難度會非常大，因為微信沒有提供向網易雲音樂這樣的API接口，所以很容易找不到門。不過不要慌，小編在網上找到了第三方工具，它可

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

JMeter中返回Json資料的處理方法（轉）

Json 作為一種資料交換格式在網路開發，特別是 Ajax 與 Restful 架構中應用的越來越廣泛。而 Apache 的 JMeter 也是較受歡迎的壓力測試工具之一，但是它本身沒有提供對於 Json&nb

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

大資料之mongodb --> （1）在ubuntu上安裝mongodb

1.安裝 MongoDB。 1.為軟體包管理系統匯入公鑰。 Ubuntu 軟體包管理工具為了保證軟體包的一致性和可靠性需要用 GPG 金鑰檢驗軟體包。使用下列命令匯入 MongoDB 的 GPG 金鑰（ MongoDB public GPG Key h

神經網路的資料表示- 張量（tensor）

神經網路使用的資料儲存在多維Numpy陣列中，也叫張量（tensor）。張量是一個數據容器，張量的維度（dimension）通常叫做軸（axis）。 1. 標量（0D張量）僅含一個數字的張量叫做標量（scalar，也叫標量張量、零維張量、0D張量）。在Numpy中，一個flo

EasyUI接收後臺json資料處理的小結（一）

用jquery easyui寫專案有一段時間了，有一些小心得和總結分享給大家開發中使用的是web service作為控制層，將面對的是大量的Json資料處理，對於{key:value}的處理大家肯定不陌生，這裡不再贅述，我們來看一下只有{value}的形式

大資料基礎之Quartz（1）簡介、原始碼解析

一簡介官網 http://www.quartz-scheduler.org/ What is the Quartz Job Scheduling Library? Quartz is a richly featured, open source job scheduling libra

大資料基礎之Kafka（1）簡介、安裝及使用

http://kafka.apache.org 一簡介 Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable,&nb

大資料基礎之Spark（1）Spark Submit即Spark任務提交過程

Spark版本2.1.1 一 Spark Submit本地解析 1.1 現象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1

Java和大資料的結合學習（1）

一.Javase的學習 string ，stringbuffer ，stringbulider 包裝類 randrom函式和randrom類 final,成員內部類，區域性內部類，靜態內部類，匿名內部類，內部類的繼承異常的捕獲，處理，輸出以及丟擲

3D引擎資料結構與glTF（1）：簡介

不是有句老話講“程式 = 演算法 + 資料結構”嘛，對於3D引擎來說也是這樣。學習和掌握3D引擎中的核心資料有哪些，它們直接的關係是怎樣等等問題，對於理解3D引擎的架構和圖形渲染關係都有著非常大的幫助。然而，現在的商業3D引擎非常複雜，想要通過學習其原始碼嘛非常困難，那麼你就這樣放棄了嗎

python資料結構與演算法（1）

資料結構與演算法（Python） Why？我們舉⼀個可能不太恰當的例⼦：如果將開發程式的過程⽐喻為作戰，我們碼農便是指揮作戰的將軍，⽽我們所寫的程式碼便是⼠兵和武器。那麼資料結構和演算法是什麼？答⽈：兵法！我們可以不看兵法在戰場上⾁搏，如此，可能會勝利，可能會失敗。即使勝利，可能也會付出巨⼤的代價。我們寫

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：

劉軍《社會網路分析導論》閱讀筆記（1）---第一章~第四章

第一章社會網路分析概說第一節研究社會關係的藝術：社會網路分析社會網路分析是社會科學中的一種獨特視角，之所以說其獨特，是因為社會網路分析建立在如下假設基礎之上：在互動的單位之間存在的關係非常重要。社會網路理論、模型及應用的基礎都是關係資料，關係是網路分析

大資料ETL實踐探索（1）---- python 與oracle資料庫匯入匯出

文章大綱 ETL 簡介工具的選擇 1. oracle資料泵匯入匯出實戰 1.1 資料庫建立 1.2. installs Oracle 1.3 export / import data from oracle

資料與簡單程式（1）

一、寫程式：描述資料的處理 1、描述資料。 2、描述處理過程。第1節基本字元、識別符號和關鍵字一、空白符的作用 1、Tab 右縮排 2、shift+Tab鍵左縮排二、識別符

抓取網路json資料並存入mongodb（1）

相關推薦