python爬蟲練習--爬上海法院開庭公告資訊

阿新 • • 發佈：2019-01-27

本次練習的物件是上海法院開庭公告資訊。資料來源如下：

該網站是上海法院的官方網站，網站內會公示未來已確定的開庭資訊。

如上圖所示，網站顯示共有資料30528條。這些資料就是本次爬蟲的目標。

（一）分析頁面

1. 開啟google瀏覽器開發者工具，點選頁面下一頁，觀察網路請求可以發現，目標資料是這個請求返回的：

2. 下一步，觀察上面這個請求的具體內容：

觀察得出以下結論，這是一個post請求，具體引數含義為：

yzm 暫時不清楚來源

ktrqks: 2018-06-19 這是查詢的起始時間，也就是當天

ktrqjs: 2018-07-19 這是查詢的結束時間

pagesnum：2 猜測可知，這是頁面所在頁數

3. 尋找引數yzm的來源

在網頁原始碼中搜索，可以看到，yzm的值是寫死到js裡面的。

此時，還需要確定，該引數的值是固定的，還是會變化。

多次重新整理頁面可知，該引數值每次都不一樣。

4. 至此，頁面基本分析完畢。只需要首先請求頁面拿到引數yzm的值，然後構造post引數，不斷翻頁請求資料即可。

（二）核心程式碼實現

import requests
from requests.exceptions import RequestException
from pyquery import PyQuery as pq
from lxml.etree import XMLSyntaxError
import re
import csv
from concurrent.futures import ThreadPoolExecutor

1. 獲取引數yzm的部分

s = requests.Session()
headers = {
	"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",
	"Referer": "http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search.jsp?zd=splc",
	"Upgrade-Insecure-Requests":"1",
	"Connection":"keep-alive",
	"Host":"www.hshfy.sh.cn"
}
def get_yzm_html():
	url = "http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search.jsp?zd=splc"
	r = s.get(url, headers=headers)
	return r.text

def find_yzm(html):
    try:
    	if re.findall(r'(?:var yzm=")(\w+)(?:";)', html):
    		return re.findall(r'(?:var yzm=")(\w+)(?:";)', html)[0]
    except XMLSyntaxError:
        return None

2. 獲取目標資料的部分

def get_data_html(yzm, num):
	form_data = {
		"yzm":	yzm,
		"ft":"",	
		"ktrqks":	"2018-06-19",
		"ktrqjs":	"2020-07-11",
		"spc":"",	
		"yg":"",	
		"bg":"",	
		"ah":"",	
		"pagesnum":	str(num)
	}
	url = "http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search_content.jsp"
	try:
		response = s.post(url, headers=headers, json=form_data)
		if response.status_code == 200:
			parse_data(response.text)
			print("解析第{}頁".format(num))
		return None
	except RequestException:
		print("請求發生錯誤:", url)
		return None

3. 解析目標資料的部分

def parse_data(html):
    try:
        doc = pq(html)
        for i in range(2, 17):
        	row = []
        	for j in range(1, 10):
        		td = doc("#report > tbody > tr:nth-child("+str(i)+") > td:nth-child("+str(j)+")")
        		if td:
        			row.append(td.text().strip(" *\n"))
        	return row
    except:
        print("解析頁面傳送錯誤")
        return None

(三) 結果展示

本次練習共拿到2萬多條資料，可是頁面顯示資料有30528條。經多方推測，應該是頁面顯示資料量有誤。

python爬蟲練習--爬上海法院開庭公告資訊

本次練習的物件是上海法院開庭公告資訊。資料來源如下：該網站是上海法院的官方網站，網站內會公示未來已確定的開庭資訊。如上圖所示，網站顯示共有資料30528條。這些資料就是本次爬蟲的目標。（一）分析頁面1. 開啟google瀏覽器開發者工具，點選頁面下一頁，觀察網路請求可以發現，

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

Python爬蟲專案--爬取某寶男裝資訊

本次爬取用到的知識點有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目標網站 1. 開啟某寶首頁, 輸入"男裝"後點擊"搜尋", 則跳轉到"男裝"的搜尋介面. 2. 空白處"右擊"再點選"檢查"審查網頁元素, 點選"Network". 1) 找到對應的URL, URL

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲(三)爬淘寶MM圖片

name os.path app dir util mozilla user mac baseurl 直接上代碼: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string impo

python爬蟲練習1:豆瓣電影TOP250

import ria fff python top font beautiful code pen 項目1:實現豆瓣電影TOP250標題爬取: 1 from urllib.request import urlopen 2 from bs4 import Beaut

python爬蟲——對爬到的數據進行清洗的一些姿勢（5）

weibo 英雄 mina ret term creators 刪除動畫任務　　做爬蟲，當然就要用數據。想拿數據進行分析，首先清洗數據。這個清洗數據包括清除無用數據列和維度，刪除相同數據，對數據進行勘誤之類的。　　從各大不同新聞網站可以爬到重復新聞。。。這個可以有。

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

python爬蟲如何爬知乎的話題？

write targe connect 問題 brush img fetchone new text 因為要做觀點，觀點的屋子類似於知乎的話題，所以得想辦法把他給爬下來，搞了半天最終還是妥妥的搞定了，代碼是python寫的，不懂得麻煩自學哈！懂得直接看代碼，絕對可用 #c

爬蟲練習-爬取小說

nbsp wait none tor lpar text int pre www # 程序啟動文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.pat

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

python 爬蟲練習

utf 組裝 float request splay isp -o values align bs去除特定標簽。 # url import easygui as g import urllib.request from bs4 import BeautifulS

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

python爬蟲練習--爬上海法院開庭公告資訊

相關推薦