Python爬蟲爬取中國古詩詞網上的名句

阿新 • • 發佈：2020-09-03

執行截圖：

 1 import requests
 2 from lxml import etree
 3 from urllib import request
 4 
 5 # 全域性變數（請求頭+檔案IO物件）
 6 headers = {
 7     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44'}
 8 file=open('./古詩名句.txt','w',encoding=' 
utf-8')
 9 
10 
11 # 採集前端原始碼
12 def index():
13     for num in range(1, 12):
14         base_url = 'https://so.gushiwen.cn/mingju/default.aspx?p={}&c=&t='.format(num)  # 網站翻頁
15         print('正在寫入', base_url, '中的資料資訊...')
16         response = requests.get(base_url, headers=headers)  # 模擬訪問+請求頭
17 
         response.encoding = 'utf-8'  # 解碼
18         html = response.text  # 獲取原始碼
19         clean(html)  # 清洗資料
20 
21 
22 # 清洗資料
23 def clean(html):
24     htmls=etree.HTML(html)#預處理
25     #xpath守則
26     Mingjus_urls=htmls.xpath('//div[@class="cont"]/a[1]/@href')#名句網址（待處理）
27     #print(Mingjus_urls) 

28     Mingjus=htmls.xpath('//div[@class="cont"]/a[1]/text()')#名句
29     #print(Mingjus)
30     Poem_titles=htmls.xpath('//div[@class="cont"]/a[2]/text()')
31     #print(Poem_titles)
32     sto(Mingjus_urls,Mingjus,Poem_titles)
33 
34 # 列印資料
35 def sto(Mingjus_urls,Mingjus,Poem_titles):
36     for M,Mingju,Poem_title in zip(Mingjus_urls,Mingjus,Poem_titles):
37         #拼接網址
38         Mingju_url='https://so.gushiwen.cn/'+M
39         #整合資料資訊
40         full_info=Mingju+'\t'+Poem_title+'\n'+'名句網址：'+Mingju_url
41         #寫入檔案
42         file.write(full_info+'\n')
43 
44 if __name__ == '__main__':
45     index()
46     file.close()

View Code

Python爬蟲爬取中國古詩詞網上的名句

執行截圖： 1 import requests 2 from lxml import etree 3 from urllib import request 4 5 # 全域性變數（請求頭+檔案IO物件）

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲爬取監控教務系統的思路詳解

這幾天考了大大小小几門課，教務系統又沒有成績通知功能，為了急切想知道自己掛了多少門，於是我寫下這個指令碼。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取杭州24時溫度並展示操作示例

本文例項講述了Python爬蟲爬取杭州24時溫度並展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

Python爬蟲爬取新聞資訊案例詳解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲爬取糗事百科段子例項分享

大家好，前面入門已經說了那麼多基礎知識了，下面我們做幾個實戰專案來挑戰一下吧。那麼這次為大家帶來，Python爬取糗事百科的小段子的例子。

Python爬蟲爬取微信朋友圈

接下來，我們將實現微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 來監聽微信朋友圈的介面資料，這是無法實現爬取的，因為資料都是被加密的。而 Appium 不同，Appium 作為一個自動化測試工具可以直接模擬 App

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/