python 爬取HTML內容並儲存到txt檔案內

阿新 • • 發佈：2020-12-10

# @UpdateTime : 2020-12-08 16:53
# @Author : wz
# @File : Get_WebDetails
# @Software: PyCharm
# @used: 爬取任意頁面中任意資料
import re
import urllib.request
from Utils.Log import Logger
Logger_message = Logger()
# 爬取gbk網頁(爬取html頁面檔案)
html = urllib.request.urlopen("https://www.78zw.com/4_4107/").read()
html = html.decode('utf-8')
# print(html)
# 爬取連結和目錄(通過正則表示式進行過濾)
reg = r'<a href="(.*?)">(.*?) (.*?) </a>'
urls = re.findall(reg, html)    # 這是獲取的連結和目錄時沒有規律的(雜亂無章)
# print(urls)
for url in urls:
    chapter_titles = url[2]
    chapter_url = 'https://www.78zw.com' + str(url[0])
    # print(url[0])
    # Logger_message.loginfo(chapter_url + '\t' + chapter_titles)
    htmls = urllib.request.urlopen(chapter_url).read()
    htmls = htmls.decode ('utf-8')
    # print(htmls)
    content = r'<div id="content">(.*?)</div>'
    content = re.findall(content, htmls)
    # print(content)
    for next in content:
        strs = next.replace("<br><br>", "")
        stres = strs.replace("　　","")
        nextes = (('%s' % chapter_titles) + "\t" +stres)
        print("正在下載章節名稱：" + chapter_titles)
        # 列印內容文字（儲存到一個檔案內）
        fn = open('Name.txt', 'a')
        fn.write(chapter_titles + "\n" + nextes)
        # 分章節儲存到不同的txt檔案內
        fn = open(chapter_titles + '.txt', 'w', encoding='utf-8')
        fn.write(nextes)

首次釋出文章，不足的地方請大家指點。

python 爬取HTML內容並儲存到txt檔案內

技術標籤：python爬蟲正則表示式 # @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails

Python爬取學校文章並儲存mysql

Python爬取學校文章並儲存mysql python爬取學校文章並儲存mysql 問題簡介爬取福⼤要⽂（http://news.fzu.edu.cn/html/fdyw/）要求： 1.包含釋出⽇期，作者，標題，閱讀數以及正⽂。 2.可⾃動翻⻚。 3

python筆記2--lxml.etree爬取html內容

前言本篇繼續lxml.etree學習，線上訪問介面，通過介面返回的html，解析出想要的text文字內容

Python3直接爬取圖片URL並儲存示例

有時候我們會需要從網路上爬取一些圖片，來滿足我們形形色色直至不可描述的需求。

scrapy爬取快代理並儲存mongo資料庫

我們先分析下網頁這個網友的頁面規律很簡單 https://www.kuaidaili.com/free/inha/1 https://www.kuaidaili.com/free/inha/2

利用Python爬取疫情資料並使用視覺化工具展示

import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options as opts

python爬取崗位資料並分析_爬取拉勾資料分析崗位

技術標籤：python爬取崗位資料並分析拉勾的反爬機制做得特別殘暴。 javascript加密和直接訪問json資料會給你返回偽裝的資料不說。最殘暴也是最簡單的，限制短時間內的多次訪問。只要爬蟲速度稍快點，就會要你

爬取網站圖片並儲存到本地

技術標籤：爬蟲爬蟲正則表示式爬取網站圖片並儲存到本地第一步：模擬瀏覽器發出請求，獲取網頁資料

java實現寫入並儲存txt檔案的程式碼詳解

java如何實現寫入並儲存txt檔案？例項程式碼如下： package TEST; import java.io.BufferedWriter;

抓取網頁原始碼並儲存為檔案時出現亂碼

首先明確兩個概念：計算機中的編碼(encode)==》字元->位元組計算機中的解碼(decode)==》位元組->字元

Python爬蟲實戰，urllib模組，爬取中國工程院院士資訊並儲存txt

前言今天用Python爬蟲中國工程院院士簡介，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬取YY評級分數並儲存資料實現過程解析

前言當需要進行大規模查詢時（比如目前遇到的情形：查詢某個省所有發債企業的YY評級分數），人工查詢顯然太過費時，那就寫個爬蟲吧。

使用Python爬取扇貝每日一句並儲存

技術標籤：Python小工具python爬蟲經驗分享windows xprequest 更進一步上一篇文章，在 windows xp 上使用 Python 獲取扇貝單詞每日一句中通過修改博Livathan`利維坦獲取愛詞霸每日一句的python檔案，成功輸出

Python爬取資料並儲存到csv檔案中

1、資料來源 2、Python程式碼 import requests from lxml import etree import csv url = \'http://211.103.175.222:5080/zentaopms/www/index.php?m=project&f=task&projectID=830\'