Python識別html主要文字框過程解析

阿新 • • 發佈：2020-02-18

這篇文章主要介紹了python識別html主要文字框過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

在抓取網頁的時候只想抓取主要的文字框，例如 csdn 中的主要文字框為下圖紅色框：

抓取的思想是，利用 bs4 查詢所有的 div，用正則篩選出每個 div 裡面的中文，找到中文字數最多的 div 就是屬於正文的 div 了。定義一個抓取的頭部抓取網頁內容：

import requests
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/47.0.2526.106 Safari/537.36','Host': 'blog.csdn.net'}
session = requests.session()
 
def getHtmlByRequests(url):
  headers.update(
    dict(Referer=url,Accept="*/*",Connection="keep-alive"))
  htmlContent = session.get(url=url,headers=headers).content
  return htmlContent.decode("utf-8","ignore")

識別每個 div 中文字的正則：

import re
# 統計中文字數
def countContent(string):
  pattern = re.compile(u'[\u1100-\uFFFD]+?')
  content = pattern.findall(string)
  return content

遍歷每一個 div ，利用正則判斷裡面中文的字數長度，找到長度最長的 div ：

# 分析頁面資訊
def analyzeHtml(html):
  # 初始化網頁
  soup = BeautifulSoup(html,"html.parser")
  part = soup.select('div')
  match = ""
  for paragraph in part:
    content = countContent(str(paragraph))
    if len(content) > len(match):
      match = str(paragraph)
  return match

得到主要的 div 後，提取裡面的文字出來：

def main():
  url = "http://blog.csdn.net/"
  html = getHtmlByRequests(url)
  mainContent = analyzeHtml(html)
  soup = BeautifulSoup(mainContent,"html.parser")
  print(soup.select('div')[0].text)

完整的程式碼如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import re

headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,'Host': 'blog.csdn.net'}
session = requests.session()


def getHtmlByRequests(url):
  headers.update(
    dict(Referer=url,"ignore")

# 統計中文字數
def countContent(string):
  pattern = re.compile(u'[\u1100-\uFFFD]+?')
  content = pattern.findall(string)
  return content

# 分析頁面資訊
def analyzeHtml(html):
  # 初始化網頁
  soup = BeautifulSoup(html,"html.parser")
  part = soup.select('div')
  match = ""
  for paragraph in part:
    content = countContent(str(paragraph))
    if len(content) > len(match):
      match = str(paragraph)
  return match


def main():
  url = "http://blog.csdn.net/"
  html = getHtmlByRequests(url)
  mainContent = analyzeHtml(html)
  soup = BeautifulSoup(mainContent,"html.parser")
  print(soup.select('div')[0].text)


if __name__ == '__main__':
  main()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python識別html主要文字框過程解析

python redis 批量設定過期key過程解析

這篇文章主要介紹了python redis 批量設定過期key過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python全域性變數引用與修改過程解析

這篇文章主要介紹了python全域性變數引用與修改過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python測試執行緒應用程式過程解析

這篇文章主要介紹了Python測試執行緒應用程式過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python使用rsa非對稱加密過程解析

這篇文章主要介紹了python使用rsa非對稱加密過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python paramiko遠端伺服器終端操作過程解析

這篇文章主要介紹了python paramiko遠端伺服器終端操作過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python Opencv計算影象相似度過程解析

這篇文章主要介紹了python Opencv計算影象相似度過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python socket模組ftp傳輸檔案過程解析

這篇文章主要介紹了Python socket模組ftp傳輸檔案過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python非同步程式設計使用yield from過程解析

前言 yield from 是 Python3.3 後新加的語言結構。yield from的主要功能是開啟雙向通道，把最外層的呼叫方法與最內層的子生成器連線起來。這兩者就可以進行傳送值和返回值了，yeild from結構的本質是簡化巢狀的生產器

Python使用APScheduler實現定時任務過程解析

前言 APScheduler是基於Quartz的一個Python定時任務框架。提供了基於日期、固定時間間隔以及crontab型別的任務，並且可以持久化任務。

通過Python編寫一個簡單登入功能過程解析

需求：寫一個登入的程式， 1、最多登陸失敗3次 2、登入成功，提示歡迎xx登入，今天的日期是xxx，程式結束

Python namedtuple命名元組實現過程解析

這篇文章主要介紹了Python namedtuple命名元組實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python unittest工作原理和使用過程解析

這篇文章主要介紹了Python unittest工作原理和使用過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python HTMLTestRunner視覺化報告實現過程解析

操作步驟 1.下載HTMLTestRunner.py 2.把檔案複製到python安裝/lib位置下 3. 3.匯入:import HTMLTestRunner import unittest

Python批量處理csv並儲存過程解析

需求： 1.大量csv檔案，以數字命名，如1.csv、2.cvs等； 2.逐個開啟，對csv檔案中的某一列進行格式修改；

Python unittest單元測試openpyxl實現過程解析

一。初識單元測試 1)定義：單元：函式或者是類單元測試：測試類或者函式 python內建的單元測試框架：unittest

基於python實現破解滑動驗證碼過程解析

前言：很多小夥伴們反饋，在web自動化的過程中，經常會被登入的驗證碼給卡住，不知道如何去通過驗證碼的驗證。今天專門給大家來聊聊驗證碼的問題，一般的情況下遇到驗證碼我們可以都可以找開發去幫忙解決，關閉驗證

Python呼叫.net動態庫實現過程解析

pythonnet簡介 pythonnet是cpython的擴充套件 pythonnet提供了cpython和.net程式集之間互動的橋樑

Python selenium爬蟲實現定時任務過程解析

現在需要啟動一個selenium的爬蟲，使用火狐驅動+多執行緒，大家都明白的，現在電腦管家顯示CPU佔用率20%，啟動selenium後不停的開啟瀏覽器+多執行緒，

Python實現尋找回文數字過程解析

迴文數字是很有意思的數字，不管從最高位開始念，還是從個位開始念，最終結果都一樣，有一種對稱美。

Python識別html主要文字框過程解析

相關推薦