python實現的讀取網頁並分詞功能示例

阿新 • • 發佈：2020-01-09

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

這裡使用分詞使用最流行的分詞包jieba，參考：https://github.com/fxsjy/jieba

或點選此處本站下載jieba庫。

程式碼：

import requests
from bs4 import BeautifulSoup
import jieba
# 獲取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 新增至bs4
soup = BeautifulSoup(content,'html.parser')
div = soup.find(id = 'main_content')
# 寫入檔案
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
  # <p>標籤的處理
  for line in div.findChildren():
    file_object.write(line.get_text()+'\n')
# 使用分詞工具
seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式
print(",".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
  with open('cut_news.txt',encoding='utf-8') as file_cut_object:
    for line in file_object.readlines():
      seg_list = jieba.cut(line,cut_all=False)
      file_cut_object.write('/'.join(seg_list))

爬取結果：

分詞結果：

更多關於Python相關內容感興趣的讀者可檢視本站專題：《Python數學運算技巧總結》、《Python資料結構與演算法教程》、《Python函式使用技巧總結》、《Python字串操作技巧彙總》、《Python入門與進階經典教程》及《Python檔案與目錄操作技巧彙總》

希望本文所述對大家Python程式設計有所幫助。

python實現的讀取網頁並分詞功能示例

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

python實現的config檔案讀寫功能示例

本文例項講述了python實現的config檔案讀寫功能。分享給大家供大家參考，具體如下：

ThinkPHP5.1+Ajax實現的無重新整理分頁功能示例

本文例項講述了ThinkPHP5.1+Ajax實現的無重新整理分頁功能。分享給大家供大家參考，具體如下：

Python實現清理微信殭屍粉功能示例【基於itchat模組】

本文例項講述了Python實現清理微信殭屍粉功能。分享給大家供大家參考，具體如下：

Python實現讀取SQLServer資料並插入到MongoDB資料庫的方法示例

本文例項講述了Python實現讀取SQLServer資料並插入到MongoDB資料庫的方法。分享給大家供大家參考，具體如下：

python實現的分析並統計nginx日誌資料功能示例

本文例項講述了python實現的分析並統計nginx日誌資料功能。分享給大家供大家參考，具體如下：

Python Django實現layui風格+django分頁功能的例子

第一步：首先定義一個檢視函式，用於提供資料，實現每頁顯示資料個數，返回每頁請求資料

Python實現讀取並寫入Excel檔案過程解析

需求是有兩個Excel檔案：1.xlsx，2.xlsx，比較2.xlsx中的A,B列和1.xlsx中的A,B列；查詢1.xlsx中存在，2.xlsx中不存在的行資料，輸出到result.xlsx檔案中

Python+Dlib+Opencv實現人臉採集並表情判別功能的程式碼

一、dlib以及opencv-python庫安裝介於我使用的是jupyter notebook，所以在安裝dlib和opencv-python時是在

通過Python實現生成excel並郵件傳送的功能

1.需求描述因業務方需求，在一個月內，需要每天從資料庫中收集、匯聚相關資料，形成3份excel，然後發給相關人。工作雖然簡單，但是還是需要花費大家的時間和經歷，所以，通過一份簡單的python程式碼來實現此功能。

python實現讀取excel寫入mysql的小工具詳解

Python是資料分析的強大利器利用Python做資料分析，第一步就是學習如何讀取日常工作中產生各種excel報表並存入資料中，方便後續資料處理。

用openCV和Python 實現圖片對比,並標識出不同點的方式

最近專案中需要實現兩組圖片對比，並能將兩者的區別標識出來。在網上搜索一大堆找到一篇大神的文章，最終實現該功能，在這裡記錄下：

python實現12306登入並儲存cookie的方法示例

經過倒騰12306的登入,還是實現了,請求頭很重要...各位感興趣的可以繼續寫下去.....

python實現監控阿里雲賬戶餘額功能

背景由於阿里雲oss，cdn消耗錢的速度比較快，在不知道的情況下，服務就被停了，影響比較大。所以想做個監控。百度一下阿里雲賬戶餘額 api 還真有；於是開啟了踩坑之路。

Python imageio讀取視訊並進行編解碼詳解

讀視訊和寫視訊一直由於編解碼的問題給程式設計師造成很多麻煩。對此進行了一些探索。用Python讀取視訊有兩種主要方法，分別是基於imageio庫和OpenCV，其中OpenCV加上ffmpeg的安裝編譯很麻煩，推薦大家使用第一種方法

python 實現turtle畫圖並匯出圖片格式的檔案

如下所示： from turtle import* import turtle setup(800,700,300,50) penup() seth(90) fd(100) seth(0) fd(-200)

python實現按首字母分類查詢功能

本文例項為大家分享了python實現按首字母分類查詢的具體程式碼，供大家參考，具體內容如下

Django實現基於類的分頁功能

開發個人部落格時往往避免不了分頁功能的實現，實現方法大體上分為函式和類兩種。本文基於類實現分頁功能，以下是詳細程式碼：

python基於socket實現的UDP及TCP通訊功能示例

本文例項講述了python基於socket實現的UDP及TCP通訊功能。分享給大家供大家參考，具體如下：

基於Python實現拆分和合並GIF動態圖

“表情包”是當前社交軟體上不可或缺的交流方式，難以用文字表達的意思，發一個“表情包”，對方就能心領神會。下面是小派製作的一個表情包，準確地講，是在已有表情包的基礎上，二次加工而成的。