python爬蟲案例——根據網址爬取中文網站，獲取標題、子連線、子連線數目、連線描述、中文分詞列表

阿新 • • 發佈：2019-02-11

全棧工程師開發手冊（作者：欒鵬）

其中使用到了urllib、BeautifulSoup爬蟲和結巴中文分詞的相關知識。

除錯環境python3.6

# 根據連線爬取中文網站，獲取標題、子連線、子連線數目、連線描述、中文分詞列表，
import urllib
from bs4 import BeautifulSoup
import bs4

import jieba   #對中文進行分詞

# 分詞時忽略下列詞
ignorewords=['，','。','？','“','”','！','；','：','\n','、','-',',','.','?','\r\n','_' 
,' ']

# 定義爬蟲類。獲取連結的題目、描述、分詞、深度
class crawler:
    def __init__(self,url):
        self.url = url
        self.urls={}
        self.urls[url]={
            'num':1,             #連線被引用的次數
            'title':'',         #連線的標題
            'text':'',          #連線的描述
            'allword':[],       #連線的所有分詞列表 

        }


    def getword(self,soup):
        # 獲取每個單詞
        text=self.gettextonly(soup)   #提取所有顯示出來的文字
        words=self.separatewords(text)  #使用分詞器進行分詞
        allword=[]
        for word in words:
            if word not in ignorewords:
                allword.append(word)
        # print(allword) 

        return allword

    # 根據一個網頁原始碼提取文字（不帶標籤的）。由外至內獲取文字元素。style和script內不要
    def gettextonly(self,soup):
        v=soup.string
        if v==None:
            c=soup.contents   # 直接子節點的列表，將<tag>所有兒子節點存入列表
            resulttext=''
            for t in c:
                if t.name=='style' or t.name=='script':   #當元素為style和script和None時不獲取內容
                    continue
                subtext=self.gettextonly(t)
                resulttext+=subtext+'\n'
            return resulttext
        else:
            if isinstance(v,bs4.element.Comment):   #程式碼中的註釋不獲取
                return ''
            return v.strip()

    # 利用正則表示式提取單詞（不能區分中文）。會將任何非字母非數字字元看做分隔符
    def separatewords(self,text):
        seg_list = jieba.cut(text, cut_all=False)  #使用結巴進行中文分詞
        return seg_list
        # splitter=re.compile('\\W*')
        # return [s.lower() for s in splitter.split(text) if s!='']

    #爬蟲主函式
    def crawl(self):
        try:
            response=urllib.request.urlopen(self.url)
        except:
            print("Could not open %s" % self.url)
            return
        try:
            text = str(response.read(),encoding='utf-8')
            soup=BeautifulSoup(text,'html.parser')
            title = soup.title
            self.urls[self.url]['title'] = title.get_text()  # 將標題加入到屬性中


            links=soup('a')
            for link in links:

                if ('href' in dict(link.attrs)):
                    newurl=urllib.parse.urljoin(self.url,link['href'])
                    if newurl.find("'")!=-1: continue
                    newurl=newurl.split('#')[0]  # 去掉位置部分
                    if newurl[0:4]=='http':
                        if newurl not in self.urls:
                            linkText = self.gettextonly(link)  #獲取連線的描述
                            self.urls[newurl]={
                                'num':1,   #連線被引用的次數
                                'text':linkText   #連結描述
                            }
                        else:
                            self.urls[newurl]['num']+=1   #連線數+1，這裡有演算法只算一次
            allword = self.getword(soup.body)  # 獲取分詞
            self.urls[self.url]['allword'] = allword  # 將分詞加入到屬性中
        except:
            print("Could not parse page %s" % self.url)



if __name__ == '__main__':
    url='http://blog.csdn.net/luanpeng825485697/article/details/78378653'
    mycrawler = crawler(url)
    mycrawler.crawl()
    print(mycrawler.urls[url]['allword'])

python爬蟲案例——根據網址爬取中文網站，獲取標題、子連線、子連線數目、連線描述、中文分詞列表

全棧工程師開發手冊（作者：欒鵬）其中使用到了urllib、BeautifulSoup爬蟲和結巴中文分詞的相關知識。除錯環境python3.6 # 根據連線爬取中文網站

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

需求分析 ”筆趣看“ 是一個盜版小說網站，這裡有各大知名小說網站的小說，更新速度略慢於正版網站。但是該網站只支援線上瀏覽，不支援小說下載，對於想要下載下來以防斷網或者網速不好時也能看的童鞋來說不太友好。因此，本次練習將爬取該網站所有小說。PS：本次練習僅為學習交流，請各位童鞋支援正版。爬取

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

python爬蟲【二】爬取新聞

在一個新聞站點或者絢麗的網頁會有許多id和class 我們可以通過觀察來看到我們需要的資訊在那些id和class下但是這裡介紹兩種快速便捷的方法第一種使用谷歌瀏覽器自帶的開發者工具或者安裝infolite外掛安裝方法看這篇https:/

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

技術路線：requests庫+bs4庫+re庫的整合使用目標：獲得上交所和深交所所有股票的名稱和交易資訊輸出：儲存至本地檔案可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析呃呃

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

from selenium import webdriver import time from bs4 import BeautifulSoup browser = webdriver.Chrome() browser.get('https://user.qzone.qq.com') user ='241

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

python爬蟲案例——根據網址爬取中文網站，獲取標題、子連線、子連線數目、連線描述、中文分詞列表

相關推薦