python自動規則化抓取百度百科詞條資料

阿新 • • 發佈：2018-12-24

程式碼已同步到GitHub中，以後會陸陸續續整理之前的程式碼，放在GitHub共享，歡迎圍觀。
qingmm的GitHub

百科詞條資料整體較為規範，至少在網頁上看起來是這樣。但實際抓取時可以發現正文內容不論標題還是內容都在同一級下，無法直接獲取到某一級標題下的所有相對應的內容，因此需要巧妙地設計程式碼來自動識別多級標題，自動將與標題相對應的內容存放在該標題下。
目前網路上抓取百度百科詞條資料的程式碼大都是來自於同一個視訊教程，雖然將功能分割，寫了五個程式碼檔案，但仍不能滿足實際需求，教學作用大於實際作用。因此專門研究了下百科詞條的html頁面的程式碼規則，最終通過一定的規則實現了對頁面內容的自動規則化獲取。

輸入為詞條名稱，輸出為json檔案，資料按照字典dict格式儲存。
下面是程式碼：

#-*-coding:utf-8-*-
import re
import requests
import bs4
from bs4 import BeautifulSoup
import json
import codecs
import sys
import os

path = sys.path[0] + os.sep
headers = {
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8" 
,
    "Accept-Encoding":"gzip, deflate, br",
    "Accept-Language":"zh-CN,zh;q=0.9,en;q=0.8,zh-HK;q=0.7,en-US;q=0.6",
    "Connection":"keep-alive",
    "Cookie":"BAIDUID=12D740BD92DEA90B607F5B827987F30E:FG=1; BIDUPSID=12D740BD92DEA90B607F5B827987F30E; PSTM=1534166632; BKWPF=3; BDUSS=lleW52cG9MalVYcUhKeWJSYllpMlgzQXpnN2lORml-UXh3b1BqRGpqSnBtcVJiQVFBQUFBJCQAAAAAAAAAAAEAAAARJts6wu3D98flt-cAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGkNfVtpDX1bT1; PSINO=1; H_PS_PSSID=1447_21105_20882_26350_26924_20927; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; pgv_pvi=419963904; pgv_si=s2644193280; Hm_lvt_55b574651fcae74b0a9f1cf9c8d7c93a=1534920932,1535362634,1535362645,1535362662; Hm_lpvt_55b574651fcae74b0a9f1cf9c8d7c93a=1535362662" 
,
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36", 
    "Host": 'baike.baidu.com',
    "Upgrade-Insecure-Requests":"1"
}

def craw(url, item):
    html = requests.get(url, headers=headers).content
    data = dict()
    data['url'] = url
    data['name'] = item
    soup = BeautifulSoup(html, 'lxml')
    title = soup.find('h2').get_text()
    data['abstract'] = soup.find('div', class_='lemma-summary').get_text().strip().replace('\n', '').replace('\t', '')
    basic_info = soup.find('div', class_='basic-info')
    dts = basic_info.find_all('dt', class_='name')
    dds = basic_info.find_all('dd', class_='value')
    data['basic_info'] = dict()
    for i in range(len(dts)):
        name = dts[i].get_text().strip().replace('\n', '').replace('\t', '')
        value = dds[i].get_text().strip().replace('\n', '').replace('\t', '')
        data['basic_info'][name] = value
    paras = soup.find_all('div', class_=['para-title', 'para'])
    content = dict()
    # move cursor to div: para-title level-2
    for i in range(len(paras)):
        if 'level-2' in paras[i]['class']:
            paras = paras[i:]
            break
    level3_flag = False
    # traversal content, caution: there is level-3 para, so the code will be more complicate 
    for para in paras:
        if 'level-2' in para['class']:
            prefix = para.span.get_text().strip().replace('\n', '')
            name = para.h2.get_text().strip().replace('\n', '').replace(prefix, '')
            print 'name', name
            content[name] = ''
            level3_flag = False
        elif 'level-3' in para['class']:
            if not level3_flag:
                content[name] = dict()
            prefix = para.span.get_text().strip().replace('\n', '')
            children = para.h3.get_text().strip().replace('\n', '').replace(prefix, '')
            print 'children', children
            content[name][children] = ''
            level3_flag = True
        else:
            text = para.get_text().strip().replace('\n', '').replace('\t', '')
            if level3_flag:
                content[name][children] += text
            else:
                content[name] += text
    data['content'] = content
    f = codecs.open(path + 'baike.json', 'w', 'utf-8')
    json.dump(data, f, ensure_ascii=False)
    f.write('\n')
    f.close()

if __name__ == '__main__':
    baseurl = 'http://baike.baidu.com/item/'
    # items = ['Python', u'北京市', u'朝陽區']
    items = [u'北京市']
    for item in items:
        url = baseurl + item
        print url
        craw(url, item)

以上，歡迎交流。

python自動規則化抓取百度百科詞條資料

程式碼已同步到GitHub中，以後會陸陸續續整理之前的程式碼，放在GitHub共享，歡迎圍觀。 qingmm的GitHub 百科詞條資料整體較為規範，至少在網頁上看起來是這樣。但實際抓取時可以發現正文內容不論標題還是內容都在同一級下，無法直接獲取到某一

Python開發爬蟲爬取百度百科詞條資訊(原始碼下載)

下面使用Python開發一個網頁爬蟲，爬取百度百科詞條資訊，整個程式涉及到url管理器，html下載器，html解析器，html顯示以及排程程式：程式結構： spider_main.py：爬蟲的排

Python爬蟲實戰一之使用Beautiful Soup抓取百度招聘資訊並存儲excel檔案

#encoding:utf-8 ''' Created on 2017年7月25日 @author: ******** ''' import urllib2 from bs4 import BeautifulSoup import xlrd,os from xlutils.copy import copy f

python 爬蟲, 抓取百度美女吧圖片

# ----2018-7-15 ------世界盃總決賽 import requests from lxml import etree import re class TiBa_Image(object): # 建立同意方法 def __init__(

Python抓取百度雲電影

近期在自學python，寫網路爬蟲之類的，偶然一個知乎本科大牛釋出的一個Python庫可以爬取百度網盤電影的第三方庫。 fmovice 0.1.0 輸入關鍵詞搜尋兩大百度網盤提供商中的電影資源現在你可以ctrl+r然後輸入cmd直接搜尋電影名字即可，即fmv 電影名

BeautifulSoup抓取百度貼吧

爬蟲 python beautifulsoup 百度貼吧 BeautifulSoup是python一種原生的解析文件的模塊，區別於scrapy，scrapy是一種封裝好的框架，只需要按結構進行填空，而BeautifulSoup就需要自己造輪子，相對scrapy麻煩一點但也更加靈活一些以爬取百度

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

幾行代碼抓取百度首頁

python 百度python中源碼位置(以urllib為例): python中自帶的模塊: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) py

【PHP爬蟲】curl+simple_html_dom 抓取百度最新消息新聞標題，來源，URL

work getc spec 標題 hasattr url format protect include <title>新聞轉載統計</title> <script> function submit(){ wd=d

Python基於urllib,re爬取百度的國內即時新聞

正則匹配分享 str 導入 findall term 下載 pytho tex Python應用於爬蟲領域業界已經相當的廣泛了，今天就采用urllib + re 爬取下百度國內即時新聞。軟件環境：Python : 3.6.0 PyCharm: Community

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

使用Selenium抓取百度指數一

輸入指數 _id orm end span try res () 抓百度指數的數據，比較簡單的演示：selenium+瀏覽器(我這是Firefox)的代碼。代碼如下： from selenium import webdriver from selenium.webdri

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

C/C++實現HTTPS通訊（抓取百度頁面）

#include <WINSOCK2.H> #include <openssl/ssl.h> #include <openssl/err.h> #include <iostream> #include <sstream> #prag

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

PHP多程序抓取百度搜索結果

<?php /** * 多程序抓取百度結果頁自然結果，包括標題、摘要、圖片、連結、來源 * @since 2016-04-15 */ class NaturalResultSpider { private $_strQuery = null; pub

Python3爬蟲之四簡單爬蟲架構【爬取百度百科python詞條網頁】

前面介紹了Python寫簡單的爬蟲程式，這裡參考慕課網Python開發簡單爬蟲總結一下爬蟲的架構。讓我們的爬蟲程式模組劃分更加明確，程式碼具有更佳的邏輯性、可讀性。因此，我們可以將整個

Python依據單個關鍵詞爬取百度圖片

最近由於工作需要要使用大量的水果蔬菜圖片，故萌生使用爬蟲抓取百度圖片的想法，並未用於商業用途，只是為了測試資料。所以並未使用多執行緒、框架等技術。由於百度圖片是動態載入的，發現搜尋關鍵詞後action的引數很相似，故使用requests.get(url ,

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

百度的搜尋引擎有反爬蟲機制，我先直接用guzzle試試水。程式碼如下： <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QL\Qu

python自動規則化抓取百度百科詞條資料

相關推薦