python爬蟲示例

阿新 • • 發佈：2018-12-15

python爬蟲即編寫python指令碼處理web網頁，使用特定的演算法，抓取所需要的內容：

以下以爬取糗事百科的段子為例進行說明，程式碼如下：

import urllib.request
import re



def jokeCrawler(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
    }

    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)
    html = response.read().decode("utf-8")
    # HTML = str(response.read())

    pat = r'<div class="author clearfix">(.*?)<span class="stats-vote"><i class="number">'
    re_joke = re.compile(pat, re.S)
    divList = re_joke.findall(html)
    # print(divList)
    # print(len(divList))

    dic = {}
    for div in divList:
        re_u = re.compile(r'<h2>(.*?)</h2>', re.S)
        username = re_u.findall(div)
        # print(type(username))
        username = username[0]
        # print(username)

        re_d = re.compile(r'<div class="content">\n<span>(.*?)</span>', re.S)
        duanzi = re_d.findall(div)
        # print(type(username))
        duanzi = duanzi[0]
        # print(duanzi)

        dic[username] = duanzi
    return dic


    # with open(r"D:\pythonPro\star\pacong\file\file3.html", "w", encoding='utf-8') as f:
    #     f.write(HTML)

url = "https://www.qiushibaike.com/text/page/2/"
info = jokeCrawler(url)
for k, v in info.items():
    print(k + "說\n" + v)

其中：表示式 .* 就是單個字元匹配任意次，即貪婪匹配。表示式 .*? 是滿足條件的情況只匹配一次，即最小匹配。

python 爬蟲示例，方便日後參考

主函數 cto fin iter rep incr one lines web def getOneMoviesInfo(Mid,url): import requests from lxml import etree #print(u

python爬蟲示例

python爬蟲即編寫python指令碼處理web網頁，使用特定的演算法，抓取所需要的內容：以下以爬取糗事百科的段子為例進行說明，程式碼如下： import urllib.request import re def jokeCrawler(url): headers = {

python爬蟲示例（1）---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

urllib庫的簡單使用 && 一個簡單的Python爬蟲示例

urllib庫的簡單使用 && 一個簡單的Python爬蟲示例本篇文章，介紹urllib.request庫的簡單使用以及注意的問題。最後實現一個Python爬蟲的示例。本文是基於Python3.6.2實現的。urllib.request相

python 爬蟲urllib基礎示例

urllib 爬蟲基礎環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

python:簡單爬蟲示例，含分析文件，建庫，程式程式碼

環境：ubantu18.04，mysql5.7，python3.6 1.分析文件 1.1 目標爬取笑話集-最新兒童笑話大全前三頁的笑話題目，訪問量，發表時間 1.2 URL 第一頁：www.jokeji.cn/list7_1.htm 第三頁：www.jokej

python爬蟲框架Scrapy安裝與爬取示例

環境：python3.6，自帶pip # 安裝 pip install scrapy 自動下載所需元件 Installing collected packages: lxml, cssselect, six, w3lib, parsel, pyasn1, attrs, idn

Python爬蟲：splash的安裝與簡單示例

安裝splash 1、安裝docker（參考：mac安裝docker） 2、安裝splash docker pull scrapinghub/splash # 安裝 docker run

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁學習本文需要先準備的知識點：python基本語法 1.前期準備（知識點講解） (1)、urllib.request庫——開啟url的可擴充套件庫 urll

python爬蟲：XPath語法和使用示例

# python爬蟲：XPath語法和使用示例 >XPath(XML Path Language)是一門在XML文件中查詢資訊的語言，可以用來在XML文件中對元素和屬性進行遍歷。 ## 選取節點 XPath使用路徑表示式來選取XML文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的

python爬蟲之多執行緒、多程序+程式碼示例

#python爬蟲之多執行緒、多程序 >使用多程序、多執行緒編寫爬蟲的程式碼能有效的提高爬蟲爬取目標網站的效率。 ## 一、什麼是程序和執行緒引用[廖雪峰的官方網站](https://www.liaoxuefeng.com/wiki/1016959663602400/1017627212385376)

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

Python爬蟲-萌妹子圖片

存在創建目錄無效 images width ebr file logs read 最近發現一個可以看圖的地方，一張張翻有點累，畢竟只有一只手（難道鼠標還能兩只手翻？）。能不能下到電腦上看呢，畢竟不用等網速，還可以預覽多張，總之很方便，想怎麽就怎麽，

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 爬蟲1 開始，先拿新浪微博開始

大括號版本 install esp con data- 定位 ble Language 剛剛開始學。目的地是兩個。一個微博，一個貼吧存入的話，臨時還沒想那麽多。先存到本地目錄吧分詞和推薦後面在整合 mysql mongodb hadoop redius 後面在用

python爬蟲入門-Scrapy的安裝

命令集成 ssl tool sta python2 執行成功 pytho 下載集成包鏈接：http://pan.baidu.com/s/1pKD2zBP 密碼：f75b因為沒有支持python3的Scrapy,所以這裏采用python2.7.9安裝步驟：1.安裝pyth

python爬蟲示例

相關推薦