Python之簡單爬取網頁內容

阿新 • • 發佈：2018-12-22

爬去網頁通用流程

這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。

import requests
class Qiushi:
    #  初始化函式
    def __init__(self,name):
        self.name = name
        self.url_base = 'https://www.qiushibaike.com/8hr/page/{}/'
        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'}

    def make_url(self):
        """
        生成下載連線列表
        :return:
        """
        #爬取糗事百科的前十頁
        return [self.url_base.format(i) for i in range(1,11)]
    def download(self,url_str):
        """
        通過requests.get()方法下載指定頁面，獲得頁面結果
        :param url_str:
        :return:
        """
        result = requests.get(url_str,headers=self.headers)
        return result.content
    def  save_content(self,html_content,page_num):
        """
        以html 形式儲存下載內容
        :param html_content:
        :param page_num:
        :return:
        """
        # 先建立download資料夾，然後把爬取的內容儲存在download檔案裡
        file_name = './download/'+'{}--第{}頁.html'.format(self.name,page_num)
        with  open(file_name,'wb') as fb:
            fb.write(html_content)
    def run(self):
        """
        下載主執行緒，實現主要邏輯
        :return:
        """
        #  獲取到所有的連結
        url_lists = self.make_url()
        for url in url_lists:
            html_content = self.download(url)
            #  獲取到對應頁數
            page_num = url_lists.index(url)+1
            self.save_content(html_content,page_num)
if  __name__=='__main__':
    qiushi= Qiushi('糗事百科')
    qiushi.run()

爬取成功後的結果
在這裡插入圖片描述

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

python簡單爬取網頁文字操作體會

自上次成功嘗試爬取了靜態頁面的圖片之後，本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文，本人只是做了輕微修改。簡單的實現爬蟲爬取網頁文字和圖片以python3為背景，這裡還是先定義一個讀取html頁面資訊的函式： import urllib.

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

python urllib, urllib2實現登陸和簡單爬取網頁(個人坑點筆記)

不想做重複的事情，對於已經寫得比較詳細的我就不再自己重新寫了，直接引用，希望原作者諒解（反正直接貼的網站，大概沒事吧~）主要是記一些自己碰到的坑實現登陸其實主要是用好那個cookiejar

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

[python學習] 簡單爬取圖片站點圖庫中圖片

ctu while 要去文章 ava ges file cor nal 近期老師讓學習Python與維基百科相關的知識，無聊之中用Python簡單做了個爬取“遊訊網圖庫”中的圖片，由於每次點擊下一張感覺很浪費時間又繁瑣。主要分享的是怎樣爬取HTML

聰哥哥教你學Python之如何爬取美女圖片

今天要講的是Python。Python目前主要是在人工智慧和資料分析上比較火。這裡我們就講它的資料分析。什麼叫資料分析呢？簡單地說，根據已知資料，經過分析，得出結論。這就叫做資料分析。今天聰哥哥我拿一個簡單的爬蟲例項，教你爬取美女圖片，不過在此之前聰哥哥我得說說一些雜七雜八的。這個

Python之簡單抓取豆瓣讀書資訊

最近出差學習，閒來擼一把 Python。看語法書這些，真是看完就忘，還不如來寫點小程式，有實踐性又有趣。我的環境是Ubuntu 17，開始之前先裝幾個依賴包，用於解析 html 檔案。 sudo apt install python-lxml,python-requests

PHP爬取網頁內容

1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

摘要大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。 1 抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963 得到超級課程表

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

python 3.3 爬取網頁資訊小例

# -*- coding:gb2312 -*- import urllib.request source_stram = urllib.request.urlopen("http://www.12306.cn/mormhweb/kyfw/") #save_path=

python根據標籤爬取網頁資訊

這裡以豆瓣TOP250為案例，爬取網頁資訊import requests#python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re from bs4 import B

JAVA爬取網頁內容

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。操作：在頁面上按F

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

Python之簡單爬取網頁內容

爬去網頁通用流程

相關推薦