python爬蟲實現爬取網頁主頁資訊（html程式碼）

阿新 • • 發佈：2021-02-01

技術標籤：python web

python爬蟲實現爬取網頁主頁資訊（html程式碼）

1.爬取網站原始碼

urllib整體介紹：
urllib是一個包,收集幾個模組來處理網址
urllib.request開啟和瀏覽url中內容
urllib.error包含從 urllib.request發生的錯誤或異常
urllib.parse解析url
urllib.robotparser解析 robots.txt檔案

import urllib.request

class GetHtml(object):              #建立類，object表示主類（寫不寫都可）
    def __init__ 
(self, URL):  #def __init__將類例項化、self：類本身
        self.url = URL        #為url賦值=URL

    def get_index(self):      #定義方法
        self.response = urllib.request.urlopen(self.url) 
        return self.response.read()

html = GetHtml("http://product.yesky.com/keyboard/")
print(html.get_index())

執行結果：（獲取到網站原始碼）

在這裡插入圖片描述

但是在伺服器日誌資訊中會顯示訪問採用python指令碼，容易被網站管理員ban掉ip，所以需要修改其user-agent資訊

import urllib.request

class GetHtml(object):
    def __init__(self, URL, HEAD):
        self.url = URL
        self.head = HEAD

    def get_index(self):
        self.request = urllib.request.Request(self.url)   #進行請求
        self.request. 
add_header("user-agent", self.head)  #新增頭部資訊
        self.response = urllib.request.urlopen(self.request)
        return self.response.read()


html = GetHtml("http://product.yesky.com/keyboard/", "Mozilla/5.0 (Windows NT 8.1; Win32; x32; rv:65.0) Gecko/20100101 Firefox/65.0")                               #將伺服器顯示資訊進行修改
print(html.get_index())

執行結果：
在這裡插入圖片描述
伺服器端顯示結果：
·
成功修改user-agent資訊，並且獲取到了網站原始碼資訊。

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。

python爬蟲實現爬取同一個網站的多頁資料的例項講解

對於一個網站的圖片、文字音視訊等，如果我們一個個的下載，不僅浪費時間，而且很容易出錯。Python爬蟲幫助我們獲取需要的資料，這個資料是可以快速批量的獲取。本文小編帶領大家通過python爬蟲獲取獲取總頁數並更改

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

Python爬蟲：爬取無賬號無限制獲取企查查資訊

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

初學python爬蟲，爬取“豆瓣電影 Top 250”相關資訊，並下載電影封面

注：所學的視訊教程：B站Python爬蟲基礎5天速成（2021全新合集）Python入門+資料視覺化

Python爬蟲實現“盜取”微信好友資訊的方法分析

本文例項講述了Python爬蟲實現“盜取”微信好友資訊的方法。分享給大家供大家參考，具體如下：

Python基於pandas爬取網頁表格資料

以網頁表格為例：https://www.kuaidaili.com/free/ 該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

Python如何實現爬取B站視訊

5月3日晚，央視在《新聞聯播》前播放了B站青年宣言片《後浪》，這是B站首次登陸央視黃金時段，今天在朋友圈陸續看到相關的視訊。最早用B站的同學都知道，B站是和A站以異曲同工的鬼畜視訊及動漫，進入到大眾視野的非主

Python基於BeautifulSoup爬取京東商品資訊

今天小編利用美麗的湯來為大家演示一下如何實現京東商品資訊的精準匹配~~

Python爬蟲例項——爬取美團美食資料

1.分析美團美食網頁的url引數構成 1）搜尋要點美團美食，地址：北京，搜尋關鍵詞：火鍋

Python爬蟲之爬取淘女郎照片示例詳解

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

[python][爬蟲]批量爬取【漫畫DB】的漫畫圖片

今天看漫畫的時候感覺用瀏覽器實在不爽，就寫個小程式爬了下來。順便安利一個漫畫軟體MComix，超級好用（Linux限定，Win可以用ComicViewer）

python爬蟲實戰---爬取大眾點評評論

python爬蟲實戰—爬取大眾點評評論（加密字型） 1.首先開啟一個店鋪找到評論

python爬蟲實踐爬取今日頭條街拍圖（參考了python3webspider和github上的程式碼）

import requests from urllib.parse import urlencode from requests import codes import os from hashlib import md5

python定時簡單爬取網頁新聞存入資料庫併發送郵件

本人小白一枚，簡單記錄下學校作業專案，程式碼十分簡單，主要是對各個庫的理解，希望能給別的初學者一點啟發。O(∩_∩)O

Python爬蟲：爬取科技新聞，進而整理，產出資料分析

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

詳解python定時簡單爬取網頁新聞存入資料庫併發送郵件

本人小白一枚，簡單記錄下學校作業專案，程式碼十分簡單，主要是對各個庫的理解，希望能給別的初學者一點啟發。

Python爬蟲：爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

python+mongo+BeautifulSoup爬取網頁小說

技術標籤：python 申明，本人非專業python職業者。以下程式碼作為自己學習使用。