網路爬蟲遇到問題（一）

阿新 • • 發佈：2019-02-10

# -*-coding:utf-8-*-
import urllib.request
import re

# 獲取整個頁面資料
def getHtml(url):
   #  urlib模組提供了讀取web頁面資料的介面
   # page = urllib.urlopen(url)
   page = urllib.request.urlopen(url)
   html = page.read()
   return html

# 篩選頁面中想要的資料,返回包含圖片的url地址
def getImg(html):
    reg = r'src="(.+?\.jpg)"pic_ext'
    # reg = r'src="(.*?\.jpg)"'
    # re.compile() 可以把正則表示式編譯成一個正則表示式物件.
    imare = re.compile(reg)
    html = html.decode('utf-8')  #python3
    # re.findall() 方法讀取html 中包含 imgre（正則表示式）的資料。
    imglist = re.findall(imare,html)
    # return imglist
    x = 0
    for imgurl in imglist:
        # 直接將遠端資料下載到本地。
        urllib.request.urlretrieve(imgurl,"%s.jpg"%x)
        x = x+1

html = getHtml("http://news.ifeng.com/a/20161115/50258273_0.shtml")
print (getImg(html))

程式碼執行可能出現以下情況：

錯誤1、

這一行中page =urllib.urlopen(url)

報錯：AttributeError:module 'urllib' has no attribute 'urlopen'

和下面有報錯：AttributeError:module 'urllib' has no attribute 'urlretrieve'

解決方法：是因為在python3.5中urllib下沒有方法urlopen和'urlretrieve'，urllib的request模組下有此兩個方法，使用urllib.request可解決該問題；

錯誤2：

這一行中imglist =re.findall(imare,html) 報錯：TypeError: cannot usea string pattern on a bytes-like object

解決方法：python3.5需新增此行html=html.decode('utf-8') #python3

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python 網路爬蟲學習（一）

最近在學習一些Python網路爬蟲的東西，現將所學習內容整理如下，希望與大家相互交流，共同進步。一、網路爬蟲基本概念 1.網路爬蟲(Web Spider) 是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

網路通訊webSocket（一）原理

對於開發者的我來講，大部分專案都需要用到聊天功能，例如單聊，群聊，分組，通訊等。而這一切都基於socket，那具體socket指的是啥？下面就具體好好寫寫吧。要了解什麼是socket，得先掌握TCP/IP協議與Http協議。首先Http協議，是超文字傳輸協議，沒有狀態的，也是屬於短連結對應於

scrapy爬蟲框架（一）：scrapy框架簡介

一、安裝scrapy框架 #開啟命令列輸入如下命令： pip install scrapy 二、建立一個scrapy專案安裝完成後，python會自動將 scrapy命令新增到環境變數中去，這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。

Python爬蟲基礎（一）——HTTP

前言　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器

pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

雖然以前寫過如何抓取WEB頁面和如何從 WEB 頁面中提取資訊。但是感覺還是需要一篇 step by step 的教程，不然沒有一個總體的認識。不過，沒想到這個教程居然會變成一篇譯文，在這個爬蟲教程系列文章中，會以實際的例子，由淺入深討論爬取（抓取和解析）的一些關鍵

神經網路簡單理解（一）：梯度彌散

這裡C（w）為最後的代價函式，它權值w的函式。每一層的加權輸入為ZJ=W×aj-1+b。每一層的輸出為aj，aj=φ(ZJ)，這裡φ是啟用函式。反向傳播更新的是每一層神經元連線的權重w，即求C（w）對每一層w 的偏導數。反向傳播首先求C對W4的偏導數，所以公式為: 同理，由於W

計算機網路讀書筆記（一）概述

一、計算機網路在資訊時代中的作用（1）計算機網路使使用者能夠在計算機之間傳送資料檔案（2）當今世界上最大的計算機網路Internet——網際網路（3）可以從兩個方面來認識網際網路：網際網路的應用和網際網路的工作原理（4）網際網路兩個基本特點：連通性和共享（共享指資源共享，可以

Python爬蟲入門（一）寫在前面

一、前言你是不是在為想收集資料而不知道如何收集而著急？你是不是在為想學習爬蟲而找不到一個專門為小白寫的教程而煩惱？ Bingo! 你沒有看錯，這就是專門面向小白學習爬蟲而寫的！我會採用例項的方式，把每個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的

計算機網路——傳輸層（一）

可靠資料傳輸原理(reliable data transfer protocol, rdt) rdt 1.0 rdt1.0比較簡單，上層應用呼叫rdt_send(data)向傳送端傳入資料，傳送端呼叫packet = make_pkt(data)方法產生分組，然後再通過udt_send(

網路爬蟲遇到問題（一）

相關推薦