Python 3.0最簡單的爬蟲

阿新 • • 發佈：2019-01-02

做個小專案練練手，比較有動力繼續下去，這邊參考最簡單的爬蟲程式自己抄了一下。但是因為3.0的關係，無法直接使用，根據2.0版本的程式碼進行修改後成功了。

這裡寫圖片描述

程式碼如下：

# -*- coding: utf-8 -*-
# 網上抄來的最簡單的爬蟲，用於批量下載圖片

import urllib.request
import re

#該函式用於獲取html內容
#使用到urlopen的函式
def getHtml(url):
    page = urllib.request.urlopen(url)
    #3.0直接使用read()函式會出現報錯，提示是編碼有問題。在後面加上編碼就ok了。 

    html = page.read().decode("utf-8")
    return html

def getImg(html):
    #reg為正則替換，這邊是根據貼吧的帖子的圖片在html中的狀態拼的，只適用於貼吧帖子下圖
    #正則的詳細教程見：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
    reg = r'src="(.+?\.jpg)" pic_ext'
    #compile比較簡單的解釋是製作一個漏斗，規則如reg，只有符合的才能夠通過。
    imgre = re.compile(reg)
    imgList = re.findall(imgre, html)
    x = 0 

    for imgurl in imgList:
        #print ("for test %s" % x) 檢視是否走到迴圈用的print
        #urlretrieve() 方法直接將遠端資料下載到本地
        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
        x += 1

#html變數定義一個需要讀取的網址，這邊選擇的是某個貼吧的帖子。
html = getHtml("http://tieba.baidu.com/p/3115557410")
#執行操作
getImg(html)

print("all over!" 
)

Python 3.0最簡單的爬蟲

做個小專案練練手，比較有動力繼續下去，這邊參考最簡單的爬蟲程式自己抄了一下。但是因為3.0的關係，無法直接使用，根據2.0版本的程式碼進行修改後成功了。程式碼如下： # -*- coding:

零基礎自學Python 3開發網絡爬蟲(二): 用到的數據結構簡介以及爬蟲Ver1.0 alpha

ket org doc link rtu 出隊網站 pytho 支持上一回, 我學會了用偽代碼寫出爬蟲的主要框架; 用Python的urllib.request庫抓取指定url的頁面; 用Python的urllib.parse庫對普通字符串轉符合url的字符串.

在MVC4.0加Easyui1.5.3的最簡單方式

同時技術 star 選項 cls 基本 data- art undle 新建MVC4.0 Web項目當系統同時裝了VS2012和VS2013時，新建項目，在VisualC#模板點擊Web選項時，左邊會出現ASP.NET Web應用程序，這個Web程序是VS2013自帶的

Python 3.6 實現簡單的爬蟲

python作為一種新銳語言，他的更新是非常的快的。 3.x與2.x相比，它整合了urllib，urllib2,urllib3等一系列的模組，在3.x裡，實現一個爬取網頁簡易的程式如下# -*- co

Windows下python 3.0版本django的安裝、配置、與啟動

減少操作註意 class lin img 裏的 bubuko code 使用的環境是Windows操作系統，python的環境是3.6，django是官網上最新的版本1.10.6，本文介紹從安裝python之後怎樣用過pip管理工具安裝django，以及django的項

python 3.0 字典的增刪改查

name 列表不可變 date 特點返回方法 nds 如果一、字典的定義方法： 1、dic = {‘name‘:‘Karen‘,‘age‘:22,‘hobby‘:‘girl‘,‘is_handsome‘:True} print(dic) #==>{‘na

vue-cli 安裝3.0最新版

一段時間沒用過vue寫東西了，今天突然發現vue的腳手架已經升級到3.0了，趕緊安裝… 全域性安裝 npm install -g @vue/cli 輸入vue -V檢測安裝的版本：3.0.0 建立專案 vue create hello 之後就是一些專案的配置了按

python學習之最簡單購物車

1、啟動程式後，，讓使用者輸入現金，然後列印商品列表2、允許使用者根據商品編號購買商品3、使用者選擇商品後，檢測餘額是否夠，夠就直接扣款，不夠就提醒4、可隨時退出，退出時，列印已購買商品和餘額這個題要用到：1.input 2.購物車設為字典，買一件新增一件 3.for列印商品列表4.while 可以持續新增

是時候丟棄 Python 2.0，將 100 萬行的程式碼遷移到 Python 3.0 了！

Python 2 vs Python 3，究竟誰是效能之王？前段時間，Hackermoon 上一位叫 Anthony Shaw 的作者為我們做了一些測試，最終得出結論，雖然 Python 2 在加密和啟動時間測試過程中，比 Python 3 的速度更勝一籌，但整體而言，Py

Python實現一個最簡單的MapReduce程式設計模型WordCount

MapReduce程式設計模型： Map：對映過程 Reduce：合併過程 import operator from functools import reduce # 需要處理的資料 lst = [ "Tom", "Jack",

Missing artifact com.oracle:ojdbc6:jar:11.2.0.1.0 最簡單解決辦法

oracle 的這個jar包是付費的，maven中無法下載這一個改一下版本號，從阿里雲下載的jar包，附上程式碼 <dependency><groupId>com.oracle</groupId&g

Python 3.0 新特性（1）

萬眾期待的Python3.0（final）在2008年12月3日釋出了，本文將介紹一下Python3所具有的與Python2.5不同的新特性。 Python3的下載地址是： 1.print的變化：、在python3.0中，print成為了一個函式，將傳入的引數

必備的幾個演算法，Python實現是最簡單的！

必備的幾個演算法，Python實現是最簡單的！ 1、選擇排序選擇排序是一種簡單直觀的排序演算法。它的原理是這樣：首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然後，再從剩餘未排序元素中繼續尋找最小（大）元素，然後放到已排序序列的後面，以此類推，直到所有元素均排序完畢

python+selenium+scrapy搭建簡單爬蟲

接觸爬蟲也有一段時間了，下面我就來簡單介紹一種我認為較為直觀有效的方式。基本搭配：python2.7+selenium+scrapy，selenium用來模擬真實使用者操作瀏覽器的過程，scrapy用來提取網頁內容。關於安裝方式我就暫且提一下我接觸過的兩種：

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

安裝python第三方庫最簡單方便的方法-使用Anaconda

使用python一個很大的好處與優勢，就在於python有大量的第三方庫可以直接使用，但對於新手來說，如何尋找和安裝需要的庫，是首先需要解決的問題。關於如何裝庫，網上已經有不少詳細的教程，主要都是在官方文件，或者gitup上下載包，然後本地安裝，其實這樣也不復雜，但這裡

不一樣的str，python 3.0 與 python 2.5 的 str 型別比較筆記

在2.5中，str型別指的是單字元型別的字串，所以一箇中文字在str中表現為2個位元組，想要生成unicode型別的字串，必須在引號前加入“u”這個標識。例如： >>> s = "測試" # 這個是單字元型別的字串 >>> type

python 3.0 實現99乘法表

環境：python版本：3.7 使用遞迴方式實現99乘法表 def test(n): if(n>1): test(n-1) for x in range(n): print("%d * %d = %

python下搭建最簡單的django框架例項

寫慣了java程式碼，最近想著學門新的語言玩玩，恰好有朋友是學python，於是也想著學學python玩下，python裡有個web框架django，這兩天也試了一下發現也挺不錯的，把自己搭建django的經歷分享下，給新手們一個參考，哈哈執行環境 Windows 7（

python 3.0讀取文件出現編碼錯誤（illegal multibyte sequence ）

highlight python inf 技術 uft 解決但是 .com pre 代碼如下： myfile2=open(‘e:/enterprise.xlsx‘,mode = ‘r‘) file2_content=myfile2.readlines() print

Python 3.0最簡單的爬蟲

相關推薦