python3實現簡單的爬蟲

阿新 • • 發佈：2018-12-16

主要實現的是從百度貼吧爬取一些圖片

開啟對應的網頁

主要是使用python下的庫urllib

request.urlopen() 開啟目標網頁
read() 讀取網頁資訊

因此最開始程式碼如下：

#coding=utf-8

from urllib import request

def getHtml(url):
	page = request.urlopen(url)
	html = page.read()
	return html

html = getHtml("https://tieba.baidu.com/p/5882095555")
print(html)

獲取網頁裡面的圖片

需要用到python的re庫做正則的處理，還要根據所爬的網頁去確定圖片的正則表示式，修改後程式碼如下：

#coding=utf-8

from urllib import request

def getHtml(url):
	page = request.urlopen(url)
	html = page.read()
	return html
def getImg(html)
	reg = r'img class="BDE_Image" src="(.+?\.jpg)"'
	imgre = re.compile(reg)
	html = html.decode('utf-8')
	imglist = re.findall(imgre,html)
	return imglist
	

html = 
 getHtml("https://tieba.baidu.com/p/5882095555")
print(getImg(html))

在這段程式碼中，

reg為正則表示式
compile() 函式用來構建正則物件
findall() 函式用來尋找網頁中符合正則匹配的圖片

將獲取到的圖片儲存到本地

這裡只要使用request中的urlretrieve()處理，寫入自己要儲存的地址，修改後程式碼如下：

#coding=utf-8

from urllib import request
import re

def getHtml(url):
    page = request.urlopen(url) 

    html = page.read()
    return html

def getImg(html):
    reg = r'img class="BDE_Image" src="(.+?\.jpg)"'
    imgre = re.compile(reg)
    html = html.decode('utf-8')
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        request.urlretrieve(imgurl,'E:\img\ background%s.jpg' % x)
        x += 1
    return imglist

html = getHtml("https://tieba.baidu.com/p/5882095555")

print(getImg(html))

最後執行程式，就會在制定位置看到爬去下來的圖片了

python3實現簡單的爬蟲

主要實現的是從百度貼吧爬取一些圖片開啟對應的網頁主要是使用python下的庫urllib request.urlopen() 開啟目標網頁 read() 讀取網頁資訊因此最開始程式碼如下： #coding=utf-8 from urllib impo

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Node實現簡單爬蟲

1、新建一個專案新建一個資料夾安裝依賴 cnpm i --save PACKAGE_NAME 寫應用邏輯 2、核心邏輯實現爬蟲需要用到三個依賴，分別是express、superagent、cheerio superagent是個http方面的庫，可以發

使用php實現簡單爬蟲（一種通用的爬蟲思想）

概述現在爬蟲技術算是一個普遍的技術了，各個語言的爬蟲百家爭鳴，但是根據筆者自己的感覺還是python是主流。爬蟲涉及到太多的東西，筆者並不是專業的爬蟲工程師，只不過個人興趣分享一下。由於筆者是php工作，所以就使用php來進行簡單爬蟲。不過我的方法應該是很通用的，我相信java，

通過scrapy實現簡單爬蟲

Scrapy概述網路爬蟲，大概很多人都聽說過吧。它是通過一定的規則，自動抓取網際網路網站上的文章、資訊、圖片等等內容。常見的應用就是搜尋引擎。而Scrapy則是實現網路爬蟲的方式之一。官方描述的Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可

python3 requests簡單爬蟲以及分詞並製作詞雲

現在學的東西很雜，很多時候要學的東西其實以前都寫過，但是都忘了。現在回想起來，很多以前寫的程式碼基本上就都沒有儲存下來，感覺有些可以。一方面不便於以後的查詢和複習，另一方面也丟失了很多記錄。所以打算以後的程式碼片段都盡力儲存下來，並寫在部落格裡。這個是好幾天

爬蟲系統基礎框架 & 何時使用爬蟲框架？& requests庫 + bs4來實現簡單爬蟲

www ica try 藍色 scrapy 定時調度器 find use 轉載請註明出處https://www.jianshu.com/p/88f920936edc，謝謝! 一、爬蟲用途和本質：網絡爬蟲顧名思義即模仿???在網絡上爬取數據，網絡爬蟲的本質是一段自動抓

使用tornado實現簡單爬蟲

程式碼在官方文件的示例程式碼中有,但是作為一個tornado新手來說閱讀起來還是有點困難的,於是我在程式碼中添加了註釋,方便理解,程式碼如下: # coding=utf-8 #!/usr/bin/env python import time from da

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

php 實現簡單爬蟲

大部分是由他人部落格轉載而來, 只是根據目前自己的情況進行了部分修改. <?php /** * 爬蟲程式 -- 原型 * * 從給定的url獲取html內容 * * @param string $url * @return string */

Java實現簡單爬蟲爬取天氣預報

爬蟲爬取網頁的主要流程是： 1.向目標網頁發起請求； 2.對於獲取到的html檔案進行解析； 3.對解析後的資料進行儲存。本次主要是爬取全國城市未來7天的天氣預報，爬取物件為中國天氣網，爬取的資料存入文字中。對於html檔案的解析採用Jsoup結合正則表示式。地區程

python3.6簡單爬蟲：獲取電影的爛番茄指數（一）

載入包import requests from bs4 import BeautifulSoup獲取網站的urlurl = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial' response = reque

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

wswp中的程式碼是通過python2的語法來寫的，在學習的過程中個人比較喜歡python3，因此準備將wswp的示例程式碼用python3重寫一遍，以加深映像。開始嘗試構建爬蟲識別網站所用技術和網站所有者構建網站所使用的技術型別的識別和尋找

python3實現網路爬蟲（3）--BeautifulSoup使用（2）

在這一次的內容中，我們繼續討論BeautifulSoup的一些操作，我們這次只討論幾個在實踐中用處特別大的幾個函式。這次我們將學習通過屬性查詢標籤的方法，標籤組的使用。我們一起回憶一下，基本上，我們見過的每個網站都會使用層疊樣式表（css，不懂的可以補一下網頁相關知識）

python3實現簡單的郵件自動傳送

</pre><pre name="code" class="python">import smtplib from email.mime.text import MIMET

python3實現網路爬蟲（2）--BeautifulSoup使用（1）

這一次我們來了解一下美味的湯--BeautifulSoup，這將是我們以後經常使用的一個庫，並且非常的好用。 BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢遊仙境》裡的同名詩歌。在故事中，這首歌是素甲魚唱的。就像它在仙境中的說法一樣，BeautifulS

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

用Python3實現一個簡單的爬蟲。

import urllib import urllib.request def loadPage(url,filename): """ 作用：根據url傳送請求，獲取html資料;

python3實現簡單的爬蟲

主要實現的是從百度貼吧爬取一些圖片

開啟對應的網頁

獲取網頁裡面的圖片

將獲取到的圖片儲存到本地

相關推薦