簡單的爬蟲demo

阿新 • • 發佈：2017-07-08

ges spa 下載到本地 page pan com 簡單圖片 span

# coding=<encoding name> 例如，可添加# coding=utf-8
import urllib
import re
# 定義一個方法，把整個頁面下載下來
def getHtml(url):
    page = urllib.urlopen(url)   # 打開網頁
    html = page.read()             #讀取 URL上面的數據
    return html                  # 返回內容

# 再定義一個方法，篩選頁面中想要的元素，通過正則表達式的匹配
def getimage(html):
    reg  
= r‘src="(.+?\.jpg)" pic_ext‘   # 定義一個正則表達式
    # re.compile() 把正則表達式編譯成一個正則表達式對象
    imagere =re.compile(reg)
    # 　re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。
    imagerelist = re.findall(imagere,html)
    # 遍歷圖片
    x = 0
    for imageurl in imagerelist:
        # 這裏的核心是用到了urllib.urlretrieve(),方法，直接將遠程數據下載到本地 

        urllib.urlretrieve(imageurl,‘%s.jpg‘% x)
        x= x+1


# 調用getHtml 傳入一個網址
ht = getHtml("http://tieba.baidu.com/p/2460150866")
# 調用getimage ，拿到圖片
print getimage(ht)

運行的效果

技術分享

簡單的爬蟲demo

ges spa 下載到本地 page pan com 簡單圖片 span # coding=<encoding name> 例如，可添加# coding=utf-8 import urllib import re # 定義一個方法，把整個頁面下載下來 def

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

leaflet簡單操作demo

polygon width enter oom 級別 head itl 業務做了今天大意了解了一下leaflet這個開源的 JavaScript 庫，很強大。結合騰訊地圖，做了個簡單的demo，作為一個學習的起點吧（各種API結合自身的業務） <!DOCTY

selenium+PhantomJS簡單爬蟲

10月19 span 文件名 usr fin pre except sta selector #!/usr/bin/env python # -*- coding: utf-8 -*- ‘‘‘ Created on 2017年10月19日 @author: zz

C#可擴展編程之MEF學習筆記（一）：MEF簡介及簡單的Demo（轉）

com ring this exec hosting code .cn 引用展開在文章開始之前，首先簡單介紹一下什麽是MEF，MEF,全稱Managed Extensibility Framework（托管可擴展框架）。單從名字我們不難發現：MEF是專門致力於解決擴展性

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

Reactor模式的.net版本簡單實現--DEMO

pad ring target current orm 抽象基類分享 public 其他近期在學習DotNetty，遇到不少的問題。由於dotnetty是次netty的.net版本的實現。導致在網上敘述dotnetty的原理，以及實現技巧方面的東西較少，這還是

node 寫的簡單爬蟲

color cheerio spa blog post 新浪爬取 ext tex 安裝cheerio npm install cheerio --save 引入http和cheeri var http=require("http"); var cheerio=requi

python 簡單爬蟲

.... ror gbk 訪問 req 爬取 exc .cn 所有使用urllib.request 和re 模塊 1 from urllib.request import * 2 import re #處理網絡訪問 3 #獲取網頁 4 url = ‘https:/

一個爬取52破解的全部帖子地址的簡單爬蟲

軟件調試 ict print __main__ 逆向慶典活動 exception requests 總頁數 1 # -*- coding:utf-8 -*- 2 import requests 3 from bs4 import BeautifulSou

vue簡單使用demo

sage style ESS func see 查看信息 src 初始 tle <html> <head> <title>vue</title>

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python--開發簡單爬蟲

運行流程服務器技術分享 spa HR tom ID 下載 The 簡單爬蟲架構動態運行流程 URL管理器的作用 URL管理器的3種實現方式網頁下載器的作用 Python網頁下載器的種類 urllib2下載網頁的3種方法網頁解析器的作用 Pyt

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

簡單爬蟲學習記錄

技術 RM block 管理 ffffff png size images 51cto 實現思路解析：爬蟲調度器：啟動/停止爬蟲，規定爬蟲的範圍；URL管理器：管理2個URL：新的沒有爬過的urls；舊的爬過的urls；URL下載器：下載url對應的html數據；

python簡單爬蟲筆記

wow write file except .com 下載 app sina retrieve python模擬遊覽器爬取相關頁面 import urllib.request url="http://blog.51cto.com/itstyle/2146899" #模擬

python bs4 + requests4 簡單爬蟲

sts lec logs .html 自信 app nco soup spa 參考鏈接： bs4和requests的使用：https://www.cnblogs.com/baojinjin/p/6819389.html 安裝pip：https://blog.csdn.net

簡單的爬蟲demo

相關推薦