python網頁爬蟲淺析

阿新 • • 發佈：2017-09-30

python

Python網頁爬蟲簡介：

有時候我們需要把一個網頁的圖片copy 下來。通常手工的方式是鼠標右鍵 save picture as ...

python 網頁爬蟲可以一次性把所有圖片copy 下來。

步驟如下：

1. 讀取要爬蟲的html

2. 對爬下來的html 進行存儲並處理：

存儲原始html
過濾生成list
正則匹配出picture的連接

3. 根據連接保存圖片到本地

主要的難點：

熟悉urllib ,
正則匹配查找圖片鏈接

代碼如下：

import urllib.request
import os
import re

def getHtml(url):       #get html       
    page = urllib.request.urlopen(url)
    html = page.read()
    return html
def write(html, htmlfile):        #write html into a file name html.txt
    try:
        f = open(htmlfile, mode=‘w‘)
        f.writelines(str(html))
        f.close()
    except TypeError:
        print ("write html file failed")

def getImg2(html, initialFile, finalFile): 
    reg = ‘"*‘          #split string html with " and write in file name re.txt
    imgre1 = re.compile(reg)
    imglist = re.split(imgre1, str(html))
    f1 = open(initialFile, mode=‘w‘)
    for index in imglist:
        f1.write("\n")
        f1.write(index)
    f1.close
    reg2 = "^https.*jpg"     # match items start with "https" and ends with "jpg"
    imgre2 = re.compile(reg2)
    f2 = open(initialFile, mode=‘r‘)
    f3 = open(finalFile, mode=‘w‘)
    tempre = f2.readlines()
    for index in tempre:
        temp = re.match(imgre2,index)
        if temp != None:
            f3.write(index)
            #f3.write("\n")
    f2.close()
    f3.close()

def saveImg2(imagefile):        #save image 
    f_imglist2 = open(imagefile, mode=‘r‘)
    templist = f_imglist2.readlines()
    x = 0
    for index in templist:
        urllib.request.urlretrieve(index,‘%s.jpg‘ %x)
        x = x + 1

html = "https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%BA%FB%B5%FB&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111"
htmlfile = "D:\\New\\html.txt"
SplitFile = "D:\\New\\re.txt"
imgefile = "D:\\New\\imglist.txt"

html = getHtml(html)
print("get html complete!")
getImg2(html, SplitFile, imgefile)
print("get Image link list complete! ")
saveImg2(imgefile)
print("Save Image complete!")

python網頁爬蟲淺析

pythonPython網頁爬蟲簡介：有時候我們需要把一個網頁的圖片copy 下來。通常手工的方式是鼠標右鍵 save picture as ...python 網頁爬蟲可以一次性把所有圖片copy 下來。步驟如下：1. 讀取要爬蟲的html2. 對爬下來的html 進行存儲並處理：存儲原始html過濾生成l

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

round b+ param 有意做了你會 lib extra 補充本文轉載自：https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%B

python網頁爬蟲開發之五-反爬

build referer mac eee pac -o strip 不響應 win64 1、頭信息檢查是否頻繁相同隨機產生一個headers， #user_agent 集合 user_agent_list = [ ‘Mozilla/5.0 (Windows N

python網頁爬蟲開發之六-Selenium使用

scrip python ref ges 加載圖片 browser 網頁加載 content 很慢 chromedriver禁用圖片，禁用js，切換UA selenium 模擬chrome瀏覽器，此時就是一個真實的瀏覽器，一個瀏覽器該加載的該渲染的它都加載都渲染，所以爬取

xpath: Python網頁爬蟲定位輔助利器

網頁爬蟲可以使用Python的正則模組(re), 當然我今天要隆重推薦的是xpath. xpath需要安裝xpath的基礎包:lxml 首先看一個例子:(爬取果殼的最新推薦文章列表) import requests from lxml import

最簡單的Python網頁爬蟲

下面是用Python3寫的可以抓取任意網頁的程式碼，經過測試，馬上可用。這裡的示例抓取的是新浪實時股票資料。 #-*- coding: utf-8 -*- 任意網頁下載器 Created on Wed Dec 21 15:08:43 2016 @autho

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異，Python2.x調用urllib用指令urllib.urlopen（），運行時報錯：AttributeErr

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python之網頁爬蟲request模組

#########網頁爬蟲######### ## requests模組 - 對requests模組的理解 http/1.1請求的封裝, 可以輕鬆實現cookie， IP代理，登陸驗證等操作; Requests 使用的

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

centos7+php+mysql+python將爬蟲結果顯示到網頁上

php執行控制檯指令 $output = shell_exec(''); 新增apache許可權 ~ visudc root ALL=(ALL) ALL apache ALL=

Python 學習入門（6）—— 網頁爬蟲

Python抓取網頁方法，任務是批量下載網站上的檔案。對於一個剛剛入門python的人來說，在很多細節上都有需要注意的地方，以下就分享一下在初學python過程中遇到的問題及解決方法。1、Python抓取網頁import urllib,urllib2url = "http://

Python十分適合用來開發網頁爬蟲

Python十分適合用來開發網頁爬蟲，理由如下：1、抓取網頁自身的介面比較與其他靜態程式語言，如java，c#，c++，python抓取網頁文件的介面更簡練；比較其他動態指令碼語言，如perl，shell，python的urllib2包供給了較為完整的訪問網頁文件的API。（當然ruby也是很好的挑

Python網路爬蟲中的網頁中文正則表示式匹配小心得

這是第一篇部落格，關於在正則表示式的情況下通過python的re模組對爬蟲爬下的網頁資料進行正則表示式，匹配得出所有中文字元 #!/usr/bin/python # -*- coding: utf-8 -*- import re def matchURL_info(

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

python網路爬蟲與資訊採取之解析網頁例項---oJ期末成績排名

目的:打印出排名，學號，姓名，成績；首先，開啟網頁的原始碼，如下：你會發現，很混亂，沒有層次感；不用急，告訴你一個小技巧，先使用 soup.prettify（）函式進行格式化一下，得到如下結果：這樣就好受多了；接下來對原始碼進行分析；你會想這麼多難道要一句句

python網頁爬蟲淺析

相關推薦