1. 程式人生 > 實用技巧 >python爬取圖片遇見src亂碼: data:image/png;base64

python爬取圖片遇見src亂碼: data:image/png;base64

  python爬取圖片遇見src亂碼: data:image/png;base64

  向爬取自己喜歡的圖片,但是在爬取下來的程式碼當中圖片的src會出現亂碼的情況:data:image/png;base64。搞了我好長時間,試過偽裝headers,也試過通過修改網頁js的內容來讓img的src顯示出來,也試過修改div的display屬性,但是全部都沒用,最後瞭解了才知道,這是Data URI scheme。

一:Data URI scheme:

  目的是將一些小的資料,直接嵌入到網頁中,從而不用再從外部檔案載入。比如上面那串字元,其實是一張小圖片,將這些字元複製黏貼到火狐的位址列中並轉到,就能看到它了,一張1X36的白灰png圖片

  資料分類:data表示取得資料的協定名稱,image/png 是資料型別名稱,base64 是資料的編碼方法,逗號後面就是這個image/png檔案base64編碼後的資料

  這樣寫的好處(對我這種萌新來說簡直災難):影象檔案的內容直接寫在了HTML 檔案中,節省了一個HTTP 請求。

二:使用python爬取解決的方法

  解決思路:

    它就是普通的<imgsrc="...."/>屬性值。使用你的能夠解析html的解析器,找到imageelement,取得它的src屬性值,將base64格式的字串轉為byte[],然後放到MemoryStream中供Image控制元件讀取,畫出圖片。(如果只是輸出,得到byte[]資料結構即可)

  舉例:

string txt = @"";

var tmpArr = txt.Split(',');

byte[] bytes = Convert.FromBase64String(tmpArr[1]);

using (MemoryStream ms = new MemoryStream(bytes))

{

    ms.Write(bytes, 0, bytes.Length);

    var img 
= Image.FromStream(ms, true); img.Save("demo.png"); }

  爬取圖片的時候,使用python中的bs64來編碼Data URI:

    # 使用BeautifulSoup來獲取對應的標籤的屬性值:使用點get,裡面再加一個屬性值的字串就好了,ok
    strings=str(bs.find(name="img",attrs={"class":"comicimg"}).get('src'))

    #解碼bs64格式的Data URI
    '''
        1.pip匯入base64的包,這個不用pip下載,pycharm自帶
        2.將src的前面編碼方式和後面的碼分離出來,兩者使用逗號相連,而且只有一個
        3.使用b64decode編碼器編譯,並儲存到字元節陣列data裡面
        4.將其字符集寫入檔案當中,就會生成所需要的檔案(為什麼匯出來的圖片是白板??)
    '''
    head1,encode=strings.split(',',1)
    data=b64decode(encode)
    with open("image_src.png","wb") as f:
        f.write(data)
        f.close()

  注意:本人暫時還沒有成功。。。。。。待續。。。