python3爬蟲-快速入門-爬取圖片和標題

阿新 • • 發佈：2018-07-16

瀏覽器 ebr tle path requests itl edi 大致應用

直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個

https://www.cnblogs.com/sss4/p/7809821.html

import os#同來創造文件夾
import requests#發送請求和得到響應用的
from bs4 import BeautifulSoup#用來解析回應的數據

def GetHtmlText(url):#得到響應數據
    try:
        r = requests.get(url)#發送url
        r.raise_for_status()#判斷是否成功
        r.encoding = ‘ 
utf-8‘#設置編碼格式
        return r.text#返回他的響應數據
    except:
        return ‘‘
def main(pages):
    filepath=os.getcwd()+‘\爬的圖片\\‘#創造一個文件夾
    if not os.path.exists(filepath):#如果沒有則創造
        os.makedirs(filepath)

    pagenum=pages#要爬取的頁數
    fnum=1
    for page in range(pages):
        url="https://movie.douban.com/celebrity/1048000/photos/?type=C&start= 
"+str(page*30)+‘&sortby=like&size=a&subtype=a‘#第幾頁
        html=GetHtmlText(url)
        soup=BeautifulSoup(html,‘html.parser‘)#html。parser是解析器
        uls=soup.find_all(‘ul‘,class_="poster-col3 clearfix")#從響應的數據中找到ul class是xxxx的數據
        for ul in uls:
            imgs=ul.find_all(‘img‘ 
) #找到img的標簽
            for img in imgs:
                imgurl=img[‘src‘]#得到img的url
                imgcontent=requests.get(imgurl).content#得到這個url下的內容content，應該是二進制的
                filename=str(fnum)+‘.jpg‘
                with open(filepath+filename,‘wb‘) as wf:#二進制形式寫入數據
                    wf.write(imgcontent)
                fnum+=1


if __name__ == ‘__main__‘:
    main(9)

再來個爬去標題類的

import requests
from bs4 import BeautifulSoup

url="http://www.jianshu.com"
headers={‘User-Agent‘:‘SE 2.X MetaSr 1.0‘}#設置請求頭的User-Agent，理解的話可以認為是從哪個瀏覽器發出的，不然的話會被反爬蟲
page=requests.get(url=url,headers=headers)
page_info=page.text
page_bf=BeautifulSoup(page_info,‘html.parser‘)

#print(page_bf.prettify())
titles=page_bf.find_all(‘a‘,‘title‘)

for title in titles:
    print(title.string)
    print(‘http://www.jianshu.com‘+title.get(‘href‘))
with open(r"D:\untitled\爬蟲爬到的標題.txt","w",encoding=‘utf-8‘) as file:
    for title in titles:
        file.write(title.string+‘\n‘)
        file.write("http://www.jianshu.com"+title.get(‘href‘)+‘\n\n‘)

這個是下載小說的---（別人的代碼）

from bs4 import BeautifulSoup
import requests,sys
class downloader(object):
    def __init__(self):
        self.server="http://www.biqukan.com/"
        self.target="http://www.biqukan.com/1_1094"
        self.name=[]
        self.urls=[]
        self.nums=0

    def get_download_url(self):
        req=requests.get(url=self.target)
        html=req.text
        div_bf=BeautifulSoup(html)
        div=div_bf.find_all(‘div‘,class_=‘listmain‘)
        a_bf=BeautifulSoup(str(div[0]))
        a=a_bf.find_all(‘a‘)
        self.nums=len(a[15:])
        for each in a[15:]:
            self.name.append(each.string)
            self.urls.append(self.server+each.get(‘href‘))
    def get_contents(self ,target):
        req=requests.get(url=target)
        html=req.text
        bf=BeautifulSoup(html)
        texts=bf.find_all(‘div‘,class_=‘showtxt‘)
        texts=texts[0].text.replace(‘\xa0‘*8,‘\n\n‘)
        return texts
    def writer(self,name,path,text):
        write_flag=True
        with open(path,"a",encoding=‘utf-8‘) as f:
            f.write(name+‘\n‘)
            f.writelines(text)
            f.write(‘\n\n‘)

dl=downloader()
dl.get_download_url()
print("開始下載")
for i in range(dl.nums):
    dl.writer(dl.name[i], ‘一念永恒.txt‘, dl.get_contents(dl.urls[i]))
    sys.stdout.write("  已下載:%.3f%%" %  float(i/dl.nums) + ‘\r‘)
    sys.stdout.flush()
print(‘《一年永恒》下載完成‘)

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

小白爬蟲入門——爬取圖片和文字（超詳細）

第一步，看網頁結構 F12開啟開發者模式，大致網頁結構如下，看圖：下面這個圖片是針對一個tr標籤的詳解，程式碼與顯示一一對應：第二步，程式碼解釋 lxml簡單使用在自己想爬取的文字位置上單擊右鍵，選擇copy–>Xp

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

【Python3爬蟲】我爬取了七萬條彈幕，看看RNG和SKT打得怎麼樣

一、寫在前面　　直播行業已經火熱幾年了，幾個大平臺也有了各自獨特的“彈幕文化”，不過現在很多平臺直播比賽時的彈幕都基本沒法看的，主要是因為網路上的噴子還是挺多的，尤其是在觀看比賽的時候，很多彈幕不是噴選手就是噴戰隊，如果看了這種彈幕，真是讓比賽減分不少。　　　　但和別的平臺

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Python3爬蟲小程式——爬取各類天氣資訊

本來是想從網上找找有沒有現成的爬取空氣質量狀況和天氣情況的爬蟲程式，結果找了一會兒感覺還是自己寫一個吧。主要是爬取北京包括北京周邊省會城市的空氣質量資料和天氣資料。過程中出現了一個錯誤：UnicodeDecodeError: 'utf-8' codec can't de

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

用python3從網頁中爬取圖片下載到本地

前提：使用的python是python3版本，2和3還是有很大的區別的。 1、先找一個有圖片的網頁（這裡找到的是新浪：http://photo.sina.com.cn）。右鍵，選擇最後一個檢查，就可以看到網頁的原始碼。然後是圖片的都是在標籤（）中。 urllib

python爬蟲: 指定關鍵字爬取圖片

Introduction 設定關鍵字，從百度圖片上爬取海量圖片。 Code # coding:utf-8 import os import re import urllib import shutil import requests import i

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

python3 爬蟲實戰之爬取網易新聞APP端

（一）使用工具這裡使用了火狐瀏覽器的user-agent外掛，不懂的可以點這裡火狐外掛使用（二）爬蟲操作步驟：百度網易新聞並選擇步驟一：步驟二：步驟三：步驟四：最後一步：注意點：（1

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

歷時一下午加一晚上，終於把這個爬蟲程式碼寫好，後面還有很多想完善的地方（譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等），待有空再做更改，下面是具體的步驟與思路：工具：PyC

java爬蟲WebMagic框架爬取圖片

一.該爬蟲用了WebMagic爬蟲框架實現 2.在使用之前，您需要了解正則表示式和XPath，大神請忽略二.下面是實現程式碼和分析 2.1新增maven依賴 <dependency> <groupId>juni

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

python之爬蟲的入門02------爬取圖片、異常處理

一、爬取一張圖片 import urllib.request req = 'http://placekitten.com/400/400' # url地址 response = urllib.request.urlopen(req) #用檔案形式來開啟url地址對應的HTML頁

python3爬蟲-快速入門-爬取圖片和標題

相關推薦