Python 爬蟲七夕福利

阿新 • • 發佈：2018-08-18

mkdir ins print mage -- max src wow inpu

祝大家七夕愉快

妹子圖

 1 import requests
 2 from lxml import etree
 3 import os
 4 def headers(referer):#圖片的下載可能和頭部的referer有關,所以將referer設為變換值,以躲避反扒
 5     headers = {
 6         ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘,
 7         ‘Referer 
‘: ‘{}‘.format(referer)}
 8     return headers
 9 def Tuji(pag):#找圖集
10     fullurl = ‘http://www.mzitu.com/page/{}/‘.format(pag)
11     shouye_html = requests.get(fullurl)
12     shouye_html_text = shouye_html.text
13     shouye_ele = etree.HTML(shouye_html_text)
14     tj_list = shouye_ele.xpath(‘//*[@id="pins"]/li/a/@href 
‘)#找每頁的圖集url
15     Tuji_url_list = []
16     for tj_url in tj_list:
17         Tuji_url_list.append(tj_url)
18     return Tuji_url_list
19 def gettuji_info(tj_url_list):#圖集的url列表 收集圖集的相關信息
20     for tj_url_1 in tj_url_list: #tj_url_1 --- > http://www.mzitu.com/146823
21         tj_html = requests.get(tj_url_1, headers=headers(tj_url_1))
 
22         tj_html_text = tj_html.text
23         tj_ele = etree.HTML(tj_html_text)
24         img_title = tj_ele.xpath(‘//h2[@class="main-title"]/text()‘)[0]  # 圖集名稱
25         max_pag_list = int(tj_ele.xpath(‘/html/body/div[2]/div[1]/div[4]/a[5]/span/text()‘)[0])  # 找最大頁數
26         if os.path.exists(img_title) == True:
27             print(‘!‘)
28         else:
29             os.mkdir(img_title)
30             for i in range(1, int(max_pag_list + 1)):
31                 tj_url_2 = tj_url_1 + ‘/‘+str(i)  #tj_url_2 ---> http://www.mzitu.com/146823 + pag
32                 tj_html = requests.get(tj_url_2, headers=headers(tj_url_1))
33                 tj_html_text = tj_html.text
34                 tj_ele = etree.HTML(tj_html_text)
35                 img_url = tj_ele.xpath(‘//div[@class="main-image"]/p/a/img/@src‘)[0] # 從不同的tj_url_2中找圖片的url
36                 print(‘正在下載‘+img_title+‘第‘+str(i)+‘張‘)
37                 with open(img_title+‘/‘+str(i)+‘.jpg‘, "wb+") as jpg:
38                     jpg.write(requests.get(img_url, headers=headers(tj_url_2)).content)
39 
40 if __name__ == ‘__main__‘:
41     pags = int(input(‘你想搞幾頁的嘿嘿?‘))
42     for pag in range(1,pags+1):
43         gettuji_info(Tuji(pag))

Python 爬蟲七夕福利

mkdir ins print mage -- max src wow inpu 祝大家七夕愉快妹子圖 1 import requests 2 from lxml import etree 3 import os 4 def headers(referer):#

python爬蟲(七)_urllib2：urlerror和httperror

mat 打開 urllib dfs prot 有用 esp except log urllib2的異常錯誤處理在我們用urlopen或opener.open方法發出一個請求時，如果urlopen或opener.open不能處理這個response，就產生錯誤。這裏主要說

Python 爬蟲(七)-- Scrapy 模擬登入

1. Cookie原理 HTTP是無狀態的面向連線的協議, 為了保持連線狀態, 引入了Cookie機制 Cookie是http訊息頭中的一種屬性，包括： Cookie名字（Name）Cookie的值（Value） Cookie的過期時間（Expires/Max-Age） C

七夕孕媽福利

七夕孕媽活動七夕，美中約您過個不一樣的情人節　　“迢迢牽牛星，皎皎河漢女，纖纖擢素手，劄劄弄機杼....”傳古至今，數不盡的詩詞歌賦描寫了唯美浪漫的七夕節，一年一度的七夕就要到了，是時候給單身汪撒上一波狗糧啦~ 　　都說孩子上輩子是父母的情人，準爸爸、孕媽媽們更是因為有了寶寶而心情激動，和“小情人”有說不

Python爬蟲(十七)_糗事百科案例

exce html str window path {} zh-cn use src 糗事百科實例爬取糗事百科段子，假設頁面的URL是: http://www.qiushibaike.com/8hr/page/1 要求：使用requests獲取頁面信息，用XPath/

用Python十秒做表白神器！雖然520已經過去了，但是還有七夕啊！

渴望 exp 特征輸入 run 現在 separate imagenet pos 520小編也是吃到了一大波狗糧啊，有錢的超級浪漫，沒錢的也很會玩！所以小編今天決定還是教大家來做一款表白神器，就算這次用不著沒下次也是肯定可以用的著的！今天，我就來教大家一下，如何用

python爬蟲知識點總結（七）PyQuery詳解

get 初始化 span 2個查看 sel docs lin query 官方學習文檔：http://pyquery.readthedocs.io/en/latest/api.html 一、什麽是PyQuery? 答：強大有靈活的網頁解析庫，模仿jQuery實現。如果你覺

開學季，七夕惠，一個大大大大大福利！

.html 開發技術 span 報名 edi 4.3 千萬鼠標高能預警：全民秀恩愛的日子即將到來。或許你也嗅到了空氣中濃郁的愛的荷爾蒙刷刷朋友圈，滿屏幕的告白、求婚。但別忘了，還有一個詞語叫“單身”呢？情侶們秀恩愛不斷創造出高難度，單身狗已經感受到來自整個世界深深的惡

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

自學python爬蟲（七）selenium庫的使用

一、基本概念 selenium，是一種自動化測施工具，支援多種瀏覽器。爬蟲中主要用來解決JavaScript渲染問題。二、具體用法說在前面：筆者是以GooleChrome瀏覽器來進行測試的，當然其他瀏覽器也可以，具體下面會講到不同的瀏覽器不同做法。 1、下載安裝：chr

還沒寫過爬蟲的小白點進來，一文帶你入門python爬蟲（小白福利）

入門準備工作需要準備的東西： Python、scrapy、一個IDE或者隨便什麼文字編輯工具。隨便建一個工作目錄，然後用命令列建立一個工程，工程名為miao，可以替換為你喜歡的名字。 scrapy startproject miao 隨後你會得到如下的一個由scrapy建立

Python爬蟲第七篇--PyQuery庫

PyQuery庫簡介網頁解析庫比正則和BeautifulSoup語法更簡單需要熟悉jQuery語法安裝 MacOS：pip3 install pyquery 初始化字串初始化 html = ''' <div

Python爬蟲獲取最近七天天氣預報資訊

主要用到python的requests庫和BeatifulSoup庫，程式碼如下： #encoding:utf-8 import requests import psycopg2 import datetime import re from bs4 import Beaut

小白福利貼：18個Python爬蟲實戰案例（已開源）

加qq群813622576或vx:tanzhouyiwan免費獲取Python視訊教程以及各類PDF！爬蟲小工具 downloader.py:檔案下載小助手一個可以用於下載圖片、視訊、檔案的小工具，有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。動

python爬蟲入門七：pymysql庫

我們使用python爬取得到的資料，有時候會資料量特別大，需要存入資料庫。需要注意的是，MySQL是一種關係型資料庫管理系統，利用MySQL可以對資料庫進行操作，而MySQL並不是一個數據庫。而pymysql庫的作用就是在python中對MySQL進行操作。簡單來說，使用pymys

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

Python爬蟲入門七之正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容，不過還差一步，這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢？下面就開始介紹一個十分強大的工具，正則表示式！ 1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組（完整學習過程螢幕記錄視訊地址在文末）從今天起開始正式學習Python的爬蟲。今天已經初步瞭解了兩個主要的模組： requests BeautifulSoup 一

孤荷淩寒自學python第七十二天開始寫Python的第一個爬蟲2

db2 它的 def 基礎上開始零基礎精神 agent 收費孤荷淩寒自學python第七十二天開始寫Python的第一個爬蟲2 （完整學習過程屏幕記錄視頻地址在文末）今天在上一天的基礎上繼續完成對我的第一個代碼程序的書寫。直接上代碼。詳細過程見文末屏

孤荷淩寒自學python第七十五天開始寫Python的第一個爬蟲5

爬蟲社區現在清晰學習之路 for -m Nid 語音孤荷淩寒自學python第七十五天開始寫Python的第一個爬蟲5 （完整學習過程屏幕記錄視頻地址在文末）今天在上一天的基礎上繼續完成對我的第一個代碼程序的書寫。直接上代碼。詳細過程見文末屏幕錄像

Python 爬蟲 七夕福利

相關推薦

Python 爬蟲七夕福利