網路爬蟲筆記（Day4）

阿新 • • 發佈：2018-11-01

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/

步驟：1、檢視網頁，查詢我們需要的URL，分析URL

2、獲取網頁內容，分析內容

3、定位我們需要的內容

4、將資料儲存

在搜素框輸入要搜尋的內容（例如：街拍），然後選擇圖集，F12檢查，檢視Ajax請求：

第一次Ajax請求：

再往下拉，觸發第二次、第三次Ajax請求：（下圖第二次Ajax請求）

分析URL後發現發現規律只有offset不同（第一次offset=0，第二次offset=20，第三次offset=40、、），其他內容都相同，此時我們得到了當前頁面的所有圖片文章的URL（每條只可以看到四張，但是裡面本應該有8張，如下圖一），但是我們得不到具體一個裡面的所有圖片。故我們需要再進去此URL，再去分析具體一篇圖片文章的所有圖片URL（下圖二）。

然後我們再分析get請求的Response，我們去分析返回值，查找出每張圖片的URL，如下圖我們找出了圖片對應的URL路徑：

所有的分析到這裡就結束了，接下來就是程式碼實現。

完整程式碼如下：

import re
import requests
import json
import os
from urllib import request

filename = 'Download'
if not os.path.exists(filename):
    os.mkdir(filename)  # 新建資料夾用於存放圖片
i = 0
strdes = 0  
offset = 20
while i < 10:
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
        }
    # 第一層 url
    url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery'.format(str(offset*i))
    response = requests.get(url, headers=headers)
    res_dict = response.json()
    # print(res_dict)
    # address_url =
    res_dict_data = res_dict['data']
    # print(res_dict_data)
    # print(type(res_dict_data))
    for url_dict in res_dict_data:
        # 獲取到的第二層url
        url = url_dict['article_url']
        print(url)
        
        response = requests.get(url, headers=headers)
        info = response.text

        re_m = r'gallery: JSON\.parse\((.*)\),'
        msg = re.search(re_m, info)
        if msg == None:
            break
        msg_info = msg.group(1)
        
            
        
        msg_str = json.loads(msg_info)
        msg_dict = json.loads(msg_str)
        # print(msg_dict)
        info_msg = msg_dict['sub_images']
        for j in info_msg:
            images_url = j['url']
            # print(images_url)
            # img_name = filename + '/' + images_url.split('/')[-1] + '.jpg'
            
            img_name = filename + '/' + str(strdes) + '.jpg'
            strdes += 1

            print(img_name)
            request.urlretrieve(images_url, img_name)
    
    i = i + 1

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

現在隨處可見 https 開頭的網站，urllib2可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/等...如果SSL證書驗證不通過，或者作業系統不信任伺服器的

nodejs爬蟲筆記（三）

target ole n+2 如何獲取利用 mod git brush 所有思路：通過筆記（二）中代理的設置，已經可以對YouTube的信息進行爬取了，這幾天想著爬取網站下的視頻信息。通過分析YouTube，可以從訂閱號入手，先選擇幾個訂閱號，然後爬取訂閱號裏面的視頻分

python網絡爬蟲筆記（四）

inf 比較小寫字母網絡爬蟲作用自定義 gpo 外部而且一、python中的高階函數算法 1、sorted()函數的排序 sorted()函數是一個高階函數，還可以接受一個key函數來實現自定義的函數排序，key指定的函數作用於每個序列元素上，並根據key函

python網絡爬蟲筆記（九）

out 模塊 ade npe tex visible 代碼端口號 pac 4.1.1 urllib2 和urllib是兩個不一樣的模塊 urllib2最簡單的就是使用urllie2.urlopen函數使用如下 urllib2.urlopen(url[,

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

9.png amp F12 不存在 strong xls sco 列表 std (一) 分析網頁下載下面這個鏈接的銷售數據 https://item.jd.com/6733026.html#comment 1、翻頁的時候，谷歌F12的Network頁簽可以

python | 爬蟲筆記（五）- 數據存儲

height iter use jordan rip 輕量數據存儲回滾 nosql 5.1 文件存儲先用request把源碼獲取，再用解析庫解析，保存到文本 1- txt 文本打開方式： file = open(‘explore.txt‘, ‘a‘, encodin

python | 爬蟲筆記 - （八）Scrapy入門教程

RoCE yield ini 配置自己數據存儲 2.3 rom 提取數據一、簡介 Scrapy是一個基於Twisted 的異步處理框架，是針對爬蟲過程中的網站數據爬取、結構性數據提取而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

神經網路學習筆記（1）Image Classification

學習網站：資料驅動方法 KNN（例如採用L1曼哈頓距離）程式碼如下： import numpy as np class NearestNeighbor: def train(self,X,y): self.Xtrain=X self

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

計算機網路讀書筆記（一）概述

一、計算機網路在資訊時代中的作用（1）計算機網路使使用者能夠在計算機之間傳送資料檔案（2）當今世界上最大的計算機網路Internet——網際網路（3）可以從兩個方面來認識網際網路：網際網路的應用和網際網路的工作原理（4）網際網路兩個基本特點：連通性和共享（共享指資源共享，可以

Python爬蟲筆記（一）——基礎知識簡單整理

登陸時候的使用者名稱和密碼可以放在http的頭部也可以放在http的body部分。 HTTPS是否可以抓取由於https運用的加密策略是公開的，所以即使網站使用https加密仍然可以獲得資料，但是類似於微信這樣的app，它自己實現了一套加密演算法，想要抓取資料就變得

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

網路爬蟲筆記（Day4）

相關推薦