教你使用Python網路爬蟲獲取菜譜資訊，

阿新 • • 發佈：2020-12-15

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲作者：Python進階者

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

/1 前言/

在放假時，經常想嘗試一下自己做飯，下廚房這個網址是個不錯的選擇。

下廚房是必選的網址之一，主要提供各種美食做法以及烹飪技巧。包含種類很多。

今天教大家去爬取下廚房的菜譜，儲存在world文件，方便日後製作自己的小菜譜。

/2 專案目標/

獲取菜譜，並批量把菜名、原料、下載鏈接、下載儲存在world文件。

/3 專案準備/

軟體：PyCharm

需要的庫：requests、lxml、fake_useragent、time

網站如下：

https://www.xiachufang.com/explore/?page={}

點選下一頁時，每增加一頁page自增加1，用{}代替變換的變數，再用for迴圈遍歷這網址，實現多個網址請求。

/4 反爬措施的處理/

主要有兩個點需要注意：

1、直接使用requests庫，在不設定任何header的情況下，網站直接不返回資料

2、同一個ip連續訪問多次，直接封掉ip，起初我的ip就是這樣被封掉的。

為了解決這兩個問題，最後經過研究，使用以下方法，可以有效解決。

1）獲取正常的 http請求頭，並在requests請求時設定這些常規的http請求頭。

2）使用 fake_useragent ，產生隨機的UserAgent進行訪問。

/5 專案實現/

1、定義一個class類繼承object，定義init方法繼承self，主函式main繼承self。匯入需要的庫和網址，程式碼如下所示。

import requests
from lxml import etree
from fake_useragent import 
 UserAgent
import time

class  kitchen(object):
    def __init__(self):
      self.url = "https://www.xiachufang.com/explore/?page={}"

    def main(self):
        pass

if __name__ == '__main__':
    imageSpider =  kitchen()
    imageSpider.main()

2、隨機產生UserAgent。

 for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

3、傳送請求獲取響應, 頁面回撥，方便下次請求。

def get_page(self, url):
    res = requests.get(url=url, headers=self.headers)
    html = res.content.decode("utf-8")
    return html

4、xpath解析一級頁面資料,獲取二級頁面網址。

def parse_page(self, html):
    parse_html = etree.HTML(html)
    image_src_list = parse_html.xpath('//li/div/a/@href')

5、for遍歷，定義一個變數food_info儲存，獲取到二級頁面對應的菜名、原料、下載鏈接。

for i in image_src_list:
       url = "https://www.xiachufang.com/" + i
       # print(url)
       html1 = self.get_page(url)  # 第二個發生請求
       parse_html1 = etree.HTML(html1)
       # print(parse_html1)
       num = parse_html1.xpath('.//h2[@id="steps"]/text()')[0].strip()
       name = parse_html1.xpath('.//li[@class="container"]/p/text()')
       ingredients = parse_html1.xpath('.//td//a/text()')
       food_info = '''  
第 %s 種
           
菜 名 : %s
原 料 : %s
下 載 鏈 接 : %s,
=================================================================
                    ''' % (str(self.u), num, ingredients, url)

6、儲存在world文件。

 f = open('下廚房/菜譜.doc', 'a', encoding='utf-8')  # 以'w'方式開啟檔案
 f.write(str(food_info))
 f.close()

7、呼叫方法，實現功能。

html = self.get_page(url)
self.parse_page(html)

8、專案優化

1）方法一：設定時間延時。

 time.sleep(1.4)

2）方法二：定義一個變數u,for遍歷，表示爬取的是第幾種食物。（更清晰可觀）。

u = 0
self.u += 1;

/6 效果展示/

1、點選綠色小三角執行輸入起始頁，終止頁。

2、執行程式後，結果顯示在控制檯，如下圖所示。

3、將執行結果儲存在world文件中，如下圖所示。

4、雙擊檔案，內容如下圖所示。

/7 小結/

1、本文章基於Python網路爬蟲，獲取下廚房網站菜譜資訊，在應用中出現的難點和重點，以及如何防止反爬，做出了相對於的解決方案。

2、介紹瞭如何去拼接字串，以及列表如何進行型別的轉換。

3、程式碼很簡單，希望能夠幫到你。

4、歡迎大家積極嘗試，有時候看到別人實現起來很簡單，但是到自己動手實現的時候，總會有各種各樣的問題，切勿眼高手低，勤動手，才可以理解的更加深刻。

5、可以選擇自己喜歡的分類，獲取自己喜歡的菜譜，每個人都是廚師。

教你使用Python網路爬蟲獲取菜譜資訊，

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

爬取動漫美女，手把手教你用Python網路爬蟲獲取動漫圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面

【一、專案背景】有道翻譯作為國內最大的翻譯軟體之一，使用者量巨大。在學習時遇到不會的英語詞彙，會第一時間找翻譯，有道翻譯就是首選。今天教大家如何去獲取有道翻譯手機版的翻譯介面。

一篇文章教會你利用Python網路爬蟲獲取素材圖片

【一、專案背景】在素材網想找到合適圖片需要一頁一頁往下翻，現在學會python就可以用程式把所有圖片儲存下來，慢慢挑選合適的圖片。

一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

【一、專案背景】窮遊網提供原創實用的出境遊旅行指南、攻略，旅行社群和問答交流平臺，以及智慧的旅行規劃解決方案，同時提供簽證、保險、機票、酒店預訂、租車等線上增值服務。窮遊“鼓勵和幫助中國旅行者以自己的

Python網路爬蟲中重新請求，請問有什麼比較好的解決方法？

大家好，我是皮皮。一、前言前幾天在Python鑽石群有個叫【某嘟】的粉絲問了一個關於Python網路爬蟲中重新請求的問題，這裡拿出來給大家分享下，一起學習。

手把手教你用Python網路爬蟲進行多執行緒採集高清遊戲桌布

一、背景介紹大家好，我是皮皮。對於不同的資料我們使用的抓取方式不一樣,圖片,視訊,音訊,文字,都有所不同,由於網站圖片素材過多,所以今天我們使用多執行緒的方式採集某站4K高清桌布。

Python網路爬蟲資訊提取mooc程式碼例項

例項一--爬取頁面 import requests url=\"https//itemjd.com/2646846.html\" try: r=requests.get(url) r.raise_for_status()

Python爬蟲：手把手教你寫迷你爬蟲架構

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲架構模板 —— 教你規範寫爬蟲！

講解了這麼多期的python爬蟲教程，那你真的會寫爬蟲了嗎？為什麼這樣問呢，因為我們日常寫小爬蟲都是一個py檔案加上幾個請求，但是如果你去寫一個正式的專案時，你必須考慮到很多種情況，所以我們需要把這些功能全部

一篇文章教會你使用Python網路爬蟲下載酷狗音樂

【一、專案背景】現在的聽歌軟體動不動就是各種付費，要下載軟體才能聽，當你下載了之後，你會驚奇的發現這首歌還收費，這就讓一向喜歡白嫖的小編感到很傷心了。於是，小編冥思苦想，終於讓我發現了其中的奧祕，一起

006 Python網路爬蟲與資訊提取資訊組織與提取方法

[A] 資訊標記的三種形式　　　　資訊標記：通過網路爬蟲，我們可以獲取各式各樣的資訊，比如地址資訊，姓名資訊，日期資訊，年代資訊等，這些資訊會很冗雜

007 Python網路爬蟲與資訊提取中國大學排名爬蟲

[A] 中國大學排名定向爬蟲例項介紹　　功能描述　　　　輸入：大學排名URL連結

Python網路爬蟲與資訊提取_網課筆記1

技術標籤：python 目錄 HTTP協議HTTP協議對資源的操作PATCH和PUT的區別 HTTP協議方法與Requests庫方法一一對應requests.head()requests.post()

Python網路爬蟲與資訊提取MOOC學習——Requests庫網路爬蟲實戰

技術標籤：Python Requests庫網路爬蟲實戰例項一：商品頁面的爬取通過連結獲取商品資訊，通過GET方法獲取連結內容【京東商品URL連結：https://item.jd.com/2967929.html 中國亞馬遜網站商品連結 https://www.

【Python爬蟲】15行程式碼教你爬B站視訊彈幕，詞雲圖展示資料（附原始碼）

知識點爬蟲基本流程正則 requests >>> pip install requests jieba >>> pip install jieba

Python使用psutil獲取程序資訊的例子

psutil是什麼 psutil是一個能夠獲取系統資訊（包括程序、CPU、記憶體、磁碟、網路等）的Python模組。主要用來做系統監控，效能分析，程序管理，像glances也是基於psutil寫成的。

手把手教你Python yLab的繪製折線圖的畫法

Python的視覺化工具有很多，數不勝數，各有優劣。本文就對其中的pylab進行介紹。之所以介紹這一款，是因為它和Matlab的強烈相似度，如果你使用過Matlab，那麼相信pylab你也會很快上手。

python網路爬蟲 CrawlSpider使用詳解

CrawlSpider 作用：用於進行全站資料爬取 CrawlSpider就是Spider的一個子類如何新建一個基於CrawlSpider的爬蟲檔案

python網路爬蟲 Scrapy中selenium用法詳解

引入在通過scrapy框架進行某些網站資料爬取的時候，往往會碰到頁面動態資料載入的情況發生，如果直接使用scrapy對其url發請求，是絕對獲取不到那部分動態加載出來的資料值。但是通過觀察我們會發現，通過瀏覽器進行

教你使用Python網路爬蟲獲取菜譜資訊，

/2 專案目標/

/3 專案準備/

/4 反爬措施的處理/

/5 專案實現/

/6 效果展示/

/7 小結/

相關推薦