資訊時代程式設計師輕鬆帶你爬取汽車之家資料

阿新 • • 發佈：2020-08-26

使用BeautifulSoup模組
使用正則表示式
使用到多執行緒爬取
使用說明
使用前請安裝BeauifulSoup
執行程式後會在當前目錄下生成txt檔案,內容為json格式.如下所示:

{“branch_first_letter”: “S”, “branch_name”: “薩博”, “branch_id”: “64”, “producer”: “薩博”, “producer_id”: “”, “car_series”: “Saab 900 
”, “car_series_id”: “s2630”, “car_price”: }
原始碼
#!/usr/bin/env python 
# -*- coding: utf-8 -*-
# @Time    : 2020/1/16 15:34
# @Author  : wsx
# @Site    : 
# @File    : cars.py
# @Software: PyCharm

import json
from multiprocessing import Pool
import requests
from requests.exceptions import RequestException
import re
 
from bs4 import BeautifulSoup


def get_one_page(url):
    """
    請求網頁函式.
    :param url:
    :return:
    """
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0'}
    try:
        response = requests.get(url, headers=headers)
        print(response.status_code)
         
if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None


def parse_one_page(html, first_letter):
    """
    網頁處理函式, 生成器
    :param html:
    :param first_letter:
    :return:iterable
    """
    # 載入網頁
    soup = BeautifulSoup(html, 'lxml')
    # 建立字典,儲存資料
    info = {'branch_first_letter': '', 'branch_name': '', 'branch_id': '', 'producer': '', 'producer_id': '',
            'car_series': '', 'car_series_id': '', 'car_price': ''}
    # 找出所需資訊在的標籤
    branches = soup.find_all('dl')
    # 先獲取品牌
    for branch in branches:
        info['branch_name'] = branch.dt.div.a.string.strip()
        info['branch_id'] = branch['id']
        info['branch_first_letter'] = first_letter
        print('正在抓取...品牌:', info['branch_name'])

        # 生成新的處理塊
        block = branch.find_all('dd')
        soup = BeautifulSoup(str(block), 'lxml')
        # 獲取某一品牌下的所有制造商
        producers = soup.find_all('div', attrs={'class': 'h3-tit'})

        for producer in producers:
            info['producer'] = producer.a.get_text().strip()
            # 找不到這個引數呀.
            info['producer_id'] = ''
            print('正在抓取...生產商:', info['producer'])
            cars = producer.find_next('ul')

            for car in cars.find_all('li', attrs={'id': True}):
                info['car_series_id'] = car['id']
                info['car_series'] = car.h4.a.get_text().strip()
                # 價格這個引數難提取, 初步過濾一下
                price = car.find_all('a', attrs={'class': True, 'data-value': False})
                # 判斷一下抓取的是不是價格, 用正則表示式再過濾一下
                if price:
                    print(price[0].get_text())
                    if re.match('.*?萬.*?', price[0].get_text(), re.S):
                        info['car_price'] = price[0].get_text().strip()
                    else:
                        info['car_price'] = '暫無報價'
                # 做成迭代器
                yield info


def write_file(content):
    """
    將抓取資料儲存成Json檔案
    :param content:
    :return: None
    """
    with open('cars.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()


def main(first_letter):
    """
    主函式
    :param first_letter:
    :return: None
    """
    html = get_one_page('https://www.autohome.com.cn/grade/carhtml/' + first_letter + '.html')
    soup = BeautifulSoup(html, 'lxml')
    html = soup.prettify()

    # 測試時先存在本地以免頻繁訪問站點
    # with open('car_home.html', 'w', encoding='utf-8') as f:
    #     f.write(html)
    #     f.close()
    # with open('car_home.html', 'r', encoding='utf-8') as f:
    #     html = f.read()
    #     f.close()

    for item in parse_one_page(html, first_letter):
        write_file(item)


if __name__ == '__main__':
    # 如不需要按照字母順序, 則uncomment
    # pool = Pool()
    # pool.map(main, [chr(i + ord('A')) for i in range(26)])
    # 如需要多執行緒, 則comment
    for letter in [chr(i + ord('A')) for i in range(26)]:
        main(letter)

大家可能會問:為什麼爬取個簡單的資料還要三層迴圈?我主要考慮到資料之間的關聯性、層級性才使用了三層迴圈，這樣才能保證資料之間的層級關係保持不亂。
編寫程式碼過程中遇到BeautifulSoup中,find_all()方法如果只需要確定是否存在某個屬性,而不指定具體屬性值,可以寫成下面這樣:

car.find_all('a', attrs={'class': True, 'data-value': False})

資訊時代程式設計師輕鬆帶你爬取汽車之家資料

使用BeautifulSoup模組使用正則表示式使用到多執行緒爬取使用說明使用前請安裝BeauifulSoup執行程式後會在當前目錄下生成txt檔案,內容為json格式.如下所示:

爬取汽車之家車型配置檔案

一、需求獲取指定品牌的所有車型配置資訊，並儲存到excel中。流程大致思路：

桌布不嫌棄多，今天帶你爬取動漫桌布網站（福利哦）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲-帶你爬取高清美女圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲——帶你爬取古詩名句，考試什麼的不就是輕輕鬆鬆

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

爬取站長之家免費簡歷

爬取站長之家免費簡歷 import os import requests from lxml import etree dir_name = \'./簡歷模板\'

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

程式設計師輕鬆繪圖神器

我們程式設計師在工作生活中，有很多場合下需要繪製圖表，比如PPT裡的圖表，學習筆記的一些助記圖，還有最常見的，工作中大量使用的流程圖。

程式設計師書籍，你值得收藏

面試寶典程式設計師的演算法趣題百度雲下載連結密碼:5vnv 程式設計師程式碼面試指南：IT 名企演算法與資料結構題目最優解百度雲下載連結密碼:5jpz

新時代程式設計師都用什麼寫程式碼？

分享一些優秀的寫程式碼工具和使用感受大家好，我是魚皮。俗話說的好：工欲善其事，必先利其器。一款好的開發工具對程式設計師來說是至關重要的，可以降低開發成本、提高開發的效率和程式碼質量。

網路熱帖惹爭議，程式設計師高薪現象你怎麼看？

近日，知乎上的一個關於程式設計師薪資的話題引起程式設計師們的熱議。

別人的1024程式設計師節VS你的1024程式設計師節

1024程式設計師節是廣大程式設計師的共同節日。1024是2的十次方，二進位制計數的基本計量單位之一。針對程式設計師經常週末加班與工作日熬夜的情況，部分網際網路機構倡議每年的10月24日為1024程式設計師節。到今

程式設計師的數學基礎課原來取餘操作本身就是個雜湊函式 4

你好，我是黃申。今天我們來聊聊“餘數”。提起來餘數，我想你肯定不陌生，因為我們生活中就有很多很多與餘數相關的例子。比如說，今天是星期三，你想知道 50 天之後是星期幾，那你可以這樣算，拿 50 除以 7（因為一

教你如何使用Python爬蟲爬取美團美食資料！外賣小專家的報到了！

1.分析美團美食網頁的url引數構成 1）搜尋要點美團美食，地址：北京，搜尋關鍵詞：火鍋

歌曲網站，教你爬取 mp3 和 lyric

從歌曲網站，獲取音訊和歌詞的流程： 1，輸入歌曲名，查詢網站中存在的歌曲 id

Python爬蟲，帶你製作高逼格的資料聚合雲圖

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬取某東羽絨服資料，用視覺化幫你挑選心儀的衣服

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

教你如何爬取美團網資料，就是那麼的簡單

本文的文字及圖片過濾網路，可以學習，交流使用，不具有任何商業用途，如有問題請及時聯絡我們以作處理。

一文帶你用 SQL 征服數學建模資料處理

一文帶你領略 SQL 的強大 1. SQL 簡介 SQL (Structured Query Language:結構化查詢語言) 是用於用於管理關係資料庫管理系統（RDBMS）。 SQL 的範圍包括資料插入、查詢、更新和刪除，資料庫模式建立和修改，

資訊時代程式設計師輕鬆帶你爬取汽車之家資料

相關推薦