python spider - 爬取噹噹網好評榜TOP200的圖書資訊

阿新 • • 發佈：2021-06-17

import requests, re, json

def request_dangdang(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None

def parse_result(html):
    pattern = re.compile('<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">&yen;(.*?)</span>.*?</li> 
',re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'range': item[0],
            'title': item[2],
            'price': item[6]
        }

def write_file(item):
    print('開始寫入資料 ====> ' + str(item))
    with open('book.txt', 'a', encoding='UTF-8') as f:
        f.write(json.dumps(item, ensure_ascii 
=False) + '\n')
        f.close()

def main(page):
    url = 'http://bang.dangdang.com/books/fivestars/1-' + str(page)
    html = request_dangdang(url)
    items = parse_result(html)

    for item in items:
        write_file(item)


if __name__ == "__main__":
    for i in range(1,11):
        main(i)

python spider - 爬取噹噹網好評榜TOP200的圖書資訊

import requests, re, json def request_dangdang(url): try: response = requests.get(url) if response.status_code == 200:

Python手把手教你爬取噹噹網五星好評書籍，拿走不謝

來啦，老弟 python 我們已經知道怎麼使用 Requests 進行各種請求騷操作也知道了對伺服器返回的資料如何使用

Python爬取噹噹網APP資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬取貓眼電影Top100榜單的資訊

爬取並寫入MySQL中 import pymysql import requests from bs4 import BeautifulSoup headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \'

python爬蟲爬取豆瓣一週榜單

技術標籤：pythonpython爬蟲 #首先準備request庫和lxml庫 import requests from lxml import etree

實操 | 從0到1教你用Python來爬取整站天氣網

Scrapy Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python爬蟲實現使用beautifulSoup4爬取名言網功能案例

本文例項講述了Python爬蟲實現使用beautifulSoup4爬取名言網功能。分享給大家供大家參考，具體如下：

Python利用Xpath選擇器爬取京東網商品資訊

HTML檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式一個標籤，標籤之間存在上下關係，形成標籤樹；XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

Python爬取招聘網資訊

1、資料來源：職友集 2、程式碼 import requests import openpyxl import time from bs4 import BeautifulSoup #用於解析和提取網頁資料的

python來爬取煎蛋網隨手拍小姐姐圖片

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python爬取入門——爬取中技網技術需求並存儲入mysql資料庫

一、開啟中技網網站　　右鍵檢查，找到可以進入二級網頁即各個需求詳情的入口，如圖

python利用BeautifulSoup爬取瓜子網內容並儲存在csv檔案

這裡需要匯入requests庫和BeautifulSoup庫和lxml庫 lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高

python 爬蟲爬取豆瓣Top250榜單

python 爬蟲爬取豆瓣Top250榜單這是一個小作業。 request模組使用request.get(url)可以爬取一個網址的資訊

手把手教你用Python爬取某網小說資料，並進行視覺化分析

網路文學是以網際網路為展示平臺和傳播媒介，藉助相關網際網路手段來表現文學作品及含有一部分文字作品的網路技術產品，在當前成為一種新興的文學現象，並快速興起，各種網路小說也是層出不窮，今天我們使用seleniu

python爬蟲爬取網易雲音樂（超詳細教程，附原始碼）

一、前言先說結論，目前無法下載無損音樂，也無法下載vip音樂。此程式碼模擬web網頁js加密的過程，向api介面傳送引數並獲取資料，僅供參考學習，如果需要下載網易雲音樂，不如直接在客戶端下載，客戶端還可以下載

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。