python爬取亞馬遜簡單的書籍資訊

阿新 • • 發佈：2019-01-22

我有個需求就是抓取一些簡單的書籍資訊儲存到mysql資料庫，例如，封面圖片，書名，型別，作者，簡歷，出版社，語種。

我比較之後，決定在亞馬遜來實現我的需求。

我分析網站後發現，亞馬遜有個高階搜尋的功能，我就通過該搜尋結果來獲取書籍的詳情URL。

由於亞馬遜的高階搜尋是用get方法的，所以通過分析，搜尋結果的URL，可得到node引數是代表書籍型別的。field-binding_browse-bin是代表書籍裝飾。

所以我固定了書籍裝飾為平裝，而書籍的型別，只能每次執行的時候，爬取一種型別的書籍難過

之後就是根據書籍詳情頁面利用正則表示式來匹配需要的資訊了。

以下原始碼，命名不是很規範。。。

import requests
import sys
import re
import pymysql

class product:
    type="歷史"
    name=""
    author=""
    desciption=""
    pic1=""
    languages=""
    press=""

def getProUrl():
    urlList = []
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36" 
}
    session = requests.Session()
    furl="https://www.amazon.cn/gp/search/ref=sr_adv_b/?search-alias=stripbooks&field-binding_browse-bin=2038564051&sort=relevancerank&page="
    for i in range(1,7):
        html=""
        print(furl+str(i)) 
        html = session.post(furl+str(i)+'&node=658418051' 
,headers = headers)
        html.encoding = 'utf-8'
        s=html.text.encode('gb2312','ignore').decode('gb2312')
        url=r'</li><li id=".*?" data-asin="(.+?)" class="s-result-item celwidget">'
        reg=re.compile(url,re.M)
        items = reg.findall(html.text)
        for i in range(0,len(items)):
            urlList.append(items[i])
    urlList=set(urlList)
    return urlList

def getProData(url):
    pro = product()
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"}
    session = requests.Session()
    zurl="https://www.amazon.cn/dp/"
    html = session.get(zurl+url,headers = headers)
    html.encoding = 'utf-8'
    s=html.text.encode('gb2312','ignore').decode('gb2312')
    pro.pic1=getProPic(html)
    pro.name=getProName(html)
    pro.author=getProAuthor(html)
    pro.desciption=getProDescrip(html)
    pro.press=getProPress(html)
    pro.languages=getProLanguages(html)
    return pro

def getProPic(html):
    pic=r'id="imgBlkFront" data-a-dynamic-image="{&quot;(.+?)&quot;.*?}"'
    reg=re.compile(pic,re.M)
    items = reg.findall(html.text)
    if len(items)==0:
        return ""
    else:
        return items[0]

def getProName(html):
    name=r'<div class="ma-title"><p class="wraptext goto-top">(.+?)<span'
    reg=re.compile(name,re.M)
    items = reg.findall(html.text)
    if len(items)==0:
        return ""
    else:
        return items[0]

def getProAuthor(html):
    author=r'<span class="author.{0,20}" data-width="".{0,30}>.*?<a class="a-link-normal" href=".*?books">(.+?)</a>.*?<span class="a-color-secondary">(.+?)</span>'
    reg=re.compile(author,re.S)
    items = reg.findall(html.text)
    au=""
    for i in range(0,len(items)):
        au=au+items[i][0]+items[i][1]
    return au

def getProDescrip(html):
    Descrip=r'<noscript>.{0,30}<div>(.+?)</div>.{0,30}<em></em>.{0,30}</noscript>.{0,30}<div id="outer_postBodyPS"'
    reg=re.compile(Descrip,re.S)
    items = reg.findall(html.text)
    if len(items)==0:
        return ""
    else:
        position = items[0].find('海報：')
        descrip=items[0]
        if position != -1:
            descrip=items[0][0:position]
        return descrip.strip()

def getProPress(html):
    press=r'<li><b>出版社:</b>(.+?)</li>'
    reg=re.compile(press,re.M)
    items = reg.findall(html.text)
    if len(items)==0:
        return ""
    else:
        return items[0].strip()


def getProLanguages(html):
    languages=r'<li><b>語種：</b>(.+?)</li>'
    reg=re.compile(languages,re.M)
    items = reg.findall(html.text)
    if len(items)==0:
        return ""
    else:
        return items[0].strip()

def getConnection():
    config = {
          'host':'121.**.**.**',
          'port':3306,
          'user':'root',
          'password':'******',
          'db':'home_work',
          'charset':'utf8',
          'cursorclass':pymysql.cursors.DictCursor,
          }
    connection = pymysql.connect(**config)
    return connection

urlList = getProUrl()
i = 0
for d in urlList:
    i = i + 1
    print (i)
    connection = getConnection()
    pro = getProData(d)
    try:
        with connection.cursor() as cursor:
            sql='INSERT INTO books (type,name,author,desciption,pic1,languages,press) VALUES (%s,%s,%s,%s,%s,%s,%s)'
            cursor.execute(sql,(pro.type,pro.name,pro.author,pro.desciption,pro.pic1,pro.languages,pro.press))
        connection.commit()
    finally:
        connection.close();

python爬取亞馬遜簡單的書籍資訊

我有個需求就是抓取一些簡單的書籍資訊儲存到mysql資料庫，例如，封面圖片，書名，型別，作者，簡歷，出版社，語種。我比較之後，決定在亞馬遜來實現我的需求。我分析網站後發現，亞馬遜有個高階搜尋的功能，我就通過該搜尋結果來獲取書籍的詳情URL。由於亞馬遜

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；二.分析頁面的請求：首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：觀察到其url

amazon爬取亞馬遜頁面信息

爬蟲 pyton代碼：# -*- coding: cp936 -*-import requestsfrom lxml import etreeASIN = ‘B00X4WHP5E‘#ASIN = ‘B017R1YFEG‘url = ‘https://www.amazon.com/dp/‘+ASINr = re

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

利用python爬取IP地址歸屬地等資訊！

import requests url = "http://m.ip138.com/ip.asp?ip=" try: r = requests.get(url + '202.204.80.112') r.raise_for_status()

python爬取新浪財經的股票資訊

import requests import threading def display_info(code): url = 'http://hq.sinajs.cn/list=' + code response = requests.get(url).t

利用python爬取我愛我家租賃房源資訊

主要思路： 1.通過get方法向伺服器提交head檔案和cookie資訊（通過在chrome網頁上面登入之後獲取，避免了通過賬號密碼模擬登陸的繁瑣過程），實現模擬登陸的效果 2.訪問網頁，通過萬能的正則匹配到所需要的資訊具體演算法有3步驟： 1.從租賃房源的第一頁至第10

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

使用正則定位價格，更簡單 import requests import re url = 'https://www.amazon.cn/s/field-keywords=spark' # 隱藏爬蟲 head = {'user-agent':'Mozilla/5.0 (Window

python爬蟲（五）：實戰【4. 爬亞馬遜】

目標：在亞馬遜網站搜尋商品，爬取前10頁的商品（名字和價格）第一步：訪問網站，隱藏爬蟲亞馬遜對爬蟲限制比較嚴格，修改headers、cookies、代理ip 獲取cookie：f12在console輸入document.cookie() 注意：cookies格式為字典，{'a':

用python生成亞馬遜 ItenSearch api 的簽名

下面是php的程式碼，轉換成python程式碼 <?php // Your Access Key ID, as taken from the Your Account page $acce

Python爬取句子迷-莎士比亞語錄

爬取句子迷——莎士比亞語錄(約2290個句子，229個分頁) 這個練手的過程，在我不使用IP代理的情況下，我使用的IP慘遭封禁數次，好在隔幾個小時就會被解封，但我卻好比黏人的鼻涕蟲一般，句子不給我，我就不走了，哼哼。工具使用的是 Python3.7 + requests + Beautiful

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

三、亞馬遜產品定價其實就這麼簡單，一個公式解決

目錄海貓跨境作者：海貓跨境 2016-11-24 16:33:51 如果產品銷量不好，很多賣家首先想到的是圖片、listing是不是做的不夠好，很少賣家會想想是不是自己的定價有問題，定價對銷量的影響也是至關重要的，定價是一門高深的學問，如果產品

Python爬取百度貼吧回帖中的微訊號（基於簡單http請求）

作者：草小誠轉載請注原文地址：https://blog.csdn.net/cxcjoker7894/article/details/85685115 前些日子媳婦兒有個需求，想要一個任意貼吧近期主題帖的所有回帖中的微訊號，用來做一些微商的操作，你懂的。因為有些貼吧專門就是

亞馬遜爬蟲-python

找實習遇到的作業：最終結果：實現程式碼分兩部分：抓取書籍id,爬取詳細資料 1： import requests import re from pyquery import PyQuery as pq #提取一個代理 def get_proxy():

使用Python爬取學校學生資訊！（簡單爬蟲）

很久木有來寫博文啦，發現學校的教務系統很多童鞋都木有修改初始密碼，於是博主就想寫試用python寫一個爬蟲小指令碼，將木有修改初始密碼的童鞋資料扒下來，然後嘿嘿嘿~~~通知他們修改！鑑於寫博文時未通知這些受害童鞋們，因此隱去關鍵資訊。首先為初始化方法__

django 上傳靜態檔案到雲(亞馬遜S3)的簡單設定

django 的預設靜態路徑是儲存在本地的某些資料夾中的，要將靜態檔案的儲存路徑指向到雲，除了修改settings中的檔案路徑，還需要安裝相應的庫下面是使用django將上傳的檔案直接儲存在亞馬遜s3上的配置，如有不當和錯誤請指正。 1. 申請S3雲端儲存，這裡不再細說

MongoDB+Python 爬取寶寶樹問答模組並進行簡單分析

前幾天剛學了MongoDB的。聽說有諸多好處。邊想著來感受下。恰逢一好友職位調整，需要了解目前母嬰市場圍繞的重心。所以便我去寶寶樹，爬取問答，看看媽媽們都在想什麼。整體思路 1，爬取各大問題分類及其連結。分成一級分類，二級分類。比如準備懷孕 - 懷孕

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

python爬取亞馬遜簡單的書籍資訊

相關推薦