爬蟲亞馬遜Bestselling類別產品資料TOP100

阿新 • • 發佈：2020-09-17

 1 # -*- coding: utf-8 -*-
 2 # @Time : 2020/9/11 16:23
 3 # @Author : Chunfang
 4 # @Email : [email protected]
 5 # @File : amazon_bestseller_cate_url.py
 6 # @Software: PyCharm
 7 
 8 import random,requests
 9 import re
10 
11 def secend_cates_url(url):#正則匹配二級標題
12     # print(url)
13     page_data = get_data(url)
 
14     url_cates = re.findall("<li><a href='(https://www.amazon.com/Best.*?)'>(.*?)</a></li>", page_data, re.S)
15     # print('二級標題有',url_cates)
16     url_cate_all.append(url_cates)
17     # print(page_data)
18 
19 def get_html_data(page_data):#正則匹配一級標題
20     url_cates = re.findall(" 
<li><a href='(https://www.amazon.com/Best.*?)'>(.*?)</a></li>",page_data,re.S)
21     # print('一級標題有',url_cates)
22     url_cate_all.append(url_cates)
23     # secend_cates_url(url_cates[0][0])
24     for i in range(len(url_cates)):
25         secend_cates_url(url_cates[i][0])
26 
27 
 def randHeader():
28     head_connection = ['Keep-Alive', 'close']
29     head_accept = ['text/html, application/xhtml+xml, */*']
30     head_accept_language = ['zh-CN,fr-FR;q=0.5', 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']
31     head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
32                        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
33                        'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
34                        'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
35                        'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
36                        'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
37                        'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
38                        'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
39                        'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
40                        'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
41                        'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
42                        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
43                        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
44                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
45                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
46                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
47                        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
48                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
49                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
50                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']
51 
52     header = {
53         'Connection': head_connection[0],
54         'Accept': head_accept[0],
55         'Accept-Language': head_accept_language[1],
56         'User-Agent': head_user_agent[random.randrange(0, len(head_user_agent))]
57     }
58     return header
59 
60 def get_data(url):#獲取頁面資料
61     headers = randHeader()
62     page_data = requests.get(url, headers, timeout=20)
63     import html
64     page_data = html.unescape(page_data.text)
65     return page_data
66 
67 def save_to_excel(url_cate_all):
68     url_cate_alls = []
69     for i in range(len(url_cate_all)):
70         for j in range(len(url_cate_all[i])):
71             # print('所有的標題連結：',url_cate_all[i][j])
72             url_cate_alls.append(url_cate_all[i][j])
73     url_cate_all_only = list(set(url_cate_alls))
74     # print('唯一一個連結和分類：',url_cate_all_only)
75     return url_cate_all_only
76 
77 def url_cate_all_only():
78     global url_cate_all
79     url_cate_all = []
80     url = 'https://www.amazon.com/Best-Sellers-Womens-Clothing/zgbs/fashion/1040660/ref=zg_bs_unv_3_9522931011_1'
81     page_data = get_data(url)
82     # print(page_data)
83     get_html_data(page_data)
84     # print(url_cate_all)
85     url_cate_all_only = save_to_excel(url_cate_all)
86     return url_cate_all_only

  1 # -*- coding: utf-8 -*-
  2 # @Time : 2020/9/9 17:30
  3 # @Author : Chunfang
  4 # @Email : [email protected]
  5 # @File : amazon_best_sellers.py
  6 # @Software: PyCharm
  7 
  8 import requests
  9 import re,os,random
 10 from openpyxl import load_workbook
 11 
 12 from amazon_bestseller_cate_url2 import url_cate_all_only
 13 
 14 def down_imgs(url_xuhao,url_img,pro_name):#下載圖片
 15     for i in range(len(url_xuhao)):
 16         print('正在下載第' + str(i+1) + '張圖片，圖片地址：' + str(url_img[i]))
 17         try:
 18             header = randHeader()
 19             pic = requests.get(url_img[i], header,timeout=10)
 20         except requests.exceptions.ConnectionError:
 21                 print('錯誤！當前圖片無法下載')
 22                 continue
 23         dir = cwd + '\\images_amazon\\' + pro_name + '_' + url_xuhao[i] + '.jpg'#執行路徑下自己手動新建一個images_amazon檔案加，存放圖片
 24         with open(dir, 'wb') as file:
 25             file.write(pic.content)
 26 
 27 def save_pro_to_excel(products_inf,pro_name):#熱賣產品資料儲存到Excel表
 28     t = ws.max_row
 29     for i in range(len(products_inf)):
 30         for j in range(len(products_inf[i])):
 31             # ws.cell(j + 2, i + 1).value = products_inf[i][j]  # 序號
 32             ws.cell(t+1+j, 1).value = pro_name
 33             ws.cell(t+1+j, i+2).value = products_inf[i][j]  # 產品資訊
 34     wb.save(path)
 35 
 36 def down_products(result,pro_name):#正則匹配產品資訊
 37     products_inf = []
 38     # url_title = re.findall('<div class="p13n-sc-truncate p13n-sc-line-clamp-2" aria-hidden="true" data-rows="2">\n            (.*?)\n        </div>',result,re.S)
 39     url_title = re.findall('<div class=".*?" aria-hidden=".*?" data-rows=".*?">\n            (.*?)\n        </div>',result, re.S)
 40     url_pro = re.findall('<div class="a-row"><a class="a-link-normal a-text-normal" href="(.*?)"><span class="a-size-base a-color-price">',result,re.S)
 41     url_price = re.findall('<span class="a-size-base a-color-price"><span class=.*?>(.*?)</span>',result,re.S)
 42     url_xuhao = re.findall('<span class="zg-badge-text">#(.*?)</span></span>',result,re.S)
 43     url_img = re.findall('<div class="a-section a-spacing-small"><img alt=".*?src="(https.*?)" height="200" width="200"></div></span>',result,re.S)
 44 
 45 
 46     products_inf.append(url_xuhao)
 47     products_inf.append(url_title)
 48     products_inf.append(url_price)
 49     products_inf.append(url_pro)
 50     products_inf.append(url_img)
 51     print(products_inf)
 52 
 53     save_pro_to_excel(products_inf, pro_name)
 54     down_imgs(url_xuhao, url_img, pro_name)
 55 
 56 #生成隨機頭
 57 def randHeader():
 58     head_connection = ['Keep-Alive', 'close']
 59     head_accept = ['text/html, application/xhtml+xml, */*']
 60     head_accept_language = ['zh-CN,fr-FR;q=0.5', 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']
 61     head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
 62                        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
 63                        'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
 64                        'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
 65                        'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
 66                        'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
 67                        'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
 68                        'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
 69                        'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
 70                        'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
 71                        'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
 72                        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
 73                        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
 74                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
 75                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
 76                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
 77                        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
 78                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
 79                        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
 80                        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']
 81 
 82     header = {
 83         'Connection': head_connection[0],
 84         'Accept': head_accept[0],
 85         'Accept-Language': head_accept_language[1],
 86         'User-Agent': head_user_agent[random.randrange(0, len(head_user_agent))]
 87     }
 88     return header
 89 
 90 def start_url(pro_name,url):
 91     headers = randHeader()
 92     result = requests.get(url, headers, timeout=20)
 93     import html
 94     result = html.unescape(result.text)
 95     # print(result)
 96     # 呼叫函式，下載頁面產品資訊：序號，標題，產品最低價格，產品連結，產品圖片和連結
 97     down_products(result,pro_name)
 98 
 99 if __name__ == '__main__':
100     cwd = os.getcwd()
101     path = cwd+'\\AmazonBestsellers.xlsx'
102     wb = load_workbook(path)
103     ws = wb.worksheets[0]
104     table_titles = ['產品類別','序號','產品標題','產品最低價格','產品連結','產品圖片連結']
105     for i,table_title in enumerate(table_titles):
106         ws.cell(1,i+1).value = table_title
107     wb.save(path)
108 
109     # amazon_urls = [
110     #     #一級標題--女裝衣服
111     #     'https://www.amazon.com/Best-Sellers-Womens-Clothing/zgbs/fashion/1040660/ref=zg_bs_pg_1?_encoding=UTF8&pg=1',
112     #     'https://www.amazon.com/Best-Sellers-Womens-Clothing/zgbs/fashion/1040660/ref=zg_bs_pg_2?_encoding=UTF8&pg=2',
113     #     #二級標題--女裝裙子
114     #     'https://www.amazon.com/Best-Sellers-Womens-Dresses/zgbs/fashion/1045024/ref=zg_bs_pg_1?_encoding=UTF8&pg=1',
115     #     'https://www.amazon.com/Best-Sellers-Womens-Dresses/zgbs/fashion/1045024/ref=zg_bs_pg_2?_encoding=UTF8&pg=2',
116     #     #三級標題--女裝日常款裙子
117     #     'https://www.amazon.com/Best-Sellers-Womens-Casual-Dresses/zgbs/fashion/2346727011/ref=zg_bs_pg_1?_encoding=UTF8&pg=1',
118     #     'https://www.amazon.com/Best-Sellers-Womens-Casual-Dresses/zgbs/fashion/2346727011/ref=zg_bs_pg_2?_encoding=UTF8&pg=2'
119     # ]
120 
121     amazon_urls = []
122     all_urls = url_cate_all_only()
123     for i in range(len(all_urls)):
124         amazon_urls.append(all_urls[i][0])      # 一級、二級分類下的所有頁面連結
125     print(len(amazon_urls))
126     print(amazon_urls)
127 
128     for i in range(len(amazon_urls)):
129         pro_name = amazon_urls[i].split('/')
130         print(pro_name[3])
131         print(pro_name[3][13:])
132         start_url(pro_name[3][13:],amazon_urls[i])

爬蟲亞馬遜Bestselling類別產品資料TOP100

1 # -*- coding: utf-8 -*- 2 # @Time : 2020/9/11 16:23 3 # @Author : Chunfang 4 # @Email : [email protected]

亞馬遜站內廣告資料分析

一、廣告的清理將停止的，歸檔的廣告先過濾掉，這個可以在廣告的左側“篩選”項完成，我們可以選擇“已啟用”的選項，這樣做的好處是，把原來那些已經無用的廣告篩選出去，可以讓我們的資料看起來更清爽；

C# 獲取亞馬遜介面資料

簡明扼要：就是根據需求拼接好一長串Url請求地址首先 .http://docs.developer.amazonservices.com/zh_CN/dev_guide/ 先了解先亞馬遜介面資料獲取得大致流程

Python資料分析之亞馬遜股價

今天用Python簡單分析一下亞馬遜上市至今的股價，沒有太多實質性的東西，但學學技術還可以。主要包括下面幾個方面：

亞馬遜擬開設電子產品折扣店，將以極高折扣出售庫存商品

北京時間 4 月 2 日早間訊息，據報道，亞馬遜考慮開設一家專門出售家居用品和電子產品的折扣店，從而大舉擴大該公司不斷增長的實體店業務。

美法院裁定：第三方賣家產品有問題，亞馬遜也擔責

5 月 2 日訊息美國加州一家上訴法院裁定，亞馬遜要對其平臺上第三方賣家銷售的問題產品承擔責任。

美國討論新假冒產品法案：亞馬遜等電商平臺將承擔更多責任

北京時間 5 月 28 日上午訊息，據報道，根據美國眾議院小組委員會近期討論的一項法案，亞馬遜和 eBay 等電商平臺將對第三方賣家在其網站上出售危險的假冒產品一事，承擔更多的責任。

亞馬遜涉嫌利用收集的資料為自身牟利，英國將正式調查

北京時間 6 月 10 日訊息，三位知情人士稱，英國競爭和市場管理局 (CMA) 正計劃對亞馬遜公司展開正式競爭調查，以查明它是如何使用所收集的資料。

亞馬遜遭美國商品安全部門起訴：因第三方銷售缺陷產品

北京時間 7 月 15 日早間訊息，據報道，美國消費產品安全委員會（CPSC）對亞馬遜發起訴訟，希望法院裁定這家電商巨頭為其第三方市場上出售的缺陷產品負責。

因違反資料隱私法規，訊息稱亞馬遜被歐盟罰款 8.88 億美元

7 月 30 日訊息北京時間 7 月 30 日晚間，據報道，亞馬遜因違反資料隱私法規被歐盟處以創紀錄的 8.88 億美元罰款。

亞馬遜將為第三方賣家產品問題買單：最高向用戶賠償 1000 美元

北京時間 8 月 10 日晚間訊息，據報道，亞馬遜今日宣佈，對於那些在亞馬遜平臺上購買第三方賣家出售的瑕疵商品，而造成傷害或財產損失的美國客戶，亞馬遜將向他們支付賠償金。

美參議員致信亞馬遜 CEO：掌紋支付服務引發資料擔憂

北京時間 8 月 14 日凌晨訊息，據報道，美國一群參議員今日致信亞馬遜新任 CEO 安迪・賈西（Andy Jassy），敦促亞馬遜提供更多有關如何掃描和儲存顧客掌紋的資訊。

亞馬遜已開發車輛電子記錄裝置：監控卡車司機並收集資料

8 月 23 日早間訊息，亞馬遜正在採取行動，更直接地監控卡車司機在倉庫之間運輸貨物所花費的時間。這可能會幫助亞馬遜更好地發現可能的安全違規行為，同時獲取大量其他資料。

機器人等新產品沒有能遏制亞馬遜股價下跌

北京時間 9 月 29 日訊息，投資者通常根據未來利潤和現金流對亞馬遜等成長型股票估值，美國國債收益率上漲，會降低成長型股票對投資者的吸引力。最近數天 10 年期美國國債收益率突破 1.5%，是亞馬遜等成長型股票下跌

美國會擬下週提出一項法案，禁止谷歌、亞馬遜等偏袒自家產品

北京時間 10 月 14 日晚間訊息，據報道，以美國民主黨參議員艾米・克洛布查爾（Amy Klobuchar）和共和黨參議員查克・格拉斯利（Chuck Grassley）為首的兩黨議員小組，計劃提出一項法案，禁止亞馬遜和谷歌等大型科技公

亞馬遜 AWS CEO：未來將推出更多自研晶片產品

10 月 15 日，亞馬遜（AMZN-US）網路服務業務（AWS）新上任 CEO 賽利普斯基（Adam Selipsky）接受 CNBC 採訪時表示，亞馬遜計劃未來將設計更多自研晶片，為客戶帶來更多效益。賽利普斯基表示：“到目前為止，我們已經

【優優工場雲原生的GPU虛擬化AI平臺產品 XPU】通過亞馬遜 AWS Marketplace對外發布

AWS Marketplace是全球規模最大最成功的公有云生態產品和服務目錄，它使客戶能夠輕鬆查詢、測試、部署和管理他們在AWS全球範圍內當前20個區域（AWS 中國包括北京和寧夏兩個區域）執行系統所需要的第三方軟體和服務。

亞馬遜 AWS 計劃在加拿大西部新建資料中心，預計 2023 年底投入使用

11 月 9 日訊息，當地時間週一亞馬遜宣佈將在加拿大西部建設資料中心，提升公司在加拿大市場的雲服務連線速度和資訊儲存能力。亞馬遜表示，公司將在阿爾伯塔省卡爾加里周邊開闢一處區域擴建基礎設施，在蒙特利爾現有

美證監會調查亞馬遜利用賣家資料促進自有業務

北京時間 4 月 7 日訊息，知情人士稱，美國聯邦證券監管機構正在調查亞馬遜公司是如何披露其商業行為的某些細節的，包括它是如何在自有品牌業務中使用第三方賣家資料的。美國證券交易委員會 (SEC) 正在調查亞馬遜如何

利用光學和SAR資料進行亞馬遜熱帶雨林監測

亞馬遜熱帶雨林，670萬平方公里，物種豐富，森林歷史悠久。巴西環保局用光學和SAR資料進行森林監測，主要監測森林砍伐範圍、人為破壞、非法採礦和隱蔽的飛機跑道。

爬蟲亞馬遜Bestselling類別產品資料TOP100

相關推薦