爬蟲爬當當網書籍信息

阿新 • • 發佈：2018-05-02

表達式 sel soup bs4 cti rom rtt utf system

拖了好久的一個爬蟲

先上代碼文字慢慢補

 1 # -*- coding: utf-8 -*
 2 
 3 import urllib2
 4 import xlwt
 5 from bs4 import BeautifulSoup
 6 from datashape import json
 7 import re
 8 import json
 9 import requests
10 
11 
12 def getJsonText(url):
13     try:
14         r = requests.get(url, timeout=1 
)
15         r.raise_for_status()
16         r.encoding = r.apparent_encoding
17         return r.text
18     except:
19         print ‘獲取失敗‘
20         return ‘‘
21 
22 
23 def getgood(url):
24     html = urllib2.urlopen(url).read()
25 
26     # 用正則表達式拿取
27     ma = re.search(r‘"productId":"[\d]+" 
‘, html)
28     productId = eval(ma.group().split(‘:‘)[-1])
29     categoryPath = eval(ma.group().split(‘:‘)[-1])
30     mainProductId = eval(ma.group().split(‘:‘)[-1])
31     # 對Ajax的url進行拼接
32     json_url = ‘http://product.dangdang.com/index.php?r=comment%2Flist&productId={productId}&categoryPath={categoryPath}&mainProductId={mainProductId}&mediumId=0&pageIndex=1&sortType=1&filterType=1&isSystem=1&tagId=0&tagFilterCount=0 
‘.format(
33         productId=productId, categoryPath=categoryPath, mainProductId=mainProductId)
34     # 調用方法，下載下來json數據
35     json_html = json.loads(getJsonText(json_url))
36     summary = json_html[‘data‘][‘list‘][‘summary‘]
37     data = {}
38     data[‘all_comment_num‘] = summary[‘total_comment_num‘]              # 總評論數
39     data[‘good_comment_num‘] = summary[‘total_crazy_count‘]             # 好評數
40     data[‘middle_comment_num‘] = summary[‘total_indifferent_count‘]     # 中評數
41     data[‘bad_comment_num‘] = summary[‘total_detest_count‘]             # 差評數
42     data[‘good_rate‘] = summary[‘goodRate‘]                             # 好評率
43     return data
44 
45 def main():
46     wb = xlwt.Workbook()
47     sheet1 = wb.add_sheet("Sheet")
48     sheet1.write(0, 0, unicode(‘序號‘, "utf-8"))
49     sheet1.write(0, 1, unicode(‘書名‘, "utf-8"))
50     sheet1.write(0, 2, unicode(‘價格‘, "utf-8"))
51     sheet1.write(0, 3, unicode(‘折扣‘, "utf-8"))
52     sheet1.write(0, 4, unicode(‘評論數‘, "utf-8"))
53     sheet1.write(0, 5, unicode(‘好評‘, "utf-8"))
54     sheet1.write(0, 6, unicode(‘中評‘, "utf-8"))
55     sheet1.write(0, 7, unicode(‘差評‘, "utf-8"))
56     sheet1.write(0, 8, unicode(‘好評率‘, "utf-8"))
57 
58     for page in range(25):
59 
60         url = ‘http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-%d‘ % (page+1)
61         get = urllib2.urlopen(url).read()
62         data = BeautifulSoup(get, ‘lxml‘)
63 
64         bookname = data.find_all(‘div‘, attrs={‘class‘: ‘name‘})
65         bookstar = data.find_all(‘div‘, attrs={‘class‘: ‘star‘})
66         bookprice = data.find_all(‘div‘, attrs={‘class‘: ‘price‘})
67         bookoff = data.find_all(‘span‘, attrs={‘class‘: ‘price_s‘})
68 
69         for i in range(20):
70             bookurl = bookname[i].find(‘a‘)[‘href‘]
71             data = getgood(bookurl)
72             print (str(page*20+i+1) + " "
73                     + bookname[i].find(‘a‘)[‘title‘] + " "                  # 書名
74                     + bookprice[i].find(‘span‘).text[1:] + " "              # 價格
75                     + bookoff[i].text[:-1] + " "                            # 折扣
76                     + bookstar[i].find(‘a‘).text[:-3] + " "                 # 評論數
77                     + data[‘good_comment_num‘] + " "                        # 好評數
78                     + data[‘middle_comment_num‘] + " "                      # 中評數
79                     + data[‘bad_comment_num‘] + " "                         # 差評數
80                     + data[‘good_rate‘] + " "                               # 好評率
81                    )
82 
83             sheet1.write(page * 20 + i + 1, 0, page * 20 + i + 1)
84             sheet1.write(page * 20 + i + 1, 1, bookname[i].find(‘a‘)[‘title‘])
85             sheet1.write(page * 20 + i + 1, 2, bookprice[i].find(‘span‘).text[1:])
86             sheet1.write(page * 20 + i + 1, 3, bookoff[i].text[:-1])
87             sheet1.write(page * 20 + i + 1, 4, bookstar[i].find(‘a‘).text[:-3])
88             sheet1.write(page * 20 + i + 1, 5, data[‘good_comment_num‘])
89             sheet1.write(page * 20 + i + 1, 6, data[‘middle_comment_num‘])
90             sheet1.write(page * 20 + i + 1, 7, data[‘bad_comment_num‘])
91             sheet1.write(page * 20 + i + 1, 8, data[‘good_rate‘])
92             wb.save(‘test.xls‘)
93 
94 main()

爬蟲爬當當網書籍信息

表達式 sel soup bs4 cti rom rtt utf system 拖了好久的一個爬蟲先上代碼文字慢慢補 1 # -*- coding: utf-8 -* 2 3 import urllib2 4 import xlwt 5

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

結對-爬取大麥網演唱會信息-設計文檔

.com ref lock beautiful 模塊有用 pytho spa pil 結對編程成員：閻大為，張躍馨搭建環境： ?1.安裝python2.7 ?2.安裝beautifulsoup4等相關模塊編寫程序階段： ?1.分析html代碼以及了解相

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

用crawl spider爬取起點網小說信息

models anti arc pub work 全部 see 效率 rand 起點作為主流的小說網站，在防止數據采集反面還是做了準備的，其對主要的數字采用了自定義的編碼映射取值，想直接通過頁面來實現數據的獲取，是無法實現的。單獨獲取數字還是可以實現的，通過reques

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

利用爬蟲、SMTP和樹莓派3B發送郵件(爬取墨跡天氣預報信息)

zip ont 一份 receive 編譯 zh-cn 郵件接受 code -----------------------------------------------------------學無止境-----------------------------------

使用BeautifulSoup爬取“0daydown”站點的信息（2）——字符編碼問題解決

snippet sni 結束編碼錯誤 charset utf 教程作者 request 上篇中的程序實現了抓取0daydown最新的10頁信息。輸出是直接輸出到控制臺裏面。再次改進代碼時我準備把它們寫入到一個TXT文檔中。這是問題就出來了。最初我的代碼例如以

查看網卡信息

網卡查看網卡是千兆網卡還是萬兆網卡lspci -vvv | grep Ethernet千兆網卡Gigabit（萬兆網卡顯示為10-Gigabit）出來幾行代表幾塊網卡具體查看每塊網卡信息本文出自 “磚家博客” 博客，請務必保留此出處http://wsxxsl.blog.51cto.com/9085838/1

MSF魔鬼訓練營-3.1.1信息收集-通過DNS和IP地址挖掘目標網絡信息

詳細 root https earch 滲透測試出發 .com 域名查詢測試情報搜集環境站滲透測試全過程的80%~90% 一、外圍信息搜集（公開渠道信息搜集OSINT open source intelligence） 3.1.1信息收集-通過DNS和IP地址挖

shell腳本：查看KVM虛擬機中的網卡信息（不需要進入啟動或進入虛擬機）

腳本虛擬化 shell kvm # Author:丁丁歷險(Jacob) # 該腳本使用guestmount工具，可以將虛擬機的磁盤系統掛載到真實機文件系統中 # Centos7.2中安裝libguestfs-tools-c可以獲得guestmount工具 # 虛擬機可以啟動或者不啟動都不影

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration（一種基於網絡信息矩陣圖像的網絡探索方法）

希望組合 cad 區分加權 rest 結果 xpl ati 網絡、關系等數據變成如圖的鄰接矩陣時（紅色代表兩個節點也就是人，之間有聯系），但是得到的矩陣會因為順序的問題而出現不同的排列方式，在第一種中會發現因為有聚集的塊狀區域而很容易地把數據分為兩個部分，然後根據數據的

九眼智能：用大數據技術為網絡信息加層“濾網”

技術智能公開噪音爭奪新聞群組同時新聞媒體　　隨著信息傳播技術的快速發展和各類互聯網平臺的興起，個人、機構均可通過註冊公眾賬號借助平臺公開發布信息，成為新聞媒體等專業內容生產機構之外的重要內容生產者，互聯網平臺成為用戶獲取信息的重要渠道。互聯網平臺的興起及公

爬取ofo共享單車信息

tco tty -s 返回 es2017 ram mac os x common market 　　前段時間看到很多微信公眾號在轉發一篇爬取mobike單車的信息，也不知道什麽原因，在網上搜索了下很少有人在爬取ofo共享單車的數據，所以決定看看可以爬取ofo共享單車的那些數

爬蟲爬當當網書籍信息

相關推薦