《Python網絡數據采集》讀書筆記（六）

阿新 • • 發佈：2018-04-29

CSV

1、

urllib.request.urlretrieve可以根據文件的URL下載文件：

# -*- coding: utf-8 -*-
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup


html = urlopen("http://www.pythonscraping.com/")
bsObj = BeautifulSoup(html, "lxml")
imageLocation = bsObj.find("a", {"id":"logo"}).find("img")["src"]
#print(imageLocation)
urlretrieve(imageLocation, "logo.jpg")

這段程序從 http://pythonscraping.com下載logo圖片，然後在程序運行的文件夾裏保存為logo.jpg文件。

下面的程序會把 http://pythonscraping.com 主頁上所有src屬性且圖片後綴為.jpg的文件都下載下來：

# -*- coding: utf-8 -*-
import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup


downloadDirectory = "downloaded"
baseUrl = "http://pythonscraping.com"

def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://"+source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = source[4:]
        url = "http://"+source
    else:
        url = baseUrl+"/"+source
    if baseUrl not in url:
        return None
    return url
    
def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory + path
    if path.endswith(".jpg"):
        directory = os.path.dirname(path)
        
        if not os.path.exists(directory):
            os.makedirs(directory)
        #print(path)
        return path
    
html = urlopen("http://www.pythonscraping.com")
bsObj = BeautifulSoup(html, "lxml")
downloadList = bsObj.findAll(src=True)

for download in downloadList:
    #print(download["src"])
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        print(fileUrl)
        urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

2、

# -*- coding: utf-8 -*-
import csv

csvFile = open("test.csv", 'w+')
try:
    writer = csv.writer(csvFile)
    writer.writerow(('number', 'number plus 2', 'number times 2'))
    for i in range(10):
        writer.writerow( (i, i+2, i*2))
finally:
    csvFile.close()

運行以上代碼後，你會看到一個CSV文件：

number	number plus 2	number times 2

0	2	0

1	3	2

2	4	4

3	5	6

4	6	8

5	7	10

6	8	12

7	9	14

8	10	16

9	11	18

獲取維基百科詞條中的HTML表格並寫入CSV文件。

# -*- coding: utf-8 -*-
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup


html = urlopen("http://en.wikipedia.org/wiki/Comparison_of_text_editors")
bsObj = BeautifulSoup(html, "lxml")
# 主對比表格是當前頁面上的第一個表格
table = bsObj.findAll("table",{"class":"wikitable"})[0]
rows = table.findAll("tr")

csvFile = open("editors.csv", 'wt', newline="", encoding='utf-8')
writer = csv.writer(csvFile)
try:
    for row in rows:
        csvRow = []
        for cell in row.findAll(['td', 'th']):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csvFile.close()

《Python網絡數據采集》讀書筆記（六）

《Python網絡數據采集》筆記之BeautifulSoup

text 便簽 pip 使用 dal findall con content attribute 一初見網絡爬蟲都是使用的python3。一個簡單的例子： from urllib.request import urlopen html = urlopen("ht

《Python網絡數據采集》讀書筆記（一）

urllib BeautifulSoup 思考“網絡爬蟲”時通常的想法：? 通過網站域名獲取 HTML 數據? 根據目標信息解析數據? 存儲目標信息? 如果有必要，移動到另一個網頁重復這個過程當網絡瀏覽器遇到一個標簽時，比如<img src="cuteKitten.jpg"&

《Python網絡數據采集》讀書筆記（二）

find child descendant sibling parent 1、通過的名稱和屬性查找標簽和之前一樣，抓取整個頁面，然後創建一個BeautifulSoup對象。這裏面“lxml”解析器需要另外下載。pip3 install lxml>>> from urlli

《Python網絡數據采集》讀書筆記（三）

正則 attrs lambda 1、正則表達式常用符號(1)* 匹配前面的字符、子表達式或括號裏的字符0次或多次例如：a*b* 結果：aaa,aaabb,bb(2)+ 匹配前面的字符、子表達式或括號裏的字符至少1次例如：a+b+ 結果：aaab,aabb,a

《Python網絡數據采集》讀書筆記（四）

wiki 維基 scrapy 1、遍歷單個域名維基百科那些指向詞條頁面（不是指向其他內容頁面）的鏈接有三個共同點：? 它們都在id是bodyContent的div標簽裏? URL鏈接不包含分號? URL鏈接都以/wiki/開頭# -*- coding: utf-8 -*- import re fr

《Python網絡數據采集》讀書筆記（六）

CSV1、urllib.request.urlretrieve可以根據文件的URL下載文件：# -*- coding: utf-8 -*- from urllib.request import urlretrieve from urllib.request import urlopen from bs4 im

《Python網絡數據采集》讀書筆記（五）

JSON1、解析JSON數據Python把JSON轉換成字典，JSON數組轉換成列表，JSON字符串轉換成Python字符串。下面的例子演示了使用Python的JSON 解析庫，處理JSON字符串中可能出現的不同數據類型：>>> import json >>> jsonSt

Python網絡數據采集

html now() 數據采集 ont 網絡數據函數網絡 mytag dal 一、正則表達式 * 表匹配0次或者多次 a*b* + 表至少一次 [ ] 匹配任意一個 ( ) 辨識一個編組 {m，n} m或者n 次 [^] 匹配任意不在中括號裏的

Python網絡數據采集pdf

font 安裝mysql 按鈕 2.6 word 時間 tran 3.3 ack 下載地址：網盤下載內容簡介 · · · · · ·本書采用簡潔強大的Python語言，介紹了網絡數據采集，並為采集新式網絡中的各種數據類型提供了全面的指導。第一部分重點介紹網絡數據采集的

《python 網絡數據采集》代碼更新

req 根據跟著 pen spec color another spa specified 《python 網絡數據采集》這本書中會出現很多這一段代碼： 1 from urllib.request import urlopen 2 from bs4 import Bea

《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼

采集 images wow 經典書籍 aid log text oss 詳細下載：https://pan.baidu.com/s/1_SaVqs26iCx9Z-7XMbQWow 《Python網絡數據采集》高清中文版PDF+高清英文版PDF+源代碼高清中文版PDF，帶目

分享《Python網絡數據采集》+PDF+源碼+Ryan Mitchell+陶俊傑

51cto type oss sha 源碼網絡數據經典分享圖片網絡數下載：https://pan.baidu.com/s/1g8coyGGC13YYDrXkHYCmhA更多資料分享：http://blog.51cto.com/14087171 《Python網絡數

python網絡數據抓取二（bing圖片抓取）

.get state 練習 code 請求 lee a-z %d 抓取圖片　　上一回嘗試抓取了百度熱點數據，這次繼續選擇利用bing搜索抓取圖片練習下，代碼放在最下供大家參考。程序需要傳入三個參數，圖片關鍵詞、圖片保存路徑、需要抓取的數量。運行過程中可能會有一些錯誤(大部

Nodejs學習筆記（十一）—數據采集器示例（request和cheerio）

列表意思 9.1 很多 AD 開發 com http undefined 寫在之前　　很多人都有做數據采集的需求，用不同的語言，不同的方式都能實現，我以前也用C#寫過，主要還是發送各類請求和正則解析數據比較繁瑣些，總體來說沒啥不好的，就是效率要差一些，　　用nodej

數據庫SQL Server2012筆記（七）——java 程序操作sql server

jdb 統一 col select 封裝 query size api color 1、crud(增刪改查)介紹：create/retrieve/update/delete 2、JDBC介紹 1）JDBC（java database connectivi

《數據挖掘導論》筆記（二）

時序空間自相關集中適用於 body 稀疏體系數據頻繁數據本章討論一些與數據相關的問題，他們對於數據挖掘的成敗至關重要。1.數據類型2.數據的質量3，使數據適合挖掘的預處理步驟：處理一方面是要提高數據的質量，另一方面要讓數據更好地適應特定的數據挖掘技術和工具。4

《可愛的Python》讀書筆記（六）

mkdir沒有完美的軟件，夠用並且容易使用的軟件已經算是完美的了。今天整理這幾天的代碼# -*- coding: utf-8 -*- import os import sys import cmd from cdctools import * class PyCDC(cmd.Cmd): def

Oracle-常用數據庫對象筆記（片段）

一個表 blob 字符學生 cascade 問題 gen 靠譜 sna 1：用戶和權限 1.1 用戶的創建 a)語法--- create user 用戶名 identified by 密碼； b)創建用戶abcd,並設定密碼為abcd;---註意：操作數據庫對象是

軟件工程讀書筆記（六）——結對編程那些事

() 對數 tab 一起什麽關系基本原則 got 得到現代軟件產業經過幾十年的發展，已經形成了項目組合作的形式，幾乎不存在一個人完成所有工作的情況，一個團隊最少有兩個人組成，那麽兩人合作的過程中有什麽需要關註的地方呢？一、

Java程式效能優化讀書筆記（六）設計模式：觀察者模式

一、觀察者模式觀察者模式定義了物件間的一種一對多依賴關係，使得每當一個物件改變狀態，則所有依賴於它的物件都會得到通知並被自動更新。它將觀察者和被觀察者的物件分離開。提高了應用程式的可維護性和重用性。觀察者模式又稱為釋出/訂閱(Publish/Subscribe)模式。觀

《Python網絡數據采集》讀書筆記（六）

相關推薦