Python爬蟲入門 | 6 將爬回來的數據存到本地

阿新 • • 發佈：2018-07-19

文件的 href 存儲有一個快捷 pac lse tab play

1.用Python語句存儲數據

寫文件時，我們主要用到 with open() 語句:

with open(name,mode,encoding) as file：
  file.write()
  # 註意，with open() 後面的語句有一個縮進

name：包含文件名稱的字符串，比如：‘xiaozhu.txt’; mode：決定了打開文件的模式,只讀/寫入/追加等; encoding：表示我們要寫入數據的編碼，一般為 utf-8 或者 gbk ; file：表示我們在代碼中對文件的命名。

用我們前面爬的小豬的例子來看一下，實際是什麽樣的：

from lxml import etree
import requests
import time

with open('/Users/mac/Desktop/xzzf.txt','w',encoding='utf-8') as f:
    for a in range(1,6):
        url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(a)
        data = requests.get(url).text

        s=etree.HTML(data)
        file=s.xpath('//*[@id="page_list"]/ul/li')
        time.sleep(3)
    
        for div in file:
            title=div.xpath("./div[2]/div/a/span/text()")[0]
            price=div.xpath("./div[2]/span[1]/i/text()")[0]
            scrible=div.xpath("./div[2]/div/em/text()")[0].strip()
            pic=div.xpath("./a/img/@lazy_src")[0]
            
            f.write("{},{},{},{}\n".format(title,price,scrible,pic))

將寫入的文件名 xzzf.txt，如果沒有將自動創建。

/Users/mac/Desktop/xzzf.txt

在前面加了一個桌面的路徑，它將存在桌面，如果不加路徑，它將存在你當前工作目錄中。

w：只寫的模式，如果沒有文件將自動創建；

encoding='utf-8'：指定寫入文件的編碼為：utf-8，一般指定utf-8即可；

f.write("{}  {}  {}  {}\n".format(title,price,scrible,pic))
#將 title,price,scrible,pic 的值寫入文件

來看一下存下來的數據是怎樣的：

如果你沒有指定文件路徑，怎麽找寫在本地的文件呢？給你兩種方法：

1.在 win10 中打開小娜（cortana），搜索你的文件名即可

2.推薦軟件“everything”，查詢文件更方便快捷。

這個軟件非常小，百度很容易找到，但確實是神器用了你會回來感謝我的~

所以還是建議你在寫代碼的時候，老老實實在文件名前面加上你想存放的路徑。什麽，你連路徑怎麽寫都不知道？好吧，比如我想把文件存在桌面，那麽怎麽查看路徑？

隨便找一個文檔，比如桌面的文檔，右鍵 >“屬性”，“位置”後面的信息，就是該文檔所在的路徑了。

2.文件存為CSV格式

當然，你也可以將文件存為 .csv 格式，在 with open() 語句後更改文件後綴即可。

from lxml import etree
import requests
import time

with open('/Users/mac/Desktop/xiaozhu.csv','w',encoding='utf-8') as f:
    for a in range(1,6):
        url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(a)
        data = requests.get(url).text

        s=etree.HTML(data)
        file=s.xpath('//*[@id="page_list"]/ul/li')
        time.sleep(3)
    
        for div in file:
            title=div.xpath("./div[2]/div/a/span/text()")[0]
            price=div.xpath("./div[2]/span[1]/i/text()")[0]
            scrible=div.xpath("./div[2]/div/em/text()")[0].strip()
            pic=div.xpath("./a/img/@lazy_src")[0]
            
            f.write("{},{},{},{}\n".format(title,price,scrible,pic))

另外，需要註意的是：CSV 每個字段之間要用逗號隔開，所以這裏把之前的空格改為了逗號。

CSV 文件怎麽打開？

一般情況下，用記事本就可以直接打開，如果你直接用 Excel 打開，很有肯能會出現亂碼，就像下面這樣：

Excel 打開 CSV 出現亂碼怎麽辦？

在記事本中打開文件
另存為 – 選擇編碼為“ANSI”

再來看看之前的豆瓣TOP250圖書寫入文件:

from lxml import etree
import requests
import time

with open('/Users/mac/Desktop/top250.csv','w',encoding='utf-8') as f:
    for a in range(10):
        url = 'https://book.douban.com/top250?start={}'.format(a*25)
        data = requests.get(url).text

        s=etree.HTML(data)
        file=s.xpath('//*[@id="content"]/div/div[1]/div/table')
        time.sleep(3)

        for div in file:
            title = div.xpath("./tr/td[2]/div[1]/a/@title")[0]
            href = div.xpath("./tr/td[2]/div[1]/a/@href")[0]
            score=div.xpath("./tr/td[2]/div[2]/span[2]/text()")[0]
            num=div.xpath("./tr/td[2]/div[2]/span[3]/text()")[0].strip("(").strip().strip(")").strip()
            scrible=div.xpath("./tr/td[2]/p[2]/span/text()")

            if len(scrible) > 0:
                f.write("{},{},{},{},{}\n".format(title,href,score,num,scrible[0]))
            else:
                f.write("{},{},{},{}\n".format(title,href,score,num))

最後存下來的數據是這樣的：

好了，這節課就到這裏！

技術分享圖片

Python爬蟲入門 | 6 將爬回來的數據存到本地

Python爬蟲入門 | 6 將爬回來的資料存到本地

1.用Python語句儲存資料寫檔案時，我們主要用到 with open() 語句: with open(name,mode,encoding) as file： file.write() # 注意，with open()

Python爬蟲入門 | 6 將爬回來的數據存到本地

文件的 href 存儲有一個快捷 pac lse tab play 1.用Python語句存儲數據寫文件時，我們主要用到 with open() 語句:with open(name,mode,encoding) as file： file.write() # 註

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

話不多說，上程式碼： #匯入requests庫 import requests #匯入 re 庫 #匯入時間模組 import time import re #定義請求頭，請求頭可以使爬蟲偽裝成瀏覽器 headers = {'User-Agent': '

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

python爬蟲循環導入MySql數據庫

ron 9.png 需要 ets 版本對象 root 內容 clas 1、開發環境操作系統：win10 Python 版本：Python 3.5.2 MySQL：5.5.53 2、用到的模塊沒有的話使用pip進行安裝：pip install

python爬蟲知識點三--解析豆瓣top250數據

www request 10.8 blog 分享 encode uid gb2 on() 一。利用cookie訪問import requests headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64)

運維學python之爬蟲中級篇（五）數據存儲（無數據庫版）

就是 erro mage name 打印反序 lis object Circul 本篇主要介紹，爬取html數據後，將html的正文內容存儲為json或csv格式。 1 json格式存儲選定要爬取的網站後，我們利用之前學過的內容，如：Beautiful Soup、xpa

python獲取網頁精準爬取數據

imp url pil 簡單 vid req pen pro utf import reimport urllib.requeststring=‘<div class="name">(.*?)</div>‘huo=urllib.request.url

Python讀取NGINX日誌將其存入數據庫

python pymysql datetime 日誌數據：#/usr/bin/env python #-*-coding:UTF-8 -*- from datetime import datetime stat_days = [] import pymysql #print(datet

python3下scrapy爬蟲(第十一卷:scrapy數據存儲進mongodb）

開啟操作 inf blog path clas ima 操作mongodb mongod 說起python爬蟲數據存儲就不得不說到mongodb，現在我們來試一下scrapy操作mongodb 首先開啟mongodb mongod --dbpath=D:\mongodb\

分布式豆瓣爬蟲（二）: 控制節點-數據存儲器

電影 ram 分布修改豆瓣 tput col spa 節點一、實現原理因為存儲方式相同所以數據存儲器的代碼無需修改二、代碼如下 1 import csv 2 3 class DataOutput: 4 def __init__(self):

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

Python爬蟲入門教程 42-100 爬取兒歌多多APP數據-手機APP爬蟲部分

如何分類提取地址一個本科 fiddler 系列案例 1. 兒歌多多APP簡單分析今天是手機APP數據爬取的第一篇案例博客，我找到了一個兒歌多多APP，沒有加固，沒有加殼，沒有加密參數，對新手來說，比較友好，咱就拿它練練手，熟悉一下Fiddler和夜神模擬器是如

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麽接下來我們一起來看一下Cookie的使用。為什麽要使用Cookie呢？ Cookie，指某些網站為了辨別用戶身份、進行se

Python爬蟲入門 | 6 將爬回來的數據存到本地

1.用Python語句存儲數據

2.文件存為CSV格式

相關推薦