爬蟲3-python爬取非結構化資料下載到本地

阿新 • • 發佈：2020-12-20

urlretrieve方法

通過上節爬蟲2，可以將結構化資料存入mysql等資料庫，但指令碼中還存在非結構化資料：

# print(content.xpath('//*[@dd_name="大圖"]/img/@src').pop())   # 圖片

python的urlretrieve方法可實現將遠端資料下載本地：

#url              下載連結
#filename         指定儲存本地路徑檔名
#reporthook       回撥函式，預設預設
#data             post到伺服器的資料，預設預設
urlretrieve(url, filename=None, reporthook=None, data=None)

實踐

# coding=utf-8
import requests
from lxml import etree

# 1爬取網頁資訊
url = 'http://product.dangdang.com/29148702.html'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/69.0.3497.81 Safari/537.36 Maxthon/5.3.8.2000 "
    }
aa  
= requests.get(url, headers=headers)
message = aa.content.decode('gbk')
content = etree.HTML(message)                                 # message是str格式，需要先轉成HTML格式

# 1.2解析圖片資訊
print(content.xpath('//*[@dd_name="大圖"]/img/@src').pop())   # 圖片

#執行結果
http://img3m2.ddimg.cn/33/28/29148702-1_w_23.jpg

# 這時用urlretrieve來處理，可以下載到本地當前目錄下 

url_img=content.xpath('//*[@dd_name="大圖"]/img/@src').pop()
urllib.request.urlretrieve(url_img,"test_img.jpg")

爬蟲3-python爬取非結構化資料下載到本地

urlretrieve方法通過上節爬蟲2，可以將結構化資料存入mysql等資料庫，但指令碼中還存在非結構化資料：

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

辣條君寫爬蟲3【爬取貝克街使用者】

話說python爬蟲界，有個非常知名的框架Scrapy。非同步爬取，使用簡單，功能強大。辣條君，學習之，練習之。貝克街，一個推理愛好者論壇網站，使用者資料量12W左右，很適合Scrapy學習練習爬取。本篇前半部分會介紹一

Python爬取某東羽絨服資料，用視覺化幫你挑選心儀的衣服

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

爬蟲2-python爬取的資料存入mysql**

也可以存入hive、HDFS，這裡選擇存在mysql。一、安裝mysql（python在pyspark一節已配置好）

python讀取 doc/docx文件（非結構化資料）

技術標籤：pyton讀取資料python python讀取 doc/docx文件（非結構化資料）系統環境:win10+python3.5.2 使用第三方庫python-docx讀取文件 python-docx官方文件：https://python-docx.readthedocs.io/en/latest/

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

手把手教你用Python爬取某網小說資料，並進行視覺化分析

網路文學是以網際網路為展示平臺和傳播媒介，藉助相關網際網路手段來表現文學作品及含有一部分文字作品的網路技術產品，在當前成為一種新興的文學現象，並快速興起，各種網路小說也是層出不窮，今天我們使用seleniu

基於Python爬取fofa網頁端資料過程解析

FOFA-網路空間安全搜尋引擎是網路空間資產檢索系統（FOFA）是世界上資料覆蓋更完整的IT裝置搜尋引擎，擁有全球聯網IT裝置更全的DNA資訊。探索全球網際網路的資產資訊，進行資產及漏洞影響範圍分析、應用分佈統計、應

使用Python爬取COVID-19疫情資料

1. 選擇資料來源自新冠肺炎(covid-19)疫情爆發以來，這場疫情幾乎影響了每個人的生活，為了對疫情做資料分析，需要採集疫情的資料，本篇案例就基於python爬蟲進行資料採集。

sqoop(資料交換工具)+HBase(分散式、面向列、非結構化資料儲存、線上業務)總結

sqoop+HBase 總結 1. sqoop 介紹2. HBase介紹3. 面向列資料庫3.1 HBase 與傳統關係資料庫的區別3.2 Hive 和 Hbase區別3.3 Hbase 和傳統關係型資料庫區別

Python爬取噹噹網APP資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬取豆瓣排行榜電影資料(含GUI介面版)

專案簡介這個專案源於大三某課程設計。平常經常需要搜尋一些電影，但是不知道哪些評分高且評價人數多的電影。為了方便使用，就將原來的專案重新改寫了。當做是對爬蟲技術、視覺化技術的實踐了。主要是通過

sql server儲存和搜尋非結構化資料

sql server儲存和搜尋非結構化資料 SQL Server 2008為儲存和搜尋非結構化資料提供了一個靈敏的處理方案。SQL Server 2005推出了varbinary(max)資料型別，它使得你能夠在一個SQL Server欄位或變數中儲存最大為2,147

詳解python爬取彈幕與資料分析

很不幸的是，由於疫情的關係，原本線下的AWD改成線上CTF了。這就很難受了，畢竟AWD還是要比CTF難一些的，與人鬥現在變成了與主辦方鬥。

使用Python爬取豆瓣電影詳細資料

# -*- codeing = utf-8 -*- # @Time :23:35 # @Auther : wyt # @File : spider.py # @Software : PyCharm from bs4 import BeautifulSoup #網頁解析，獲取資料

python爬取動態載入的資料

程式開發資源庫 https://zyk.mingrisoft.com/Develop/view/id/2562/type/7/cid/49.html 分析網頁，查詢資料位置

python 爬取百度文庫並下載(免費文章限定)

import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode(\'gbk\')

python 爬取英雄聯盟面板並下載的示例

爬取結果：爬取程式碼 import os import json import requests from tqdm import tqdm def lol_spider():

Python爬取APP上的資料教程（轉發記錄）

Python爬取APP上的資料教程來源：https://blog.csdn.net/wcg541/article/details/99117909 App抓包原理

爬蟲3-python爬取非結構化資料下載到本地

urlretrieve方法

實踐

相關推薦