[Prac] 簡單的爬蟲實踐

阿新 • • 發佈：2018-12-15

（源自《實用資料分析》(原書第2版)，網站更新後原文程式碼不能用了所以自己寫了個小爬蟲）

1.網頁分析

開發人員工具（F12）用自帶的元素定位

檢視到該內容的兩個標籤 <class="asset ask"> 和 <class="value">

2.程式碼部分

2.1 匯入資料庫

from bs4 import BeautifulSoup
import urllib.request
from time import sleep
from datetime import datetime

1.Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.

2.urllib.request

urllib 的 request 模組可以非常方便地抓取 URL 內容，也就是傳送一個 GET 請求到指定的頁面，然後返回 HTTP 的響應

2.2 開啟網頁

url = "https://www.gold.org/"
req = urllib.request.urlopen(url)
page = req.read()

執行的時候出現了問題

百度之，發現是網站對於自動化爬蟲的限制。解決方案大體就是加一個訪問的時候 header 偽裝成正常瀏覽器的樣子就可以了。

2.3 偽裝自己

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
url = "https://www.gold.org/"
req = urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(req)
page = response.read()

2.4 尋找標籤

soup = BeautifulSoup(page,'lxml')
price = soup.find("div",class_=["asset","ask"]).find_next(class_="value")
print(price.text)

2.5 寫入檔案

with open("goldPrice.out","w") as f:
    sNow = datetime.now().strftime("%I:%M:%S%p")
    f.write("{0},{1} \n".format(sNow, getGoldPrice()))

"%I:%M:%S%P"，%I 代表小時，%M 代表分鐘，%S 代表秒，%p 代表 A.M. 或 P.M.

2.6 全部程式

from bs4 import BeautifulSoup
import urllib.request
from time import sleep
from datetime import datetime

def getGoldPrice():
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = { 'User-Agent' : user_agent }
    url = "https://www.gold.org/"
    req = urllib.request.Request(url,None,headers)
    response = urllib.request.urlopen(req)
    page = response.read()

    soup = BeautifulSoup(page,'lxml')
    price = soup.find("div",class_=["asset","ask"]).find_next(class_="value")
    return price.text

with open("goldPrice.out","w") as f:
    for x in range(0,60):
        sNow = datetime.now().strftime("%I:%M:%S%p")
        f.write("{0},{1} \n".format(sNow, getGoldPrice()))
        print("{0},{1} \n".format(sNow, getGoldPrice()))
        sleep(59)

加了一個迴圈結構，每一分鐘獲取一次。

[Prac] 簡單的爬蟲實踐

（源自《實用資料分析》(原書第2版)，網站更新後原文程式碼不能用了所以自己寫了個小爬蟲） 1.網頁分析開發人員工具（F12）用自帶的元素定位檢視到該內容的兩個標籤 <class="asset ask"> 和 <class="value"&g

爬蟲實踐---悅音臺mv排行榜與簡單反爬蟲技術應用

代碼 int logs 1.8 mac for html req 3.5 由於要抓取的是悅音臺mv的排行榜，這個排行榜是實時更新的，如果要求不停地抓取，這將有可能導致悅音臺官方采用反爬蟲的技術將ip給封掉。所以這裏要應用一些反爬蟲相關知識。目標網址：http://vcha

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

爬蟲實踐---排行榜小說批量下載

timeout nis title name 十倍 == mini 好的線程一、目標排行榜的地址：http://www.qu.la/paihangbang/ 找到各類排行旁的的每一部小說的名字，和在該網站的鏈接。二、觀察網頁的結構很容易就能發現，每一個分類都

爬蟲實踐---電影排行榜和圖片批量下載

.com sts mat 模式 filename ise 主演 any cto 1.目標網址：http://dianying.2345.com/top/ 需要找到的信息：電影的名字，主演，簡介，和標題圖片 2.查看頁面結構：容易看到，需要的主題部分，都被包裹在&ls

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

selenium+PhantomJS簡單爬蟲

10月19 span 文件名 usr fin pre except sta selector #!/usr/bin/env python # -*- coding: utf-8 -*- ‘‘‘ Created on 2017年10月19日 @author: zz

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

node 寫的簡單爬蟲

color cheerio spa blog post 新浪爬取 ext tex 安裝cheerio npm install cheerio --save 引入http和cheeri var http=require("http"); var cheerio=requi

爬蟲實踐

str members tor nts rip odi 包含 header accep 1.URL爬取　　爬取一個站點的所有URL，大概有以下步驟：　　1.確定好要爬取的入口鏈接。　　2.根據需求構建好鏈接提取的正則表達式。　　3.模擬成瀏覽器並爬取對應的網頁。　

python 簡單爬蟲

.... ror gbk 訪問 req 爬取 exc .cn 所有使用urllib.request 和re 模塊 1 from urllib.request import * 2 import re #處理網絡訪問 3 #獲取網頁 4 url = ‘https:/

一個爬取52破解的全部帖子地址的簡單爬蟲

軟件調試 ict print __main__ 逆向慶典活動 exception requests 總頁數 1 # -*- coding:utf-8 -*- 2 import requests 3 from bs4 import BeautifulSou

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python--開發簡單爬蟲

運行流程服務器技術分享 spa HR tom ID 下載 The 簡單爬蟲架構動態運行流程 URL管理器的作用 URL管理器的3種實現方式網頁下載器的作用 Python網頁下載器的種類 urllib2下載網頁的3種方法網頁解析器的作用 Pyt

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

簡單爬蟲學習記錄

技術 RM block 管理 ffffff png size images 51cto 實現思路解析：爬蟲調度器：啟動/停止爬蟲，規定爬蟲的範圍；URL管理器：管理2個URL：新的沒有爬過的urls；舊的爬過的urls；URL下載器：下載url對應的html數據；

python簡單爬蟲筆記

wow write file except .com 下載 app sina retrieve python模擬遊覽器爬取相關頁面 import urllib.request url="http://blog.51cto.com/itstyle/2146899" #模擬

python bs4 + requests4 簡單爬蟲

sts lec logs .html 自信 app nco soup spa 參考鏈接： bs4和requests的使用：https://www.cnblogs.com/baojinjin/p/6819389.html 安裝pip：https://blog.csdn.net

[Prac] 簡單的爬蟲實踐

1.網頁分析

2.程式碼部分

2.1 匯入資料庫

2.2 開啟網頁

2.3 偽裝自己

2.4 尋找標籤

2.5 寫入檔案

2.6 全部程式

相關推薦