最簡單的Python網頁爬蟲

阿新 • • 發佈：2019-02-01

下面是用Python3寫的可以抓取任意網頁的程式碼，經過測試，馬上可用。這裡的示例抓取的是新浪實時股票資料。

#-*- coding: utf-8 -*-
任意網頁下載器
Created on Wed Dec 21 15:08:43 2016
@author: stanleymao
"""
#coding=utf-8
#不要用url2，太麻煩了。用requests即可抓取網頁！
import requests as rq

def geturl(url, filename): 
    res=rq.get(url)  #抓取網頁
    if res.status_code != rq.codes.ok:
        raise Exception("url open error!")
        return ''

    #寫入本地檔案，同名檔案會被覆蓋
    f = open(filename, 'wb') # 必須寫入二進位制資料，而不是str，為了保護文字中的utf-8編碼不被轉換為GB3212!
    for chunk in res.iter_content(100000):
        f.write(chunk)
    f.close
    return res.text    

if __name__=='__main__':
    #配置下行的url和檔名，即可抓不同的url
    text= geturl('http://hq.sinajs.cn/list=sh600000', 'test.html')
    #text= geturl('http://www.sina.com.cn', 'test.html')
    print(text) #列印

下面是結果，是個javascript賦值程式碼：

var hq_str_sh600000="浦發銀行,16.260,16.280,16.320,16.370,16.250,16.300,16.340,12638809,206022869.000,66650,16.300,40959,16.290,45277,16.280,117616,16.270,187296,16.260,43400,16.340,112430,16.350,108500,16.360,115536,16.370,84210,16.380,2016-12-21,15:00:00,00";

最簡單的Python網頁爬蟲

下面是用Python3寫的可以抓取任意網頁的程式碼，經過測試，馬上可用。這裡的示例抓取的是新浪實時股票資料。 #-*- coding: utf-8 -*- 任意網頁下載器 Created on Wed Dec 21 15:08:43 2016 @autho

python網頁爬蟲淺析

pythonPython網頁爬蟲簡介：有時候我們需要把一個網頁的圖片copy 下來。通常手工的方式是鼠標右鍵 save picture as ...python 網頁爬蟲可以一次性把所有圖片copy 下來。步驟如下：1. 讀取要爬蟲的html2. 對爬下來的html 進行存儲並處理：存儲原始html過濾生成l

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

round b+ param 有意做了你會 lib extra 補充本文轉載自：https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%B

python網頁爬蟲開發之五-反爬

build referer mac eee pac -o strip 不響應 win64 1、頭信息檢查是否頻繁相同隨機產生一個headers， #user_agent 集合 user_agent_list = [ ‘Mozilla/5.0 (Windows N

python網頁爬蟲開發之六-Selenium使用

scrip python ref ges 加載圖片 browser 網頁加載 content 很慢 chromedriver禁用圖片，禁用js，切換UA selenium 模擬chrome瀏覽器，此時就是一個真實的瀏覽器，一個瀏覽器該加載的該渲染的它都加載都渲染，所以爬取

xpath: Python網頁爬蟲定位輔助利器

網頁爬蟲可以使用Python的正則模組(re), 當然我今天要隆重推薦的是xpath. xpath需要安裝xpath的基礎包:lxml 首先看一個例子:(爬取果殼的最新推薦文章列表) import requests from lxml import

C#實現簡單的網頁爬蟲

using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Tex

GO語言實現一個簡單的網頁爬蟲

具體思路是利用go語言提供的遠端包github.com/PuerkitoBio/goquery，但是有時候連結會出錯，導致程式編譯不通過，我們可以直接將這個包下載到本地，然後將import匯入地址修改為本地的goquery地址即可首先建立檔案，儲存從網頁上扒下來的內容接下來使

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異，Python2.x調用urllib用指令urllib.urlopen（），運行時報錯：AttributeErr

python 最簡單的爬蟲

一個簡單的爬蟲工程環境： OS：Window10 python：3.7 安裝一些庫檔案 pip install requests pip install beautifulsoup4 pip install lxml 在安裝的時候如果遇到了你的pip版本過低

Python 3.0最簡單的爬蟲

做個小專案練練手，比較有動力繼續下去，這邊參考最簡單的爬蟲程式自己抄了一下。但是因為3.0的關係，無法直接使用，根據2.0版本的程式碼進行修改後成功了。程式碼如下： # -*- coding:

【轉】用Python建立最簡單的web服務器

web服務 localhost 服務器 pos 根目錄 cal body -m -- 利用Python自帶的包可以建立簡單的web服務器。在DOS裏cd到準備做服務器根目錄的路徑下，輸入命令： python -m Web服務器模塊 [端口號，默認8000]

最簡單的神經網絡-感知器-python實現

nbsp ges mat lob date def global pytho .com import numpy as np import matplotlib.pyplot as plt X=np.array([[1,3,3], [1,4,3],

寫一個Python通過select實現的最簡單的web框架

127.0.0.1 log put lec func select odi block pos 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 import socket 5 import selec

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

最全Python爬蟲總結(轉載)

其中網頁 -i 變量 oba cati nod style 應該 [html] view plain copy 最近總是要爬取一些東西，索性就把Python爬蟲的相關內容都總結起來了，自己多動手還是好。（1）普通的內容爬取（2）保存爬取的圖片/

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

最簡單的爬蟲

網頁 str exec 建議 else 創建數據庫安裝 AC 爬蟲 \本文涉及到的知識有postgresql數據庫使用，文件操作，以及爬蟲相關知識，用到了request2、BeautifulSoup兩個模塊\pip install request2,pip instal

轉：完整的最簡單的譜聚類python代碼

得到 for details -c 簡單的 enum off ads odin http://blog.csdn.net/waleking/article/details/7584084 針對karate_club數據集，做了譜聚類。由於是2-way clusterin

最簡單的網絡圖片的爬取 --Pyhon網絡爬蟲與信息獲取

文件 spa lose man spl roo () pen image 1、本次要爬取的圖片url http://www.nxl123.cn/static/imgs/php.jpg 2、代碼部分 import requestsimport osurl = "ht

最簡單的Python網頁爬蟲

下面是用Python3寫的可以抓取任意網頁的程式碼，經過測試，馬上可用。這裡的示例抓取的是新浪實時股票資料。

相關推薦