網路爬蟲—作者：王曉坤

阿新 • • 發佈：2018-11-30

網路爬蟲作業

一、題目

羊車門作業已釋出，很快就會有同學提交作業，在此作業基礎上，我們釋出本網路爬蟲作業。

本作業共分兩部分，第一部分必做，第二部分選作。

第一部分：

請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。

檔案內容範例如下形式：

學號,姓名,作業標題,作業提交時間,作業URL

20194010101,張三,羊車門作業,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html

20194010102,李四,羊車門,2018-11-14 9:38:27.03,

http://www.cnblogs.com/sninius/p/87654321.html

*注1：如製作定期爬去作業爬蟲，請注意爬取頻次不易太過密集；

*注2：本部分作業用到部分庫如下所示：

（1）requests —— 第3方庫

（2）json —— 內建庫

第二部分：

在生成的 hwlist.csv 檔案的同文件夾下，建立一個名為 hwFolder 資料夾，為每一個已提交作業的同學，新建一個以該生學號命名的資料夾，將其作業網頁爬去下來，並將該網頁檔案存以學生學號為名，“.html”為副檔名放在該生學號資料夾中。

二、原始碼

import requests
import json
import os
import shutil
import datetime
import time
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

def GetUrl(url):
    '''爬取網頁內容函式.引數:網址'''
    try:
        r = requests.get(url)                       # 
獲取網頁內容
        r.raise_for_status()                        #返回異常,r.status_code是200，返回 None
        r.encoding = r.apparent_encoding            # 轉化編碼,  根據r.apparent_encoding的結果轉碼
        print('網頁內容讀取成功！')
        return r                                    #返回網頁內容
    except:
        print("產生異常")
        
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————
          
def CreatFolder(FolderName):  
    ''' 建立資料夾函式，引數資料夾的名稱（字串）'''          
    exist=os.path.exists(FolderName)                #判斷是否存在，存在返回真，否則返回假。
    if not exist:     
        os.mkdir(FolderName)
        print('{}資料夾建立成功!'.format(FolderName))   
    else:
        shutil.rmtree(FolderName)
        CreatFolder(FolderName)
        print('{}資料夾已存在，將其刪除後重建！\n'.format(FolderName)) 

#—————————————————————————————————————————————————————————————————————————————————————————————————————————————————

def HW(url):
    r0=GetUrl(url)                                                                  #呼叫函式爬取網頁
    data0=json.loads(r0.text)                                                       #將json格式資料轉換為字典   
    #建立hwlist.csv
    with open ('hwlist.csv','w')as f:
        zero=('學號',',','姓名',',','作業標題',',','作業提交時間',',','作業URL','\n') #寫入第一行內容
        f.writelines(zero)
        for i in data0['data']:
            xuehao=str(i['StudentNo'])+"\t"                                         #在時間和日期後加上“\t”，轉換為格式
            date=i['DateAdded'].replace('T',' ')+"\t"                               #用EXCEL開啟的時候，不會出現錯誤的形式                                                           
            one=(xuehao,',',i['RealName'],',',i['Title'],',',date,',',i['Url'],'\n')
            f.writelines(one)
            
    #建立hwFolder資料夾 
    FolderName='hwFolder'
    CreatFolder(FolderName)                        
    os.chdir(FolderName)                            #進入hwFolder資料夾
    
    #建立學生的資料夾和檔案
    for i in data0['data']:    
        name=str(i['StudentNo'])                    #得到學號
        CreatFolder(name)                           #建立以學號命名的資料夾                       
        os.chdir(name)                              #進入以學號命名的資料夾
        
        with open (name+'.html','wb') as fp:        #覆蓋寫模式和二進位制檔案模式，對以學號命名.html檔案 進行操作（必須以二進位制檔案模式）
            Url=i['Url']       
            r1=GetUrl(Url)                          #獲取該學號同學羊車門作業的網頁
            fp.write(r1.content)                    #r1.content獲取網頁的內容，並寫入以該同學學號命名.html檔案中
            #a=type(r1.content)
            #print(a)
            print("{}.html檔案內容建立成功。\n".format(name))
        os.chdir('..')                              #返回上一層目錄，即hwFolder資料夾 


#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

#定時爬取網頁內容
#if __name__=='__main__':                               
flag=0                                                                  #設定一個值    
now=datetime.datetime.now()
print(now)
sched_timer=datetime.datetime(now.year, now.month, now.day, now.hour, now.minute, now.second) + datetime.timedelta(seconds=5) 
print(sched_timer)
while (True): 
    url="https://edu.cnblogs.com/Homework/GetAnswers?homeworkId=2420&_=1543326450118"
    now=datetime.datetime.now()
    if sched_timer<now<sched_timer+datetime.timedelta(seconds=5): 
        time.sleep(1) 
        HW(url)                                                         #執行函式
        flag=1
    else:
        if flag==1: 
            sched_timer=sched_timer+datetime.timedelta(minutes=2)       #2分鐘後執行
            flag=0
            print("程式執行完成！！")

三、結果

第一次讀取檔案

第二次讀取檔案

建立hwlist.csv檔案，hwFloder資料夾

hwlist.csv檔案內容

hwFloder資料夾

hwFloder資料夾，子資料夾中檔案及內容

四、思考與總結

1.字尾為.csv的檔案

最終的結果儲存在一個.csv檔案下。.csv檔案預設以EXCLE開啟，

但是，開啟後結果顯示，學號列沒有完全顯示，時間列沒有顯示年/月/日。

解決方法：

在學號和日期後面連線一個”\t”,(必須是雙引號)，可以將學號和日期顯示出來。

更改後結果：

Excel中

記事本

　　拓展：

　　　　1.為什麼選用字尾為.csv的檔案？

　　　　　　（1）寫csv檔案的效率很高。2. csv檔案的大小遠遠小於生成的Excel檔案。並且隨著Excel檔案的變大儲存效率會降低的。

　　　　　　　　（參見網頁：http://www.blogjava.net/hongqiang/archive/2012/07/10/382668.html）

　　　　　　（2）有一個csv的模組

　　　　　　推薦網頁（https://www.cnblogs.com/pyxiaomangshe/p/8026483.html）

2.用到一個shutil模組，shutil模組和os模組是對檔案，資料夾操作的。

os.remove ——刪除檔案

os.mkdir ——刪除空的資料夾

shutil. rmtree ——遞迴刪除非空資料夾，

網址：https://blog.csdn.net/huilaojia123/article/details/53939845

https://www.aliyun.com/jiaocheng/480630.html

3.with open (name+'.html','wb') as fp:

注：只能用”wb”寫，b:二進位制檔案模式.因為r1.content，他的型別是<class 'bytes'>

4.Requests庫

爬取網頁內容可以自定義一個函式，增加判斷條件，增強程式碼健壯性！

https://www.cnblogs.com/hanbb/p/7221659.html?utm_source=itdadao&utm_medium=referral

4. if __name__ == '__main__' 的解釋

https://blog.csdn.net/yjk13703623757/article/details/77918633/

5.定時爬取網頁內容參考的網頁

https://blog.csdn.net/qq807237096/article/details/78794039

6. datetime模組

https://blog.csdn.net/cmzsteven/article/details/64906245

https://www.cnblogs.com/wenBlog/p/6023742.html

網路爬蟲—作者：王曉坤

網路爬蟲作業一、題目羊車門作業已釋出，很快就會有同學提交作業，在此作業基礎上，我們釋出本網路爬蟲作業。本作業共分兩部分，第一部分必做，第二部分選作。第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv&n

【網路爬蟲】：Python：url基礎：urllib

文章目錄 1 簡單介紹 2 相關區別 3 例項講解（1）urllib （2）ulrlib2 （3）httplib （4）requests 4 專案實戰 1 簡單介紹

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python3網路爬蟲(四)：使用User Agent和代理IP隱藏身份

執行平臺：Windows Python版本：Python3.x IDE：Sublime text3 一、為何要設定User Agent 有一些網站不喜歡被爬蟲程式訪問，所以會檢測連線物件，如果是爬蟲程式，也就是非人點選訪問，它就會不讓你繼續

網路爬蟲初步：從一個入口連結開始不斷抓取頁面中的網址併入庫

前言：在上一篇《網路爬蟲初步：從訪問網頁到資料解析》中，我們討論瞭如何爬取網頁，對爬取的網頁進行解析，以及訪問被拒絕的網站。在這一篇部落格中，我們可以來了解一下拿到解析的資料可以做的事件。在這篇部落格中，我主要是說明要做的兩件事，一是入庫，二是遍歷拿到的連結繼續訪問。

《完全用Linux工作》作者：王垠

完全用 GNU/Linux 工作理解 GNU/Linux 注：本文是清華“牛仔”王垠的“成名作”，在網上引起很大的爭議。對他崇拜地五體投地者有，對他嗤之以鼻者也有，總之成了一年多以前Linux 愛好者的圈子裡的一個很有意思的現象。之後他對這篇文章進行了很大的

Python3網路爬蟲(一)：利用urllib進行簡單的網頁抓取

執行平臺：Windows Python版本：Python3.x IDE：Sublime text3 一直想學習Python爬蟲的知識，在網上搜索了一下，大部分都是基於Python2.x的。因此打算寫一個Python3.x的爬蟲筆記，以便後續回顧

Python3網路爬蟲(八)：愛奇藝等主流視訊網站的VIP視訊破解(線上觀看+視訊下載)

轉載請註明作者和出處：http://blog.csdn.net/c406495762 執行平臺： Windows Python版本： Python3.x IDE： Sublime text3 一、前言沒有會員，想線上觀看或下載愛奇藝、PPTV

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

百度的搜尋引擎有反爬蟲機制，我先直接用guzzle試試水。程式碼如下： <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QL\Qu

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

作者簡介：王堅

年輕人去ioe ins 前瞻大腦 2010年環境亞洲主任阿裏巴巴集團技術委員會主席，阿裏雲創始人，雲棲小鎮及雪浪小鎮創立者、“名譽鎮長”，人稱“博士”。 2008年9月，加入阿裏巴巴集團擔任首席架構師一職，負責集

網路爬蟲：爬取動態網頁

import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '

Python：網路爬蟲

網路爬蟲，爬取某網站的某個網頁的所有圖片。 python的網路爬蟲是很強大的。 import urllib.request import re path="http://www.xiaohuar.com/2014.html" content=urllib.request.

初探：Python中使用request和BeautifulSoup庫進行網路爬蟲

說起網路爬蟲，Python中最底層的應該是urllib，但是語法結構有些繁瑣，需要使用正則。而使用request和BeautifulSoup庫進行網路爬蟲，發現這真的是web開發人員的福音。凡是懂一些前端知識的人來說，使用request和BeautifulSoup庫進行爬蟲，真的有一種開心而愉快

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

python網路爬蟲（web spider）系統化整理總結（一）：入門

接觸爬蟲很久了，一直沒有個系統的理解和整理，近來假日無事，總結一下。 -------------------------------------------以下是目錄--------------------------------------------------------- 一、爬蟲概

未明學院活動：零基礎網路爬蟲訓練營，還送戴森吹風機、Beats無線耳機

資料驅動商業決策，資料分析對當下企業的重要性可謂眾所周知，因此無論是學生，還是職場白領，紛紛迎合時代發展的需求，從零開始學習資料分析，提升個人技能。入門資料分析的核心要素之一是資料，沒有資料，一切都無從談起。如何在網路上大批量獲取目標資料，單靠一個個手動複製顯然不現實。這個時候，我們就要用到另

分享《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼

下載：https://pan.baidu.com/s/1DqeZDF-MOAQ6hlNx2fq3JA 《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼PDF，306頁，帶書籤目錄。配套原始碼。系統介紹Python網路爬蟲，注重實戰，涵蓋網路爬蟲原理、如何手寫Python網路爬蟲、

Python極簡教程之八：網路爬蟲入門

讀取網頁下載後使用gbk解碼。 import urllib2 url = 'http://www.domain.com/domestic' # download resp = urllib2.urlopen(url).read() # decode resp = resp.dec

網路爬蟲—作者：王曉坤

相關推薦