爬取noi官網所有題目分析

阿新 • • 發佈：2018-12-20

最近自學，寫了幾個小指令碼，一個指令碼是爬取某東全網的所有資料，但是由於這個比較費時間 = =資料量也有點兒大。沒具體爬一波，就爬了幾個分類。

今天這個小專案，是爬取noi的官網的所有題目，其實題目量比較小了，一個多小時也就寫完了，才幾百個，和jd官網的幾千萬差距是有點兒大的。

現分析一下怎麼爬取的，在貼上一波程式碼。

第一步：觀察網頁

先觀察一波noi的官網的網頁的題目分類。

大概就是這樣子了，在主頁上只展示了標題如1.1，1.2，1.3...的標題，標題下面顯示了部分題目。很顯然這些題目的爬取還不夠。太少。我們的目的是獲取每一個title的連結，為了跳到下一個網頁上。

第二步：分析第一個網頁

開啟goole瀏覽器的開發者模式，分析一波題目連結

我們的任務就是爬取第一個官方主頁的所有title連結，用於我們獲取下一頁的所有題目頁。

輸入連結，很明顯，我們的猜想是正確的。

第三步：分析第二個頁面的題目連結

第二個頁面獲取所有的地址連結用於我們跳到第三個頁面。

第四步：分析題目頁的網頁

題目分析完了，下一步就是粘一波程式碼了。

第五步：爬取noi所有題目

程式碼部分：

import requests
from bs4 import BeautifulSoup


def get_page_one():
    headers = {
        'Cookie': 'PHPSESSID=9k52q5kv00l4m29nvbf55m08j7',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.77 Safari/537.36',
        'Host': 'noi.openjudge.cn',
        'Connection': 'keep-alive'
    }
    url = 'http://noi.openjudge.cn'
    response = requests.get(url, headers=headers)
    # print(response.text)
    try:
        if response.status_code == 200:
            response.encoding = response.apparent_encoding
            return response.text
        return None
    except Exception as e:
        print(e)
        return None


def get_page_two(href):
    headers = {
        'Cookie': 'PHPSESSID=9k52q5kv00l4m29nvbf55m08j7',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.77 Safari/537.36',
        'Host': 'noi.openjudge.cn',
        'Connection': 'keep-alive'
    }
    url = 'http://noi.openjudge.cn' + href
    response = requests.get(url, headers=headers)
    # print(response.text)
    try:
        if response.status_code == 200:
            response.encoding = response.apparent_encoding
            return response.text
        return None
    except Exception as e:
        print(e)
        return None


def get_page_three(href):
    headers = {
        'Cookie': 'PHPSESSID=9k52q5kv00l4m29nvbf55m08j7',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.77 Safari/537.36',
        'Host': 'noi.openjudge.cn',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1'
    }
    url = 'http://noi.openjudge.cn' + href
    response = requests.get(url, headers=headers)
    try:
        if response.status_code == 200:
            response.encoding = response.apparent_encoding
            return response.text
        return None
    except Exception as e:
        print(e)
        return None


def parse_html_href_one(html):
    soup = BeautifulSoup(html, 'lxml')
    storge = list()
    for ul in soup.select('.practice-info h3 a'):
        storge.append(ul['href'])
    return storge


def parse_html_href_two(html_two):
    count = 0
    storge_two = list()
    storge_three = list()
    for i in html_two:
        htmls = get_page_two(i)
        soup = BeautifulSoup(htmls, 'lxml')
        for ul in soup.select('.title a'):
            storge_two.append(ul['href'])
            storge_three.append(ul.get_text())
            count += 1
    print('一共有題目{}'.format(count))
    return storge_two, storge_three


def parse_html_href_three(html_three, html_four):
    count = 0
    for i in html_three:
        count += 1
        htmls = get_page_three(i)
        soup = BeautifulSoup(htmls, 'lxml')
        for ul in soup.select('.problem-content'):
            write_to_file(ul.get_text(), str(html_four[count - 1]))
            print(ul.get_text())
        print('-----------------------')


def write_to_file(content, number):
    try:
        with open('{}.txt'.format(number), 'w') as file:
            file.write(content)
    except Exception as e:
        print(e)


def start():
    href = parse_html_href_one(get_page_one())
    href_two, href_three = parse_html_href_two(href)
    parse_html_href_three(href_two, href_three)


if __name__ == '__main__':
    start()

以上就是我爬取noi的程式碼的指令碼。

各位如有需求自行下載。這是我學習爬取時候的一個小練習，各位如想轉發，請在轉發時提及在下的名稱就好。如有另外思路，互相交流，在下還有爬取某東全網所有品牌所有資料的指令碼。後續可能會寫部落格分享一波。

爬取noi官網所有題目分析

最近自學，寫了幾個小指令碼，一個指令碼是爬取某東全網的所有資料，但是由於這個比較費時間 = =資料量也有點兒大。沒具體爬一波，就爬了幾個分類。今天這個小專案，是爬取noi的官網的所有題目，其實題目量比較小了，一個多小時也就寫完了，才幾百個，和jd官網的幾千萬差距是有點兒大

R語音 rvest爬取中國天氣網所有城市未來七天天氣資料並寫入oracle資料庫

本文使用R語音 rvest爬取中國天氣網所有城市未來七天天氣資料並寫入oracle資料庫，其中包括瞭如何使用R語言連線oracle資料庫，以及爬取時候的簡單策略，最後對爬取到的資料組裝成資料框並寫入資料庫，可以作為R語音初中級愛好者們很好的參考例子，當然這是我很久前寫

第一個完整爬蟲：爬取應屆生網所有職位的詳細資訊

在前面幾篇博文裡其實已經介紹了和Python爬蟲相關的很多基礎知識，包括基本的抓取網頁資訊，ip池的建立和使用，多程序在ip驗證中的使用，今天我們就把這些內容整合到一起，完成一個真正的爬蟲。我們先來

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

爬取鏈家網北京房源及房價分析

爬取鏈家網北京房源及房價分析文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

爬取拉勾網，並進行資料分析

拉勾網是現在網際網路招聘比較火熱的一個網站，本篇文章主要是爬取拉勾網“資料分析師”這個崗位，並且對所爬取到的資訊，進行資料分析。資料採集拉勾網的崗位資訊主要是用json檔案儲存，在position這個json檔案中，我們找到了所需要的崗位資訊

爬取美團網的美食點評資訊（含頁面分析過程）

寫在前面：憑藉興趣寫了很多爬蟲的小程式，但是都沒有以博文的形式分享出來。爬取美團網的資料是因為課題研究需要，已經將深圳所有的美團店鋪評論資料爬取完畢（大眾點評和百檽米的相應區域也已爬取完畢，對爬蟲有興趣可以看我的GitHub主頁：https://github

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

歷時一下午加一晚上，終於把這個爬蟲程式碼寫好，後面還有很多想完善的地方（譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等），待有空再做更改，下面是具體的步驟與思路：工具：PyC

百度網盤外鏈採集分析爬取百度網盤使用者分享問題記錄

採集的時候uk沒什麼問題，出錯加延時1分鐘就好了。採集檔案的時候，errno=-55 出錯加延時約10分鐘就可以。但還有下面幾個問題。 1.檔案，資料夾，多檔案分享都有短地址 shorturl ，比如1c0KyGhU 加上字首後http://pan.baidu.com

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

爬取虎嗅網，並對爬取數據進行分析

ror range class index 關於 def mob 文章內容 gin 一、分析背景： 1，為什麽要選擇虎嗅　　「關於虎嗅」虎嗅網創辦於 2012 年 5 月，是一個聚合優質創新信息與人群的新媒體平臺。 2，分析內容分析虎嗅網 5 萬篇文章的基本情況，包括

常用正則表達式爬取網頁信息及HTML分析總結

logfile mpi 開始 order 標題 ear 爬取網頁常用 enter Python爬取網頁信息時，經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

webmagic爬取博客園所有文章

get() cat 彈出 println for core gic cif tac 最近學習了下webmagic，學webmagic是因為想折騰下爬蟲，但是自己學java的，又不想太費功夫，所以webmagic是比較好的選擇了。寫了幾個demo，源碼流程大致看了一遍。想著

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

Httpclient爬取優酷網

num 內容 htm clas ets author download auth isod 參考：http://www.cnblogs.com/lchzls/p/6277210.html /httpClient/src/main/java/com/louis/youku

爬取noi官網所有題目分析

第一步：觀察網頁

第二步：分析第一個網頁

第三步：分析第二個頁面的題目連結

第四步：分析題目頁的網頁

第五步：爬取noi所有題目

相關推薦