爬蟲小例

阿新 • • 發佈：2017-09-12

展示 col 結果 url beautiful 網頁 time ext form

中國大學排名爬蟲

輸入：大學排名URL鏈接

輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）

技術路線：requests-bs4

定向爬取：僅對輸入URL進行爬取，不進行擴展爬取

程序的結構設計

從網絡上獲取大學排名網頁內容 getHTMLText()
提取網頁內容中信息到合適的數據結構 fillUnivList()
利用數據結構展示並輸出結果 printUnivList()

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r  
= requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find(‘tbody‘).children:
        if isinstance(tr,bs4.element.Tag):
            tds  
= tr(‘td‘)
            ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist,num):
    print(‘{:^10}\t{:^6}\t{:^10}‘.format(‘排名‘,‘學校名稱‘,‘總分‘))
    print(‘suc‘+str(num))
    for i in range(num):
        u = ulist[i]
        print(‘{:^10}\t{:^6}\t{:^10}‘.format(u[0],u[1],u[2]))


 
def main():
    uinfo = []
    url = ‘http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html‘
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)  #打印20所大學的信息

main()

爬蟲小例

展示 col 結果 url beautiful 網頁 time ext form 中國大學排名爬蟲輸入：大學排名URL鏈接輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）技術路線：requests-bs4 定向爬取：僅對輸入URL進行爬取，不進行擴展爬取程序

爬蟲小探-Python3 urllib.request獲取頁面數據

text height urlopen -s mozilla 使用 pri 爬蟲 size 使用Python3 urllib.request中的Requests()和urlopen()方法獲取頁面源碼，並用re正則進行正則匹配查找需要的數據。 #forex.py#co

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

wmic命令用法小例

brief isa 讀者用戶名 creation not 詳細信息 services cname wmic就是wmic.exe，位於windows目錄底下，是一個命令行程序。WMIC可以以兩種模式執行：交互模式(Interactive mode)和非交互模式(Non-In

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

HTML5基礎小結（二）——標簽小例

加速支持 ide oat enter controls 畫圓 side tint 隨篇博客的思維導圖。繼續：二。看下標簽的使用，這裏看幾個小樣例（效果圖不再給出）： 1。結構標簽的使用，這裏來看一個頁面的布局：<!doc

treetable 用法小例

tle 編輯 reat isn eight mode gety 插入 -i 插件地址：http://pan.baidu.com/s/1kVf0Kcf <script src="/plugins/jQuery/jQuery-2.1.4.min.js"></s

省市區聯動（編輯回顯）小例

ajax hang .ajax png control order 初始 trigge cnblogs <div class="form-group"> <label class="col-s

zTree 用法小例

hang suse lec eight inpu modal dex role i++ 插件地址：鏈接：http://pan.baidu.com/s/1jHVtyZ0 密碼：7kee <select id="getTree" resultType="java.u

[定向爬蟲] 網絡爬蟲實例2-淘寶定向爬蟲

break 解析 tao 運行 title out 繼續 pri 字符串分割 import requests import re import time #獲取html頁面 def getHTMLText(url): try:

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

使用libcurl下載文件小例

true 自己的 seh har erase == win name code libcurl是一個很強大的開源網絡處理庫，支持包括HTTP、HTTPS、FTP……一系列網絡協議。用它來進行HTTP的get\post 或者下載文件更是小菜一碟，chrome內核都用到了它，本

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

爬蟲實例：唐詩宋詞爬蟲

點滴 itl cnblogs @class .com 南方 xpath repl users 每年都期待夏天趕緊變成秋天，沒有木頭馬尾的九月，沒有顏色奇跡的南方，只得古詩詞裏把情緒商量，算雲煙，此處認春秋。以流浪丈量秋天的面積，秋天的外面還是秋天。以攀登探測秋天的深度，

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

python爬蟲實例

mobile 獲取數據 sea con orm obi tle lob time 這裏有兩個爬蟲的實例，是剛開始學python用的，一個是爬取京東茅臺酒評論的，另一個是爬取新浪網國內新聞的，兩個都是網上的教程裏邊的，代碼略微有些不同，供參考學習。都可以在andconda裏

爬蟲小例

相關推薦