【Python】簡單網路爬蟲實現

阿新 • • 發佈：2019-01-07

引言

網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。 --維基百科

網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引供使用者搜尋。
一般有兩個步驟：1.獲取網頁內容 2.對獲得的網頁內容進行處理

準備

Linux開發環境

python3.61安裝方法:https://www.cnblogs.com/kimyeee/p/7250560.html

安裝一些必要的第三方庫
其中requiests可以用來爬取網頁內容，beautifulsoup4用來將爬取的網頁內容分析處理

pip3 install requiests
pip3 install beautifulsoup4

第一步：爬取

使用request庫中的get方法，請求url的網頁內容
更多瞭解：http://docs.python-requests.org/en/master/

編寫程式碼

[[email protected] demo]# touch demo.py
[[email protected] demo]# vim demo.py

#web爬蟲學習 -- 分析
#獲取頁面資訊

#輸入：url
#處理：request庫函式獲取頁面資訊，並將網頁內容轉換成為人能看懂的編碼格式
#輸出：爬取到的內容

import requests

def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果狀態碼不是200，產生異常
        r.encoding = 'utf-8'    #字元編碼格式改成 utf-8
        return r.text
    except:
        #異常處理
        return " error "

url = "http://www.baidu.com"
print( getHTMLText(url) )

[[email protected] demo]# python3 demo.py

第二步：分析

使用bs4庫中BeautifulSoup類，生成一個物件。find()和find_all()方法可以遍歷這個html檔案，提取指定資訊。
更多瞭解：https://www.crummy.com/software/BeautifulSoup/

編寫程式碼

[[email protected] demo]# touch demo1.py
[[email protected] demo]# vim demo1.py

#web爬蟲學習 -- 分析
#獲取頁面資訊

#輸入：url
#處理：request庫獲取頁面資訊，並從爬取到的內容中提取關鍵資訊
#輸出：列印輸出提取到的關鍵資訊

import requests
from bs4 import BeautifulSoup
import re

def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果狀態碼不是200，產生異常
        r.encoding = 'utf-8'    #字元編碼格式改成 utf-8
        return r.text
    except:
        #異常處理
        return " error "

def findHTMLText(text):
    soup = BeautifulSoup( text, "html.parser" )    #返回BeautifulSoup物件
    return soup.find_all(string=re.compile( '百度' )) #結合正則表示式，實現字串片段匹配

url = "http://www.baidu.com"
text = getHTMLText(url)        #獲取html文字內容
res = findHTMLText(text)    #匹配結果

print(res)        #列印輸出

[[email protected] demo]# python3 demo1.py

一個例子：中國大學排名爬蟲

參考連結：https://python123.io/index/notebooks/python_programming_basic_v2

#e23.1CrawUnivRanking.py
import requests
from bs4 import BeautifulSoup
allUniv = []
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""
def fillUnivList(soup):
    data = soup.find_all('tr')
    for tr in data:
        ltd = tr.find_all('td')
        if len(ltd)==0:
            continue
        singleUniv = []
        for td in ltd:
            singleUniv.append(td.string)
        allUniv.append(singleUniv)
def printUnivList(num):
    print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","學校名稱","省市","總分","培養規模"))
    for i in range(num):
        u=allUniv[i]
        print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6]))
def main():
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    soup = BeautifulSoup(html, "html.parser")
    fillUnivList(soup)
    printUnivList(10)
main()

展示

【Python】簡單網路爬蟲實現

引言網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。 --維基百科網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引供使用者搜尋。一般有兩個步驟：1.獲取網頁內

【python】簡單實現一個模板引擎

# simpletemplate 簡單的前端html編譯程式有時候，我們就是簡單的做幾個前端頁面，頁面難免會出現重複的地方，比如head和footer nav導航，這個時候，我們修改一處，其它地方也要修改，真心麻煩. 不過話說說回來，各種服務端程式語言都有比較成熟的模板程式，比如php的smarty

【python】簡單的購物車

python#!/usr/bin/env python #-*- coding:utf-8 -*- #簡單的購物車 #知識點: #1：優雅的enumerate函數，返回一個生成器對象：（index,item）的元組 #2：print(‘product list :’.center(50,’-‘)) 可以居中

【Python】曲線簡化演算法實現

Overview 曲線簡化演算法通常應用於運動捕捉資料的關鍵幀提取，在此基礎上還演化出了更多的演算法本文對基本的曲線簡化演算法進行了程式碼實現，以關鍵幀個數或線性重建誤差作為迭代終止條件其中，計算點i到直線n1-n2的距離公式如下[1]：更多演算法及分析可參考[2]

【PHP】簡單計算器的實現

<!DOCTYPE html> <html> <head> <title>計算器</title> <meta charset = 'utf-8'> </head> <body> <

【Python】TCP網路程式設計

【Python TCP網路使用】注意：必須先啟動伺服器！！！不然會報錯 import socket; def LanJian_TcpClient(): with socket.socket(socket.AF_INET, socket.SOCK_STREAM)

【Java】基於jsoup爬蟲實現（從智聯獲取工作資訊）

這幾天在學習Java解析xml，突然想到Dom能不能解析html，結果試了半天行不通，然後就去查了一些資料，發現很多人都在用Jsoup解析html檔案，然後研究了一下，寫了一個簡單的例項，感覺還有很多地方需要潤色，在這裡分享一下我的例項，歡迎交流指教！後續想通過Java把資料匯入到Excel或者

【Python】簡單的UDP通訊介面

(一)建立介面 wxFronBuilder使用方法，在TCP通訊詳細介紹過，大致如圖：建立完成，選中專案->code選擇Python儲存->點選F8獲得 noname.py noname.py 部分截圖： (二)建立UdpChat專案 eclipse建立udp

【Python】簡單地理解Python中的if name == 'main'

轉載一篇寫的非常好的部落格原文地址: 以下為原文通俗的理解__name__ == '__main__'：假如你叫小明.py，在朋友眼中，你是小明(__name__ == '小明')；在你自己眼中，你是你自己(__name__ == '__main__')

【Python】簡單的圖片隱寫術

圖片隱寫術，即在圖片裡非顯式地嵌入資訊，實現圖片隱寫有很多方法。第一種方式（來自維基百科）：要從上圖中獲取下圖的資訊，只需要將上圖色彩空間中的每個二進位制數都只保留最後兩位（即相當於與3做按位與計算），再將亮度層乘以85即可。用matla

【專欄】- Python3網路爬蟲入門

Python3網路爬蟲入門歡迎Follow、Star：https://github.com/Jack-Cherish/python-spider 進階教程：http://cuijiahua.com/blog/spider/

【Python】進度條的實現

方式一 #!/usr/bin/env python from __future__ import division import sys,time j = '#' for i in range(1,61): j += '#' sys.stdout.write(str(int((i

【Python】k-means演算法實現

# -*- coding: utf-8 -*- import math import random import matplotlib.pyplot as plt from matplotlib import colors as m_colors #生成樣本點 def g

【Python】asyncio非同步爬蟲

抓取圖片URL # -*- coding: utf-8 -*- import asyncio import aiohttp from pyquery import PyQuery as pq url

【Python】簡單的串列埠收發資料

實現效果： Python端執行的時候開啟COM3，然後準備從鍵盤獲取資料，併發送，同時接收串列埠除錯助手COM1傳送過來的資料 Python端：串列埠除錯助手：串列埠除錯助手使用COM1，能顯示Python端發過來的資料，當點擊發送的時候，Python端

【Python】udp網路程式-傳送、接受資料

udp網路程式-傳送、接收資料 1. udp網路程式-傳送資料建立一個基於udp的網路程式流程很簡單，具體步驟如下：建立客戶端套接字傳送/接收資料關閉套接字與發簡訊類似。程式碼如下： #coding=utf-8 from socket import * # 1.

【Python】用生成器generator簡單實現楊輝三角

楊輝三角，又稱賈憲三角形，帕斯卡三角形，是二項式係數在三角形中的一種幾何排列。 def triangles(): L=[1] while(True): yield L L=[1]+[x+y for x,y in zip(L[:-1],L[1:])]+[1] n = 0 max=int(input

【Python】改進Hopfield網路程式碼實現

Hopfield網路 Hopfield網路由美國加州理工學院物理學教授J. J. Hopfield於1982年提出[1] 網路從輸出到輸入有反饋連線，在輸入的激勵下，會產生不斷的狀態變化，是一種單層反饋神經網路，也可以被視為一種迴圈神經網路 Hopfield神經網路是反饋網路中最

【Python】搭建你的第一個簡單的神經網路_理論篇_NN&DL學習筆記（一）

前言本文為《Neural Network and Deep Learning》學習筆記（一），可以轉載但請標明原文地址。本人剛剛入門、筆記簡陋不足、多有謬誤，而原書精妙易懂、不長篇幅常有柳暗花明之處，故推薦閱讀原書。《Neural Network and Deep Learning

【Python】搭建你的第一個簡單的神經網路_實踐篇_NN&DL學習筆記（三）

前言本文為《Neural Network and Deep Learning》學習筆記（三），可以轉載但請標明原文地址。本人剛剛入門、筆記簡陋不足、多有謬誤，而原書精妙易懂、不長篇幅常有柳暗花明之處，故推薦閱讀原書。《Neural Network and Deep Learning

【Python】 簡單網路爬蟲實現

引言

準備

第一步：爬取

第二步：分析

一個例子：中國大學排名爬蟲

相關推薦

【Python】簡單網路爬蟲實現