Python學爬蟲的課程備忘

阿新 • • 發佈：2018-11-23

學習慕課網的北京理工大學的嵩天老師關於爬蟲的授課，講的非常好。為了幫自己整理知識，特意在此備忘。
爬取百度的首頁

至於版權，那還是算嵩老師的。


#CrawUnivRankingB.py
import requests
from bs4 import BeautifulSoup
import bs4
 
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[3].string])
 
def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","學校名稱","總分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
     
def main():
    uinfo = []
    url = 'https://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs
main()

#!/usr/bin/python
# -*- coding: <encoding name> -*-

import requests

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '網路錯誤'

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    print(getHTMLText(url))

在這裡插入圖片描述

Python學爬蟲的課程備忘

學習慕課網的北京理工大學的嵩天老師關於爬蟲的授課，講的非常好。為了幫自己整理知識，特意在此備忘。爬取百度的首頁至於版權，那還是算嵩老師的。 #CrawUnivRankingB.py import requests from bs4 import BeautifulSoup im

抄來的一個Python爬蟲demo,備忘

從知乎上抄過來的demo，作者是在ios下開發的，直接拿到windows平臺上執行有報錯。所以做了修改，下面是修改後的原始碼：# -*- coding: utf-8 -*- """ Created on Wed Apr 11 14:57:23 2018 @author: s

TFTP_server python實現（個人備忘）

list 數據 += qname decode fin 響應 OS 判斷 #coding=utf-8from socket import *import time,structclass TFTPServer(): #操作碼 DOWNLOAD =

python裝飾器（備忘）

code -- urn decorator args war return ret fun # 裝飾器decorator def deco1(fun): def PRINT(*args,**kwargs): print(‘------deco1----

自己整理的一些爬蟲知識. 備忘!

很多文字內容都是通過自己的理解寫的,如果有理解不到位的地方,還望指正. selenium部分是通過看資料整理的,很多東西不是很懂,有待進一步學習. 一. requests 模組基於urllib的模組 , 用法比urllib簡單 1. requests

python使用MongoDB，備忘

知識備份，內容多來自知乎的Jerry專欄。安裝pymongo pymongo是由MongoDB開發者釋出的官方驅動程式，官方文件在這裡。安裝： pip install pymongo 在命令列中import pymongo沒有異常則安裝成功。

python大小寫轉換函式備忘

capitalize() 首字母大寫，其餘全部小寫 upper() 全轉換成大寫 lower() 全轉換成小寫 title() 標題首字大寫例子： >>> map(str.capitalize,['adam','aDam','StAr']) ['

Python備忘

class 安裝 ont 備忘 org 開源 ron 自己的 color Python 庫索引中包含了大量開源的庫，你可以在你自己的程序中使用它們。要想了解如何安裝並使用這些庫，你可以使用 pip。Python備忘

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

python核心編程socket備忘

accep not blog nco break ddr list cps send 服務器端： # Echo server program from socket import * from time import ctime HOST = ‘‘

python-django備忘

ber clas -i api b- mode 表數主鍵目的 Django 模型 Django 對各種數據庫提供了很好的支持，包括：PostgreSQL、MySQL、SQLite、Oracle。 Django 為這些數據庫提供了統一的調用API。我們可以根據自己業務需

python 列表復制給另一個列表，改值兩個列表均會改變（備忘）

兩種另一個表復制 target tails details 總結拷貝 get http://blog.csdn.net/lc_lc2000/article/details/53135839 本意是使A = B，B為一個列表，結果在後續對A的操作中，導致B中的值也改變了

運維學python之爬蟲中級篇（五）數據存儲（無數據庫版）

就是 erro mage name 打印反序 lis object Circul 本篇主要介紹，爬取html數據後，將html的正文內容存儲為json或csv格式。 1 json格式存儲選定要爬取的網站後，我們利用之前學過的內容，如：Beautiful Soup、xpa

運維學python之爬蟲中級篇（七）Sqlite3

pro odin any /dev/ 裏的連接 oracle postgresq pycharm 前文已經講過無數據庫版本操作（csv，json），今天我們要開始講有數據庫版本的操作，首先就是sqlite3。 1 介紹 SQLite是一個C庫，它提供了一個輕量級的基於磁盤

運維學python之爬蟲中級篇（九）Python3 MySQL 數據庫連接

結束學python ofo 如何 res 2.7 獲取數據執行 mail 最近因為年底，連續兩個項目要投產上線，又趕上公司年會，忙的要死，更新有些慢，見諒。今天要說一說python如何對mysql進行操作。在 Python3.x 版本中用於連接 MySQL 服務器的庫與

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

elasticsearch API使用方法備忘（Python）

elasticsearch api pytho 安裝模塊pip install elasticsearch創建連接from elasticsearch import Elasticsearches = Elasticsearch(['192.168.1.1:9200']) 多節點e

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

學爬蟲，需要掌握哪些Python基礎？

入手爬蟲確實不要求你精通Python程式設計，但基礎知識還是不能忽視的，那麼我們需要哪些Python基礎呢？首先我們先來看看一個最簡單的爬蟲流程：第一步要確定爬取頁面的連結，由於我們通常爬取的內容不止一頁，所以要注意看看翻頁、關鍵字變化時連結

python 處理haproxy 新增backend 備忘

# -*- coding:utf-8 -*- import re,os from io import BytesIO from saltapiauth import SaltApi from jinja2 import Template salta = SaltApi() # contents is d

Python學爬蟲的課程備忘

相關推薦