20191317王鵬宇第四章學習筆記

阿新 • • 發佈：2021-11-01

爬蟲
通過編寫程式來獲取網際網路上的資源

需求：用程式模擬瀏覽器，輸入一個網址，從該網址中獲取到資源或者類容

用Python搞定以上需求

web請求過程

1伺服器渲染：在伺服器那邊直接把資料和html整合在一起，統一返回給瀏覽器
在頁面原始碼中能看到資料

2客戶端渲染：第一次請求只要一個html骨架，第二次請求拿到資料，進行資料展示
在頁面原始碼中，看不到資料

http協議
請求
請求行請求方式(get/post) 請求url地址協議
請求頭放一些伺服器要使用的附加資訊
請求體請求引數

響應

狀態行協議狀態碼
響應頭放一些客戶端要使用的一些附加資訊
響應體伺服器返回的真正客戶端要用的內容(html,json)

安裝requests
pip install requests
國內源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

post請求
requests.post(url=url,data=dat)
dat是一個字典

get請求
requests.get(url=url,params=param)

資料解析
re解析

bs4解析

xpath解析

正則語法：使用元字元進行排列組合用來匹配字串

常用元字元

. 匹配除換行符以外的任意字元
\w 匹配字母或數字或下劃線
\s 匹配任意的空白字元
\d 匹配數字
\n 匹配一個換行符
\t 匹配製表符

^ 匹配字串的開始
$ 匹配字串的結尾

\W 匹配非字母或者數字或下劃線
\D 匹配非數字
\S 匹配非空白符
a|b 匹配字元a或字元b
( ) 匹配括號內的表示式，也寶石一個組
[...] 匹配字元組中的字元
[^...] 匹配除了字元組中字元的所有字元

量詞：控制前面的元字元出現的次數
* 重複零次或更多次
+ 重複一次或更多次

？重複零次或一次
{ n } 重複n次
{ n, } 重複n次或更多次
{ n,m } 重複n到m次

貪婪匹配和惰性匹配
.* 貪婪匹配
.*? 惰性匹配

爬蟲用的最多的是惰性匹配

re模組
1findall查詢所有，返回list

2search會進行匹配，返回match物件
但是如果匹配到了第一個結果，就會返回這個結果，
如果匹配不上search返回的則是None

3match只能從字串開頭進行匹配

4finditer和findall差不多，只不過這時返回的是迭代器

5預載入正則表示式
obj = re.compile(r'\d+')

6(?P<分組名字>正則) 可以單獨從正則匹配的內容中進一步提取內容

import requests
from bs4 import BeautfulSoup

url = 'http://www.baidu.com'
data = requests.get( url )
data.encoding = 'utf-8'
print( data.text )

main_page = BeautifulSoup( data.text, 'html.parser')
a_list = main_page.find( 'div',class='TypList').find_all( 'a' )

for iteam in a_list:
iteam.get('href')

xpath 是在xml文件中掃搜內容的一門語言
html是xml的一個子集

from lxml import etree

tree = etree.parse('b.html')
result = tree.xpath('/html/body/div/text()')

import requests

session = requests.session( )

data = {
'loginName' = 'username',
'password' = '123456'
}

url = 'http://www.baidu.com'
res = session.post( url, data = data)

防盜鏈：當前請求的上一級

20191317王鵬宇第四章學習筆記

第四章：併發程式設計知識點歸納總結：本章論述了併發程式設計，介紹了平行計算的概念，指岀了平行計算的重要性；比較了順序演算法與並行演算法，以及並行性與併發性；解釋了執行緒的原理及其相對於程序的優勢；

20191317王鵬宇第三章學習筆記

第三章：Unix/Linux程序管理知識點歸納總結：本章討論了 Unix/Linux中的程序管理；闡述了多工處理原則；介紹了程序概念；並以一個程式設計示例來說明多工處理、上下文切換和程序處理的各種原則和方法。

20191317王鵬宇第五章學習筆記

第五章：定時器及時鐘服務知識點歸納總結：本章討論了定時器和定時器服務；介紹了硬體定時器的原理和基於Intel x86的PC中的硬體定時器；

20191323王予涵第四章學習筆記

20191323王予涵第四章學習筆記一、知識點總結執行緒優點：建立切換速度快相應速度快

20191317王鵬宇第七，八章學習筆記

第七章：檔案操作知識點歸納總結：本章討論了多種檔案系統；解釋了作業系統中的各種操作級別，包括為檔案儲存準備儲存裝置、核心中的檔案系統支援函式、系統呼叫、檔案流上的I/O庫函式、使用者命令和各種操作的

20191317王鵬宇第十二章學習筆記

第十二章：塊裝置I/O和緩衝區管理知識點歸納總結：本章討論了塊裝置I/O和緩衝區管理；解釋了塊裝置I/O的原理和I/O緩衝的優點；

Java講義第四章學習筆記

chapter 4流程控制與陣列 4.1順序結構　　順序結構就是程式從上到下逐行地執行，中間沒有任何判斷和跳轉。

《動手學深度學習》mxnet版/第四章學習筆記

第四章概括深度學習計算的各個重要組成部分，如模型構造、引數的訪問和初始化等，自定義層，讀取、儲存和使用GPU

20191323王予涵第三章學習筆記

20191323王予涵第三章學習筆記一、知識點歸納 1、多工處理通過對cpu進行時分複用來實現程序的併發執行，若有多個cpu或cpu有多個核心，則可以並行執行多個程序。

《Unix/Linux系統程式設計》第四章學習筆記

學習筆記 20191318 王澤文《Unix/Linux系統程式設計》第四章併發程式設計本章論述了併發程式設計，介紹了平行計算的概念，指出了平行計算的重要性；比較了順序演算法與並行演算法，以及並行性與併發

第四章學習筆記（20191213蘭毅達）

第四章學習筆記一、概述本章論述了併發程式設計，介紹了平行計算的概念，指出了平行計算的重要性；比較了順序演算法與並行演算法以及並行性與併發性；解釋了執行緒的原理及其相對於程序的優勢；解釋了死鎖問題，

第四章學習筆記

讀書筆記本章論述了併發程式設計，介紹了平行計算的概念，指出了平行計算的重要性;比較了順序演算法與並行演算法，以及並行性與併發性;解釋了執行緒的原理及其相對於程序的優勢;通過示例介紹了Pthread中的執行緒操

20191302 第四章學習筆記

併發程式設計摘要本章論述了併發程式設計,介紹了平行計算的概念,指出了平行計算的重要性;

《Unix/Linux系統程式設計》第四章學習筆記-20191304商蘇赫

併發程式設計在只有一個CPU的情況下，每次只能按順序執行某演算法的一個指令和步驟。但是，基於分治原則（如二叉樹查詢和快速排序等）的演算法經常表現出高度的並行性，可通過使用並行或併發執行來提高計算速度。平

Unix/Linux系統程式設計第四章學習筆記

Unix/Linux系統程式設計第四章學習筆記作者：20191322wyl 目錄知識點總結平行計算導論順序演算法與並行演算法並行性與併發性執行緒執行緒的原理執行緒的優缺點執行緒操作執行緒管理函式實踐題目：過程：結果：問題

鳥哥的linux私房菜——第四章學習

******************第四章學習****************** 【熱鍵】 1、Tab鍵：命令補全；檔案補全；

20191317王鵬宇鯤鵬伺服器測試

鯤鵬伺服器測試步驟一：登入華為雲我們首先需要登入華為雲賬號來購買華為伺服器：https://www.huaweicloud.com/?ticket=ST-1245751-q3BNIdpgSWcrLXfZvOqodjLO-sso

20191317王鵬宇緩衝區溢位實驗

緩衝區溢位實驗緩衝區溢位是指程式試圖向緩衝區寫入超出預分配固定長度資料的情況。這一漏洞可以被惡意使用者利用來改變程式的流控制，甚至執行程式碼的任意片段。這一漏洞的出現是由於資料緩衝器和返回地址的暫時

第十四章學習筆記

一、梗概本章討論了MySQL關係資料庫系統;介紹了MySQL並指出了它的重要性;展示瞭如何在Linux機器上安裝和執行MySQL;演示瞭如何使用MySQL在命令模式和批處理模式下使用SOL指令碼建立和管理資料庫;說明了如何將MvSOL

資訊安全系統設計與實現：第十四章學習筆記

資訊安全系統設計與實現：第十四章學習筆記 20191331 lyx 教材學習內容總結第十四章 MySQL資料庫系統

20191317王鵬宇第四章學習筆記

相關推薦