爬蟲10-1（協程）

阿新 • • 發佈：2020-07-28

預先知道：

    1.併發：是指一個時間段中有幾個程式都處於已啟動執行到執行完畢之間，且這幾個程式都是在同一個處理機（CPU）上執行，
　　　　　　 但任一個時刻點上只有一個程式在處理機上執行。
    2.並行：是指任何時間點，有多個程式執行在多個CPU上（最多和CPU數量一致）
    3.同步：是指程式碼呼叫IO操作時，必須等待IO操作完成才能返回的呼叫方式。
    4.非同步：是指程式碼呼叫IO操作時，不必等待IO操作完成就能返回的呼叫方式。
    5.阻塞：是指呼叫函式的時候當前執行緒被掛起。
    6.非阻塞：是指呼叫函式的時候當前執行緒不會被掛起，而是立即返回。

unix下的5大io型別

　　1阻塞I式/O：系統呼叫不會立即返回結果，當前執行緒會阻塞，等到獲得結果或報錯時在返回（問題：如在呼叫send()的同時，執行緒將被阻塞，
在此期間，執行緒將無法執行任何運算或響應任何的網路請求。）
　　2非阻塞式I/O：呼叫後立即返回結果（問題：不一定三次握手成功，recv() 會被迴圈呼叫，迴圈呼叫recv()將大幅度推高CPU 佔用率），
做計算任務或者再次發起其他連線就較有優勢
　　3I/O複用：它的基本原理就是select/epoll這個function會不斷的輪詢所負責的所有socket，當某個socket有資料到達了，就通知使用者程序。
（阻塞式的方法，可以監聽多個socket狀態）（問題：將資料從核心複製到使用者空間的時間不能省）
　　5非同步I 
/O：它就像是使用者程序將整個IO操作交給了他人（kernel）完成，然後他人做完後發訊號通知。在此期間，使用者程序不需要去檢查IO操作的狀態，
也不需要主動的去拷貝資料。

通過非阻塞io實現http請求：

import socket
from urllib.parse import urlparse

def get_url(url):
    #通過socket請求html
    url=urlparse(url)
    host=url.netloc
    path=url.path
    if path=="":
        path="/"
    #建立socket連線 

    client=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    #設定成非阻塞(拋異常：BlockingIOError: [WinError 10035] 無法立即完成一個非阻止性套接字操作。)
    client.setblocking(False)
    try:
        client.connect((host,80))
    except BlockingIOError as e:
        pass
    #向伺服器傳送資料(還未連線會拋異常)
    while True:
        try:
            client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(path, host).encode("utf8"))
            break
        except OSError as e:
            pass
    #將資料讀取完
    data=b""
    while True:
        try:
            d=client.recv(1024)
        except BlockingIOError as e:
            continue
        if d:
            data+=d
        else:
            break
    #會將header資訊作為返回字串
    data=data.decode('utf8')
    print(data.split('\r\n\r\n')[1])
    client.close()

if __name__=='__main__':
    get_url('http://www.baidu.com')

View Code

通過select完成http請求（利用迴圈回撥）：

優點：併發性高（驅動整個程式主要是回撥迴圈loop（）函式實現，不會等待。沒有執行緒的切換，只有一個執行緒，黨一個URL連線建立完成後就會註冊，然後進入執行）

#自動根據環境選擇poll和epoll
from selectors import DefaultSelector,EVENT_READ,EVENT_WRITE
selector=DefaultSelector()
urls=[]
#全域性變數
stop=False
class Fetcher:
    def connected(self, key):
        #取消註冊
        selector.unregister(key.fd)
        self.client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(self.path, self.host).encode("utf8"))
        selector.register(self.client.fileno(),EVENT_READ,self.readable)

    def readable(self,key):
        d = self.client.recv(1024)
        if d:
            self.data += d
        else:
            selector.unregister(key.fd)
            # 會將header資訊作為返回字串
            data = self.data.decode('utf8')
            print(data.split('\r\n\r\n')[1])
            self.client.close()
            urls.remove(self.spider_url)
            if not urls:
                global stop
                stop=True

    def get_url(self,url):
        self.spider_url = url
        url = urlparse(url)
        self.host = url.netloc
        self.path = url.path
        self.data = b""
        if self.path == "":
            self.path = "/"
        # 建立socket連線
        self.client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.client.setblocking(False)
        try:
            self.client.connect((self.host, 80))
        except BlockingIOError as e:
            pass

        #註冊寫事件,及回撥函式
        selector.register(self.client.fileno(),EVENT_WRITE,self.connected)

def loop():
    #回撥+事件迴圈+select（poll/epoll）
    #事件迴圈，不停的呼叫socket的狀態並呼叫對應的回撥函式
    #判斷哪個可讀可寫，select本身不支援register模式
    #socket狀態變化後的回撥使用程式設計師完成的
    if not stop:
        while True:
            ready=selector.select()
            for key,mask in ready:
                call_back=key.data
                call_back(key)


if __name__=='__main__':
    fetcher=Fetcher()
    fetcher.get_url('http://www.baidu.com')
    loop()

View Code

協程：不帶返回值的函式呼叫，是一個可以暫停的函式。

解決方案：採用同步的方式編寫非同步的程式碼；採用單執行緒去解決任務。

協程的排程：時間迴圈+協程模式

#生成器是可以暫停的函式
import inspect
# def gen_func():
#     value=yield from
#     #第一返回值給呼叫方， 第二呼叫方通過send方式返回值給gen
#     return "bobby"
#1. 用同步的方式編寫非同步的程式碼， 在適當的時候暫停函式並在適當的時候啟動函式
import socket
def get_socket_data():
    yield 1

def downloader(url):
    client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    client.setblocking(False)

    try:
        client.connect((host, 80))  # 阻塞不會消耗cpu
    except BlockingIOError as e:
        pass

    selector.register(self.client.fileno(), EVENT_WRITE, self.connected)
    #如果get_socket_data()中出現異常，會直接拋給downloader（向上拋）
    source = yield from get_socket_data()
    data = source.decode("utf8")
    html_data = data.split("\r\n\r\n")[1]
    print(html_data)

def download_html(html):
    html = yield from downloader()

if __name__ == "__main__":
    #協程的排程依然是 事件迴圈+協程模式 ，協程是單執行緒模式
    pass

參照連結：https://www.cnblogs.com/lyq-biu/p/10486148.html

爬蟲10-1（協程）

預先知道： 1.併發：是指一個時間段中有幾個程式都處於已啟動執行到執行完畢之間，且這幾個程式都是在同一個處理機（CPU）上執行，　　　　　　但任一個時刻點上只有一個程式在處理機上執行。

python 備忘（協程）

1.yield import time def work1(): # 迴圈列印數字1 while True: print(\"-----1-----\") # yield可以暫時掛起該函式,跳轉到呼叫該函式的下方

python--併發程式設計（協程）

協程 asyncio是Python 3.4版本引入的標準庫，直接內建了對非同步IO的支援。 asyncio的程式設計模型就是一個訊息迴圈。我們從asyncio模組中直接獲取一個EventLoop的引用，

Java的虛擬執行緒（協程）特性開啟預覽階段，多執行緒開發的難度將大大降低

高併發、多執行緒一直是Java程式設計中的難點，也是面試題中的要點。Java開發者也一直在嘗試使用多執行緒來解決應用伺服器的併發問題。但是多執行緒並不容易，為此一個新的技術出現了，這就是虛擬執行緒。

爬蟲10-2（多執行緒爬蟲）

繼承自threading.Thread類為了讓執行緒程式碼更好的封裝。可以使用threading模組下的Thread類，繼承自這個類，然後實現run方法，執行緒就會自動執行run方法中的程式碼。示例程式碼如下：

XGBoost文字分類，多分類、二分類、10-Fold（K-Fold）

做機器學習的時候經常用到XGB,簡單記錄一下 K折交叉驗證也是模型常用的優化方法。一起記錄。。。

關於SqlServer那些事1（迴歸基礎）

即將實習，迴歸基礎總結，希望可以再好好打磨一下基礎的一些東西關於如何在重新修改表結構時該變其許可權設定

python爬蟲學習筆記（更新中）

requests庫簡單介紹 import requests r = requests.get("url") /* r=requests.get(url,params=Node,**kwargs)

2020.10.4（動手動腦）

動手動腦生成隨機數 1 import java.util.*; 2 public class random{ 3public static void main(String[] args) {

2020.10.7（動手動腦）

（1）. 原因：如果類提供了一個自定義的構造方法，將導致系統不再提供預設構造方法。

AMD 2020.10.8（當地時間）釋出的 Zen3 處理器有哪些亮點和不足？

剛看完（圖片來自大師助手），IPC提升高於我17%的預期，官方資料是19%。至於前幾天提到的其他疑問，比如積熱解決進度，FCLK/UCLK還沒有明確的說明。

實驗1（佘自然）

/* A simple C program */ #include <stdio.h> int main () { printf(\"202083290312.\\n\"); printf(\"hello,C\\n\");

2020.10.21（動手動腦）

1. 1 class Grandparent 2 { 3 4 5public Grandparent() 6{ 7 8System.out.println(\"GrandParent Created.\");

遞迴1 （迭代）母牛問題

#include<bits/stdc++.h> using namespace std; int fun(int n) { if(n <= 4) return n; else { return fun(n - 1)+fun(n - 3);

H5視覺優化2.1（JQanimate動畫），點贊彈起消失

技術標籤：佈局/ui/CSSH5移動端先看看萬惡的產品原型圖先看animate的引數： $(selector).animate(styles,speed,easing,callback)

python學習1（print函式）

技術標籤：python print函式語法： print（內容）內容種類：數字或運算表示式（輸出結果）用單引號或者雙引號包含的字串（意為不需要解釋，直接輸出）輸出地址（預設是顯示器）也可以為自定義目標，如（ file

《電馭叛客2077攻略》第23章：OP.55N.1（結局條件）

注意進入餘燼後就無法進行其它支線了，如果想要體驗全部結局，需要先完成以下準備：

【更新】618 互動紅包攻略：京東瓜分 20 億、天貓 / 蘇寧瓜分 10 億（更新中）

一年一度的 618 全網電商年中大促即將開啟，除了重頭戲 —— 每天都能領的天貓超級紅包和京東京享紅包 —— 之外，天貓和京東還有很多互動紅包活動可以獲得更多紅包，按往年經驗，如果玩得比較多的話兩邊都能拿好幾十

PC版“掃一掃”程式 V0.1 （全網首發）

現在，二維碼十分普遍，有些位置甚至要求你用手機掃描二維碼。那麼問題來了，如果你想要在掃描完二維碼以後在電腦上開啟網頁，該怎麼辦呢？

記錄 .NetCore3.1（ABP框架）部署IIS後 Swagger頁面登入按鈕邊多了個 Servers 的選項，導致登入介面URL有點問題

1、直接部署在網站下面不會出現 Servers 這個選項，部署到應用程式下就會出現這個東西。導致登入介面的URL錯誤。Login failed !

爬蟲10-1（協程）

相關推薦