1. 程式人生 > 程式設計 >通過例項解析Socket套接字通訊原理

通過例項解析Socket套接字通訊原理

一、Socket是什麼

Socket 的中文翻譯過來就是“套接字”。套接字是什麼,我們先來看看它的英文含義:插座。

Socket 就像一個電話插座,負責連通兩端的電話,進行點對點通訊,讓電話可以進行通訊,埠就像插座上的孔,埠不能同時被其他程序佔用。而我們建立連線就像把插頭插在這個插座上,建立一個 Socket 例項開始監聽後,這個電話插座就時刻監聽著訊息的傳入,誰撥通我這個“IP 地址和埠”,我就接通誰。

實際上,Socket 是在應用層和傳輸層之間的一個抽象層,它把 TCP/IP 層複雜的操作抽象為幾個簡單的介面,供應用層呼叫實現程序在網路中的通訊。Socket 起源於 UNIX,在 UNIX 一切皆檔案的思想下,程序間通訊就被冠名為檔案描述符(file descriptor),Socket 是一種“開啟—讀/寫—關閉”模式的實現,伺服器和客戶端各自維護一個“檔案”,在建立連線開啟後,可以向檔案寫入內容供對方讀取或者讀取對方內容,通訊結束時關閉檔案。

另外我們經常說到的Socket 所在位置如下圖:

通過例項解析Socket套接字通訊原理

二、Socket有哪些型別

世界上有很多種套接字(socket),比如 DARPA Internet 地址(Internet 套接字)、本地節點的路徑名(Unix套接字)、CCITT X.25地址(X.25 套接字)等。我們只介紹第一種套接字——Internet 套接字,它是最具代表性的,也是最經典最常用的。以後我們提及套接字,指的都是 Internet 套接字。

根據資料的傳輸方式,可以將 Internet 套接字分成兩種型別。

流格式套接字(SOCK_STREAM)

流格式套接字(Stream Sockets)也叫“面向連線的套接字”,是一種可靠的、雙向的通訊資料流,資料可以準確無誤地到達另一臺計算機,如果損壞或丟失,可以重新發送。

其特點:

  • 資料在傳輸過程中不會消失;
  • 資料是按照順序傳輸的;
  • 資料的傳送和接收不是同步的(有的教程也稱“不存在資料邊界”)。

可以將SOCK_STREAM 比喻成一條傳送帶,只要傳送帶本身沒有問題(不會斷網),就能保證資料不丟失;同時,較晚傳送的資料不會先到達,較早傳送的資料不會晚到達,這就保證了資料是按照順序傳遞的。

為什麼流格式套接字可以達到高質量的資料傳輸呢?這是因為它使用了 TCP 協議(The Transmission Control Protocol,傳輸控制協議),TCP 協議會控制你的資料按照順序到達並且沒有錯誤。

你也許見過 TCP,是因為你經常聽說“TCP/IP”。TCP 用來確保資料的正確性,IP(Internet Protocol,網路協議)用來控制資料如何從源頭到達目的地,也就是常說的“路由”。

那麼,“資料的傳送和接收不同步”該如何理解呢?

假設傳送帶傳送的是水果,接收者需要湊齊 100 個後才能裝袋,但是傳送帶可能把這 100 個水果分批傳送,比如第一批傳送 20 個,第二批傳送 50 個,第三批傳送 30 個。接收者不需要和傳送帶保持同步,只要根據自己的節奏來裝袋即可,不用管傳送帶傳送了幾批,也不用每到一批就裝袋一次,可以等到湊夠了 100 個水果再裝袋。

流格式套接字的內部有一個緩衝區(也就是字元陣列),通過 socket 傳輸的資料將儲存到這個緩衝區。接收端在收到資料後並不一定立即讀取,只要資料不超過緩衝區的容量,接收端有可能在緩衝區被填滿以後一次性地讀取,也可能分成好幾次讀取。

也就是說,不管資料分幾次傳送過來,接收端只需要根據自己的要求讀取,不用非得在資料到達時立即讀取。傳送端有自己的節奏,接收端也有自己的節奏,它們是不一致的。

流格式套接字有什麼實際的應用場景嗎?瀏覽器所使用的 http 協議就基於面向連線的套接字,因為必須要確保資料準確無誤,否則載入的 HTML 將無法解析。

資料報格式套接字(SOCK_DGRAM)

資料報格式套接字(Datagram Sockets)也叫“無連線的套接字”。計算機只管傳輸資料,不作資料校驗,如果資料在傳輸中損壞,或者沒有到達另一臺計算機,是沒有辦法補救的。也就是說,資料錯了就錯了,無法重傳。

因為資料報套接字所做的校驗工作少,所以在傳輸效率方面比流格式套接字要高。

有以下特徵:

  • 強調快速傳輸而非傳輸順序;
  • 傳輸的資料可能丟失也可能損毀;
  • 限制每次傳輸的資料大小;
  • 資料的傳送和接收是同步的

眾所周知,速度是快遞行業的生命。用摩托車發往同一地點的兩件包裹無需保證順序,只要以最快的速度交給客戶就行。這種方式存在損壞或丟失的風險,而且包裹大小有一定限制。因此,想要傳遞大量包裹,就得分配發送。

另外,用兩輛摩托車分別傳送兩件包裹,那麼接收者也需要分兩次接收,所以“資料的傳送和接收是同步的”;換句話說,接收次數應該和傳送次數相同。

總之,資料報套接字是一種不可靠的、不按順序傳遞的、以追求速度為目的的套接字。

資料報套接字也使用 IP 協議作路由,但是它不使用 TCP 協議,而是使用 UDP 協議(User Datagram Protocol,使用者資料報協議)。

QQ 視訊聊天和語音聊天就使用SOCK_DGRAM 來傳輸資料,因為首先要保證通訊的效率,儘量減小延遲,而資料的正確性是次要的,即使丟失很小的一部分資料,視訊和音訊也可以正常解析,最多出現噪點或雜音,不會對通訊質量有實質的影響。

注意:SOCK_DGRAM 沒有想象中的糟糕,不會頻繁的丟失資料,資料錯誤只是小概率事件。

三、Socket通訊過程

Socket 保證了不同計算機之間的通訊,也就是網路通訊。對於網站,通訊模型是伺服器與客戶端之間的通訊。兩端都建立了一個 Socket 物件,然後通過 Socket 物件對資料進行傳輸。通常伺服器處於一個無限迴圈,等待客戶端的連線。

下面是面向連線的 TCP 時序圖:

通過例項解析Socket套接字通訊原理

客戶端過程

客戶端的過程比較簡單,建立 Socket,連線伺服器,將 Socket 與遠端主機連線(注意:只有 TCP 才有“連線”的概念,一些 Socket 比如 UDP、ICMP 和 ARP 沒有“連線”的概念),傳送資料,讀取響應資料,直到資料交換完畢,關閉連線,結束 TCP 對話。

import socket
import sys

if __name__ == '__main__':
  sock = socket.socket(socket.AF_INET,socket.SOCK_STREAM) # 建立 Socket 連線
  sock.connect(('127.0.0.1',8001)) # 連線伺服器
  while True:
    data = input('Please input data:')
    if not data:
      break
    try:
      sock.sendall(data)
    except socket.error as e:
      print('Send Failed...',e)
      sys.exit(0)
    print('Send Successfully')

    res = sock.recv(4096) # 獲取伺服器返回的資料,還可以用 recvfrom()、recv_into() 等
    print(res)
  sock.close()

sock.sendall(data)

這裡也可用 send() 方法:不同在於 sendall() 在返回前會嘗試傳送所有資料,並且成功時返回 None,而 send() 則返回傳送的位元組數量,失敗時都丟擲異常。

服務端過程

服務端先初始化 Socket,建立流式套接字,與本機地址及埠進行繫結,然後通知 TCP,準備好接收連線,呼叫accept()阻塞,等待來自客戶端的連線。如果這時客戶端與伺服器建立了連線,客戶端傳送資料請求,伺服器接收請求並處理請求,然後把響應資料傳送給客戶端,客戶端讀取資料,直到資料交換完畢。最後關閉連線,互動結束。

import socket
import sys

if __name__ == '__main__':
  sock = socket.socket(socket.AF_INET,socket.SOCK_STREAM) # 建立 Socket 連線(TCP)
  print('Socket Created')

  try:
    sock.bind(('127.0.0.1',8001)) # 配置 Socket,繫結 IP 地址和埠號
  except socket.error as e:
    print('Bind Failed...',e)
    sys.exit(0)

  sock.listen(5) # 設定最大允許連線數,各連線和 Server 的通訊遵循 FIFO 原則

  while True: # 迴圈輪詢 Socket 狀態,等待訪問
    conn,addr = sock.accept()
    try:
      conn.settimeout(10) # 如果請求超過 10 秒沒有完成,就終止操作

      # 如果要同時處理多個連線,則下面的語句塊應該用多執行緒來處理
      while True: # 獲得一個連線,然後開始迴圈處理這個連線傳送的資訊
        data = conn.recv(1024)
        print('Get value ' + data,end='\n\n')
        if not data:
          print('Exit Server',end='\n\n')
          break
        conn.sendall('OK') # 返回資料
    except socket.timeout: # 建立連線後,該連線在設定的時間內沒有資料發來,就會引發超時
      print('Time out')

    conn.close() # 當一個連線監聽迴圈退出後,連線可以關掉
  sock.close()

conn,addr = sock.accept()

呼叫accept()時,Socket 會進入waiting狀態。客戶端請求連線時,方法建立連線並返回伺服器。accept()返回一個含有兩個元素的元組 (conn,addr)。第一個元素 conn 是新的 Socket 物件,伺服器必須通過它與客戶端通訊;第二個元素 addr 是客戶端的 IP 地址及埠。

data = conn.recv(1024)

接下來是處理階段,伺服器和客戶端通過send()和recv()通訊(傳輸資料)。

伺服器呼叫send(),並採用字串形式向客戶端傳送資訊,send()返回已傳送的字元個數。

伺服器呼叫recv()從客戶端接收資訊。呼叫recv()時,伺服器必須指定一個整數,它對應於可通過本次方法呼叫來接收的最大資料量。recv()在接收資料時會進入blocked狀態,最後返回一個字串,用它表示收到的資料。如果傳送的資料量超過了recv()所允許的,資料會被截短。多餘的資料將緩衝於接收端,以後呼叫recv()時,會繼續讀剩餘的位元組,如果有多餘的資料會從緩衝區刪除(以及自上次呼叫recv()以來,客戶端可能傳送的其它任何資料)。傳輸結束,伺服器呼叫 Socket 的close()關閉連線。

四、從 TCP 連線的視角看 Socket 過程TCP 三次握手的 Socket 過程

通過例項解析Socket套接字通訊原理

  • 伺服器呼叫 socket()、bind()、listen() 完成初始化後,呼叫 accept() 阻塞等待;
  • 客戶端 Socket 物件呼叫 connect() 向伺服器傳送了一個 SYN 並阻塞;
  • 伺服器完成了第一次握手,即傳送 SYN 和 ACK 應答;
  • 客戶端收到服務端傳送的應答之後,從 connect() 返回,再發送一個 ACK 給伺服器;
  • 伺服器 Socket 物件接收客戶端第三次握手 ACK 確認,此時服務端從 accept() 返回,建立連線。

接下來就是兩個端的連線物件互相收發資料。

TCP 四次揮手的 Socket 過程

通過例項解析Socket套接字通訊原理

  • 某個應用程序呼叫 close() 主動關閉,傳送一個 FIN;
  • 另一端接收到 FIN 後被動執行關閉,併發送 ACK 確認;
  • 之後被動執行關閉的應用程序呼叫 close() 關閉 Socket,並也傳送一個 FIN;
  • 接收到這個 FIN 的一端向另一端 ACK 確認。

說明:上面的服務端程式碼只有處理完一個客戶端請求才會去處理下一個客戶端的請求,這樣的伺服器處理能力很弱,而實際中伺服器都需要有併發處理能力,為了達到併發處理,伺服器就需要 fork 一個新的程序或者執行緒去處理請求。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。