epoll和select
epoll和select
先說下本文框架,先是問題引出,然後概括兩個機制的區別和聯絡,最後介紹每個介面的用法
一、問題引出 聯絡區別
問題的引出,當需要讀兩個以上的I/O的時候,如果使用阻塞式的I/O,那麼可能長時間的阻塞在一個描述符上面,另外的描述符雖然有資料但是不能讀出來,這樣實時性不能滿足要求,大概的解決方案有以下幾種:
1.使用多程序或者多執行緒,但是這種方法會造成程式的複雜,而且對與程序與執行緒的建立維護也需要很多的開銷。(Apache伺服器是用的子程序的方式,優點可以隔離使用者)
2.用一個程序,但是使用非阻塞的I/O讀取資料,當一個I/O不可讀的時候立刻返回,檢查下一個是否可讀,這種形式的迴圈為輪詢(polling),這種方法比較浪費CPU時間,因為大多數時間是不可讀,但是仍花費時間不斷反覆執行read系統呼叫。
3.非同步I/O(asynchronous I/O),當一個描述符準備好的時候用一個訊號告訴程序,但是由於訊號個數有限,多個描述符時不適用。
4.一種較好的方式為I/O多路轉接(I/O multiplexing)(貌似也翻譯多路複用),先構造一張有關描述符的列表(epoll中為佇列),然後呼叫一個函式,直到這些描述符中的一個準備好時才返回,返回時告訴程序哪些I/O就緒。select和epoll這兩個機制都是多路I/O機制的解決方案,select為POSIX標準中的,而epoll為Linux所特有的。
區別(epoll相對select優點)主要有三:
1.select的控制代碼數目受限,在linux/posix_types.h標頭檔案有這樣的宣告:#define __FD_SETSIZE 1024 表示select最多同時監聽1024個fd。而epoll沒有,它的限制是最大的開啟檔案控制代碼數目。
2.epoll的最大好處是不會隨著FD的數目增長而降低效率,在selec中採用輪詢處理,其中的資料結構類似一個數組的資料結構,而epoll是維護一個佇列,直接看佇列是不是空就可以了。epoll只會對"活躍"的socket進行操作—這是因為在核心實現中epoll是根據每個fd上面的callback函式實現的。那麼,只有"活躍"的socket才會主動的去呼叫 callback函式(把這個控制代碼加入佇列),其他idle狀態控制代碼則不會,在這點上,epoll實現了一個"偽"AIO。但是如果絕大部分的I/O都是“活躍的”,每個I/O埠使用率很高的話,epoll效率不一定比select高(可能是要維護佇列複雜)。
3.使用mmap加速核心與使用者空間的訊息傳遞。無論是select,poll還是epoll都需要核心把FD訊息通知給使用者空間,如何避免不必要的記憶體拷貝就很重要,在這點上,epoll是通過核心於使用者空間mmap同一塊記憶體實現的。
二、介面
1)select
- int select(int maxfdp1, fd_set *restrict readfds, fd_set *restrict writefds, fd_set *restrict exceptfds, struct timeval *restrict tvptr);
struct timeval{
long tv_sec;
long tv_usec;
}
有三種情況:tvptr == NULL 永遠等待;tvptr->tv_sec == 0 && tvptr->tv_usec == 0 完全不等待;不等於0的時候為等待的時間。select的三個指標都可以為空,這時候select提供了一種比sleep更精確的定時器。注意select的第一個引數maxfdp1並不是描述符的個數,而是最大的描述符加1,一是起限制作用,防止出錯,二來可以給核心輪詢的時候提供一個上屆,提高效率。select返回-1表示出錯,0表示超時,返回正值是所有的已經準備好的描述符個數(同一個描述符如果讀和寫都準備好,對結果影響是+2)。
2.int FD_ISSET(int fd, fd_set *fdset); fd在描述符集合中非0,否則返回0
3.int FD_CLR(int fd, fd_set *fd_set); int FD_SET(int fd, fd_set *fdset) ;int FD_ZERO(fd_set *fdset);
用一段linux 中man裡的話“FD_ZERO() clears a set.FD_SET() and FD_CLR() respectively add and remove a given file descriptor from a set. FD_ISSET() tests to see if a file descriptor is part of the set; this is useful after select() returns.”這幾個函式與描述符的0和1沒關係,只是新增刪除檢測描述符是否在set中。
2)epoll
1.int epoll_create(int size);
建立一個epoll的控制代碼,size用來告訴核心這個監聽的數目一共有多大。這個引數不同於select()中的第一個引數,給出最大監聽的fd+1的值。需要注意的是,當建立好epoll控制代碼後,它就是會佔用一個fd值,在linux下如果檢視/proc/程序id/fd/,是能夠看到這個fd的,所以在使用完epoll後,必須呼叫close()關閉,否則可能導致fd被耗盡。
- int epoll_ctl(int epfd, int op, int fd, struct epoll_event event);
epoll的事件註冊函式,它不同與select()是在監聽事件時告訴核心要監聽什麼型別的事件,而是在這裡先註冊要監聽的事件型別。第一個引數是epoll_create()的返回值,第二個引數表示動作,用三個巨集來表示:
EPOLL_CTL_ADD:註冊新的fd到epfd中;
EPOLL_CTL_MOD:修改已經註冊的fd的監聽事件;
EPOLL_CTL_DEL:從epfd中刪除一個fd;
第三個引數是需要監聽的fd,第四個引數是告訴核心需要監聽什麼事,struct epoll_event結構如下:
struct epoll_event {
__uint32_t events; / Epoll events /
epoll_data_t data; / User data variable */
};
events可以是以下幾個巨集的集合:
EPOLLIN :表示對應的檔案描述符可以讀(包括對端SOCKET正常關閉);
EPOLLOUT:表示對應的檔案描述符可以寫;
EPOLLPRI:表示對應的檔案描述符有緊急的資料可讀(這裡應該表示有帶外資料到來);
EPOLLERR:表示對應的檔案描述符發生錯誤;
EPOLLHUP:表示對應的檔案描述符被結束通話;
EPOLLET: 將EPOLL設為邊緣觸發(Edge Triggered)模式,這是相對於水平觸發(Level Triggered)來說的。
EPOLLONESHOT:只監聽一次事件,當監聽完這次事件之後,如果還需要繼續監聽這個socket的話,需要再次把這個socket加入到EPOLL佇列裡
關於epoll工作模式ET,LT
LT(level triggered)是預設的工作方式,並且同時支援block和no-block socket.在這種做法中,核心告訴你一個檔案描述符是否就緒了,然後你可以對這個就緒的fd進行IO操作。如果你不作任何操作,核心還是會繼續通知你的,所以,這種模式程式設計出錯誤可能性要小一點。傳統的select/poll都是這種模型的代表.
ET (edge-triggered)是高速工作方式,只支援no-block socket。在這種模式下,當描述符從未就緒變為就緒時,核心通過epoll告訴你。然後它會假設你知道檔案描述符已經就緒,並且不會再為那個檔案描述符傳送更多的就緒通知,直到你做了某些操作導致那個檔案描述符不再為就緒狀態了,但是請注意,如果一直不對這個fd作IO操作(從而導致它再次變成未就緒),核心不會發送更多的通知(only once)
- int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout)
等待事件的產生,類似於select()呼叫。引數events用來從核心得到事件的集合,maxevents告之核心這個events有多大,這個maxevents的值不能大於建立epoll_create()時的size,引數timeout是超時時間(毫秒,0會立即返回,-1永久阻塞)。該函式返回需要處理的事件數目,如返回0表示已超時。