最近简单看了一把Linux linux-3.10.25 kernel中select/poll/epoll这个几个IO事件检测API的实现。此处做一些记录。
其基本的原理是相同的,流程如下
可以看出流程并不复杂,本文按照上述流程,先对select/poll的实现做进一步分析,epoll的实现要复杂一些,另外做叙述。
上述比较关键的地方是
1. 起初在无IO事件时,调用任务在被挂起之后,fd上有IO事件发生时,如何将挂起的任务唤醒?
接下来一poll()的实现过程,介绍这一过程的实现原理。
要实现唤醒过程,比较关键的步骤为
1) 在上述初次调用 struct file.f_op->poll() 时,除了fd对应的 struct file 指针之外,还需要传入一个 poll_table 类型的指针
该 poll_table 具体是在 poll() 的实现过程中定义提供的。
2) 在各个fd的struct file.f_op->poll()方法中,需要对应调用一下poll_wait()
其中关键
struct file.f_op->poll() 方法的作用是既是直接查询fd上的IO事件
而 poll_wait() 既是实现根据需要将 poll() 的调用任务,选择性的添加到fd的IO事件等待队列中。
注意此处是“选择性的添加”,为何如此说,得看 poll_wait() 的实现,其是一个inline函数,如下
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p) { if (p && p->_qproc && wait_address) p->_qproc(filp, wait_address, p); }
定义在 include/linux/poll.h 中。
可以看出,当调用 struct file.f_op->poll() 时,poll_table 的 _qproc 成员有定义时,poll_wait() 的调用才有实际的效果。
而前面已经说了, “poll_table 具体是在 poll() 的实现过程中定义提供的”,具体是 poll_initwait(&table) 调用对 poll_table 进行初始化的。
再进一步看一下 poll_initwait() 实现,如下
1 void poll_initwait(struct poll_wqueues *pwq) 2 { 3 init_poll_funcptr(&pwq->pt, __pollwait); 4 pwq->polling_task = current; 5 pwq->triggered = 0; 6 pwq->error = 0; 7 pwq->table = NULL; 8 pwq->inline_index = 0; 9 }
其中
1 static inline void init_poll_funcptr(poll_table *pt, poll_queue_proc qproc) 2 { 3 pt->_qproc = qproc; 4 pt->_key = ~0UL; /* all events enabled */ 5 }
也就是说初次遍历 poll 给定的诸fd,直至初始收集到IO事件,都会对 __pollwait() 调用一把。
实际上也正是在 __pollwait() 中实现将 poll() 的调用任务添加到 fd 的等待队列中,并且指定了唤醒执行过程中的回调。
在 poll() 的实现中,该回掉函数是 pollwake(),具体有 pollwake() 调用 kernel 的唤醒API(default_wake_function())将 poll() 的调用任务唤醒。
(由于之前具体是在 poll() 的实现中进行挂起的,所以自然唤醒过程也应该放在 poll() 的实现中了)
上面这些内容是介绍了 poll() 这一侧为等待唤醒,所做的准备工作。接下来看看,当fd上有IO时间就绪时,是如何将那些对自身等待的任务唤醒的。
此处以 eventfd 的实现为例,其实现较为简单,方便叙述。
先简单说一下 eventfd 的特性,其内部维持了一个64位的计数器。当该计数器大于0时,fd上有可读事件;当该计数器值小于 ULLONG_MAX 时,有可写实现
看其实现代码知道,其具体对该计数值更新过程发生在 eventfd_ctx_read() / eventfd_write() 中。
eventfd_ctx_read()操作之后,该内部计数器值减小,结尾如下代码中片段会对的内部 wait_queue 中记录的等待任务进行唤醒操作。
1 if (likely(res == 0)) { 2 eventfd_ctx_do_read(ctx, cnt); 3 if (waitqueue_active(&ctx->wqh)) 4 wake_up_locked_poll(&ctx->wqh, POLLOUT); 5 }
而在 eventfd_write() 操作完毕后,内部计数器值增大,结尾如下代码片段会对对的内部 wait_queue 中记录的等待任务进行唤醒操作。
1 if (likely(res > 0)) { 2 ctx->count += ucnt; 3 if (waitqueue_active(&ctx->wqh)) 4 wake_up_locked_poll(&ctx->wqh, POLLIN); 5 }
至此, 完整的唤醒通知过程也就介绍完成了。
select() 实现过程与 poll() 完全一致,不同的待检测的fd和结果事件的返回方式不同而已。poll() 内部是使用链表进行记录,而 select() 是使用的bit位序列进行记录的而已。
详细请看 fs/select.c 中看 poll() 和 select() 的实现代码。
epoll() 的事件检查方式与 poll() / select() 类似,一个明显的差别是各个 fd 是注册到 epoll 内部进行记录管理的,而 poll/ select 需要每次从用户态拷贝到 kernel 中,
且 epoll 内部对 fd 的记录是用rbtree,并且还有自己自己的一些独有的特点,这些内容将在另外的文章中进行描述。本文到此为止
~~ end ~~
Linux下select&poll&epoll的实现原理(一)
原文:http://www.cnblogs.com/lanyuliuyun/p/5011526.html