Linux動態調頻系統CPUFreq之一:概述【轉】
轉自:https://blog.csdn.net/zhangyongfeiyong/article/details/53506362
隨著技術的發展,我們對CPU的處理能力提出了越來越高的需求,晶片廠家也對製造工藝不斷地提升。現在的主流PC處理器的主頻已經在3GHz左右,就算是智慧手機的處理器也已經可以工作在1.5GHz以上,可是我們並不是時時刻刻都需要讓CPU工作在最高的主頻上,尤其是移動裝置和膝上型電腦,大部分時間裡,CPU其實工作在輕負載狀態下,我們知道:主頻越高,功耗也越高。為了節省CPU的功耗和減少發熱,我們有必要根據當前CPU的負載狀態,動態地提供剛好足夠的主頻給CPU。在Linux中,核心的開發者定義了一套框架模型來完成這一目的,它就是CPUFreq系統。
/*****************************************************************************************************/
宣告:本博內容均由http://blog.csdn.NET/droidphone原創,轉載請註明出處,謝謝!
/*****************************************************************************************************/
1. sysfs介面
我們先從CPUFreq提供的sysfs介面入手,直觀地看看它提供了那些功能。以下是我的電腦輸出的結果:
[plain] view plain copy
- [email protected]:~$ cd /sys/devices/system/cpu
- [email protected]:/sys/devices/system/cpu$ ls
- cpu0 cpu3 cpu6 cpuidle offline power release
- cpu1 cpu4 cpu7 kernel_max online present uevent
- cpu2 cpu5 cpufreq modalias possible probe
[email protected]:~$ cd /sys/devices/system/cpu
[email protected]:/sys/devices/system/cpu$ ls
cpu0 cpu3 cpu6 cpuidle offline power release
cpu1 cpu4 cpu7 kernel_max online present uevent
cpu2 cpu5 cpufreq modalias possible probe
所有與CPUFreq相關的sysfs介面都位於:/sys/devices/system/cpu下面,我們可以看到,8個cpu分別建立了一個自己的目錄,從cpu0到cpu7,我們再看看offline和online以及present的內容:
[plain] view plain copy
- [email protected]:/sys/devices/system/cpu$ cat online
- 0-7
- [email protected]:/sys/devices/system/cpu$ cat offline
- 8-15
- [email protected]:/sys/devices/system/cpu$ cat present
- 0-7
- [email protected]:/sys/devices/system/cpu$
[email protected]:/sys/devices/system/cpu$ cat online
0-7
[email protected]:/sys/devices/system/cpu$ cat offline
8-15 [email protected]:/sys/devices/system/cpu$ cat present 0-7 [email protected]:/sys/devices/system/cpu$
online代表目前正在工作的cpu,輸出顯示編號為0-7這8個cpu在工作,offline代表目前被關掉的cpu,present則表示主機板上已經安裝的cpu,由輸出可以看到,我的主機板可以安裝16個cpu(因為intel的超執行緒技術,其實物理上只是8個),第8-15號cpu處於關閉狀態(實際上不存在,因為present只有0-7)。
接著往下看:
[plain] view plain copy
- [email protected]:/sys/devices/system/cpu/cpu0$ ls
- cache cpuidle microcode power thermal_throttle uevent
- cpufreq crash_notes node0 subsystem topology
- [email protected]:/sys/devices/system/cpu/cpu0$ cd cpufreq/
- [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$ ls
- affected_cpus related_cpus scaling_max_freq
- bios_limit scaling_available_frequencies scaling_min_freq
- cpuinfo_cur_freq scaling_available_governors scaling_setspeed
- cpuinfo_max_freq scaling_cur_freq stats
- cpuinfo_min_freq scaling_driver
- cpuinfo_transition_latency scaling_governor
- [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$
[email protected]:/sys/devices/system/cpu/cpu0$ ls
cache cpuidle microcode power thermal_throttle uevent
cpufreq crash_notes node0 subsystem topology
[email protected]:/sys/devices/system/cpu/cpu0$ cd cpufreq/
[email protected]:/sys/devices/system/cpu/cpu0/cpufreq$ ls
affected_cpus related_cpus scaling_max_freq
bios_limit scaling_available_frequencies scaling_min_freq
cpuinfo_cur_freq scaling_available_governors scaling_setspeed
cpuinfo_max_freq scaling_cur_freq stats
cpuinfo_min_freq scaling_driver
cpuinfo_transition_latency scaling_governor
[email protected]:/sys/devices/system/cpu/cpu0/cpufreq$
在我的電腦上,部分的值如下:
cpuinfo_cur_freq: 1600000
cpuinfo_max_freq: 3401000
cpuinfo_min_freq: 1600000
scaling_cur_freq: 1600000
scaling_max_freq: 3401000
scaling_min_freq: 1600000
所以,我的cpu0的最低執行頻率是1.6GHz,最高是3.4GHz,目前正在執行的頻率是1.6GHz,字首cpuinfo代表的是cpu硬體上支援的頻率,而scaling字首代表的是可以通過CPUFreq系統用軟體進行調節時所支援的頻率。cpuinfo_cur_freq代表通過硬體實際上讀到的頻率值,而scaling_cur_freq則是軟體當前的設定值,多數情況下這兩個值是一致的,但是也有可能因為硬體的原因,有微小的差異。scaling_available_frequencies會輸出當前軟體支援的頻率值,看看我的cpu支援那些頻率:
[plain] view plain copy
- [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$ cat scaling_available_frequencies
- 3401000 3400000 3000000 2800000 2600000 2400000 2200000 2000000 1800000 1600000
- [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$
[email protected]:/sys/devices/system/cpu/cpu0/cpufreq$ cat scaling_available_frequencies
3401000 3400000 3000000 2800000 2600000 2400000 2200000 2000000 1800000 1600000 [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$
Oh,從1.6GHz到3.4GHz,一共支援10擋的頻率可供選擇。scaling_available_governors則會輸出當前可供選擇的頻率調節策略:
[plain] view plain copy
- conservative ondemand userspace powersave performance
conservative ondemand userspace powersave performance
一共有5中策略供我們選擇,那麼當前系統選用那種策略?讓我們看看:
[plain] view plain copy
- [email protected]:/sys/devices/system/cpu/cpu0/cpufreq$ cat scaling_governor
- ondemand
[email protected]990:/sys/devices/system/cpu/cpu0/cpufreq$ cat scaling_governor
ondemand
OK,我的系統當前選擇ondemand這種策略,這種策略的主要思想是:只要cpu的負載超過某一個閥值,cpu的頻率會立刻提升至最高,然後再根據實際情況降到合適的水平。詳細的情況我們留在後面的章節中討論。scaling_driver則會輸出當前使用哪一個驅動來設定cpu的工作頻率。
當我們選擇userspace作為我們的調頻governor時,我們可以通過scaling_setspeed手工設定需要的頻率。powersave則簡單地使用最低的工作頻率進行執行,而performance則一直選擇最高的頻率進行執行。
2. 軟體架構
通過上一節的介紹,我們可以大致梳理出CPUFreq系統的構成和工作方式。首先,CPU的硬體特性決定了這個CPU的最高和最低工作頻率,所有的頻率調整數值都必須在這個範圍內,它們用cpuinfo_xxx_freq來表示。然後,我們可以在這個範圍內再次定義出一個軟體的調節範圍,它們用scaling_xxx_freq來表示,同時,根據具體的硬體平臺的不同,我們還需要提供一個頻率表,這個頻率表規定了cpu可以工作的頻率值,當然這些頻率值必須要在cpuinfo_xxx_freq的範圍內。有了這些頻率資訊,CPUFreq系統就可以根據當前cpu的負載輕重狀況,合理地從頻率表中選擇一個合適的頻率供cpu使用,已達到節能的目的。至於如何選擇頻率表中的頻率,這個要由不同的governor來實現,目前的核心版本提供了5種governor供我們選擇。選擇好適當的頻率以後,具體的頻率調節工作就交由scaling_driver來完成。CPUFreq系統把一些公共的邏輯和介面程式碼抽象出來,這些程式碼與平臺無關,也與具體的調頻策略無關,核心的文件把它稱為CPUFreq Core(/Documents/cpufreq/core.txt)。另外一部分,與實際的調頻策略相關的部分被稱作cpufreq_policy,cpufreq_policy又是由頻率資訊和具體的governor組成,governor才是具體策略的實現者,當然governor需要我們提供必要的頻率資訊,governor的實現最好能做到平臺無關,與平臺相關的程式碼用cpufreq_driver表述,它完成實際的頻率調節工作。最後,如果其他核心模組需要在頻率調節的過程中得到通知訊息,則可以通過cpufreq notifiers來完成。由此,我們可以總結出CPUFreq系統的軟體結構如下:
3. cpufreq_policy
一種調頻策略的各種限制條件的組合稱之為policy,程式碼中用cpufreq_policy這一資料結構來表示:
[cpp] view plain copy
- struct cpufreq_policy {
- cpumask_var_t cpus;
- cpumask_var_t related_cpus;
- unsigned int shared_type;
- unsigned int cpu;
- unsigned int last_cpu;
- struct cpufreq_cpuinfo cpuinfo;
- unsigned int min; /* in kHz */
- unsigned int max; /* in kHz */
- unsigned int cur;
- unsigned int policy;
- struct cpufreq_governor *governor;
- void *governor_data;
- struct work_struct update;
- struct cpufreq_real_policy user_policy;
- struct kobject kobj;
- struct completion kobj_unregister;
- };
- struct cpufreq_policy {
- cpumask_var_t cpus;
- cpumask_var_t related_cpus;
- unsigned int shared_type;
- unsigned int cpu;
- unsigned int last_cpu;
- struct cpufreq_cpuinfo cpuinfo;
- unsigned int min; /* in kHz */
- unsigned int max; /* in kHz */
- unsigned int cur;
- unsigned int policy;
- struct cpufreq_governor *governor;
- void *governor_data;
- struct work_struct update;
- struct cpufreq_real_policy user_policy;
- struct kobject kobj;
- struct completion kobj_unregister;
- };
其中的各個欄位的解釋如下:
- cpus和related_cpus 這兩個都是cpumask_var_t變數,cpus表示的是這一policy控制之下的所有還出於online狀態的cpu,而related_cpus則是online和offline兩者的合集。主要是用於多個cpu使用同一種policy的情況,實際上,我們平常見到的大多數系統中都是這種情況:所有的cpu同時使用同一種policy。我們需要related_cpus變數指出這個policy所管理的所有cpu編號。
- cpu和last_cpu 雖然一種policy可以同時用於多個cpu,但是通常一種policy只會由其中的一個cpu進行管理,cpu變數用於記錄用於管理該policy的cpu編號,而last_cpu則是上一次管理該policy的cpu編號(因為管理policy的cpu可能會被plug out,這時候就要把管理工作遷移到另一個cpu上)。
- cpuinfo 儲存cpu硬體所能支援的最大和最小的頻率以及切換延遲資訊。
- min/max/cur 該policy下的可使用的最小頻率,最大頻率和當前頻率。
- policy 該變數可以取以下兩個值:CPUFREQ_POLICY_POWERSAVE和CPUFREQ_POLICY_PERFORMANCE,該變數只有當調頻驅動支援setpolicy回撥函式的時候有效,這時候由驅動根據policy變數的值來決定系統的工作頻率或狀態。如果調頻驅動(cpufreq_driver)支援target回撥,則頻率由相應的governor來決定。
- governor和governor_data 指向該policy當前使用的cpufreq_governor結構和它的上下文資料。governor是實現該policy的關鍵所在,調頻策略的邏輯由governor實現。
- update 有時在中斷上下文中需要更新policy,需要利用該工作佇列把實際的工作移到稍後的程序上下文中執行。
- user_policy 有時候因為特殊的原因需要修改policy的引數,比如溫度過高時,最大可允許的執行頻率可能會被降低,為了在適當的時候恢復原有的執行引數,需要使用user_policy儲存原始的引數(min,max,policy,governor)。
- kobj 該policy在sysfs中對應的kobj的物件。
4. cpufreq_governor
所謂的governor,我把它翻譯成:調節器。governor負責檢測cpu的使用狀況,從而在可用的範圍中選擇一個合適的頻率,程式碼中它用cpufreq_governor結構來表示:
[cpp] view plain copy
- struct cpufreq_governor {
- char name[CPUFREQ_NAME_LEN];
- int initialized;
- int (*governor) (struct cpufreq_policy *policy,
- unsigned int event);
- ssize_t (*show_setspeed) (struct cpufreq_policy *policy,
- char *buf);
- int (*store_setspeed) (struct cpufreq_policy *policy,
- unsigned int freq);
- unsigned int max_transition_latency; /* HW must be able to switch to
- next freq faster than this value in nano secs or we
- will fallback to performance governor */
- struct list_head governor_list;
- struct module *owner;
- };
- struct cpufreq_governor {
- char name[CPUFREQ_NAME_LEN];
- int initialized;
- int (*governor) (struct cpufreq_policy *policy,
- unsigned int event);
- ssize_t (*show_setspeed) (struct cpufreq_policy *policy,
- char *buf);
- int (*store_setspeed) (struct cpufreq_policy *policy,
- unsigned int freq);
- unsigned int max_transition_latency; /* HW must be able to switch to
- next freq faster than this value in nano secs or we
- will fallback to performance governor */
- struct list_head governor_list;
- struct module *owner;
- };
其中的各個欄位的解釋如下:
- name 該governor的名字。
- initialized 初始化標誌。
- governor 指向一個回撥函式,CPUFreq Core會在不同的階段呼叫該回調函式,用於該governor的啟動、停止、初始化、退出動作。
- list_head 所有註冊的governor都會利用該欄位連結在一個全域性連結串列中,以供系統查詢和使用。
5. cpufreq_driver
上一節提到的gonvernor只是負責計算並提出合適的頻率,但是頻率的設定工作是平臺相關的,這需要cpufreq_driver驅動來完成,cpufreq_driver的結構如下:
[cpp] view plain copy
- struct cpufreq_driver {
- struct module *owner;
- char name[CPUFREQ_NAME_LEN];
- u8 flags;
- bool have_governor_per_policy;
- /* needed by all drivers */
- int (*init) (struct cpufreq_policy *policy);
- int (*verify) (struct cpufreq_policy *policy);
- /* define one out of two */
- int (*setpolicy) (struct cpufreq_policy *policy);
- int (*target) (struct cpufreq_policy *policy,
- unsigned int target_freq,
- unsigned int relation);
- /* should be defined, if possible */
- unsigned int (*get) (unsigned int cpu);
- /* optional */
- unsigned int (*getavg) (struct cpufreq_policy *policy,
- unsigned int cpu);
- int (*bios_limit) (int cpu, unsigned int *limit);
- int (*exit) (struct cpufreq_policy *policy);
- int (*suspend) (struct cpufreq_policy *policy);
- int (*resume) (struct cpufreq_policy *policy);
- struct freq_attr **attr;
- };
- struct cpufreq_driver {
- struct module *owner;
- char name[CPUFREQ_NAME_LEN];
- u8 flags;
- bool have_governor_per_policy;
- /* needed by all drivers */
- int (*init) (struct cpufreq_policy *policy);
- int (*verify) (struct cpufreq_policy *policy);
- /* define one out of two */
- int (*setpolicy) (struct cpufreq_policy *policy);
- int (*target) (struct cpufreq_policy *policy,
- unsigned int target_freq,
- unsigned int relation);
- /* should be defined, if possible */
- unsigned int (*get) (unsigned int cpu);
- /* optional */
- unsigned int (*getavg) (struct cpufreq_policy *policy,
- unsigned int cpu);
- int (*bios_limit) (int cpu, unsigned int *limit);
- int (*exit) (struct cpufreq_policy *policy);
- int (*suspend) (struct cpufreq_policy *policy);
- int (*resume) (struct cpufreq_policy *policy);
- struct freq_attr **attr;
- };
相關的欄位的意義解釋如下:
- name 該頻率驅動的名字。
- init 回撥函式,該回調函式必須實現,CPUFreq Core會通過該回調函式對該驅動進行必要的初始化工作。
- verify 回撥函式,該回調函式必須實現,CPUFreq Core會通過該回調函式檢查policy的引數是否被驅動支援。
- setpolicy/target 回撥函式,驅動必須實現這兩個函式中的其中一個,如果不支援通過governor選擇合適的執行頻率,則實現setpolicy回撥函式,這樣系統只能支援CPUFREQ_POLICY_POWERSAVE和CPUFREQ_POLICY_PERFORMANCE這兩種工作策略。反之,實現target回撥函式,通過target回撥設定governor所需要的頻率。
- get 回撥函式,用於獲取cpu當前的工作頻率。
- getavg 回撥函式,用於獲取cpu當前的平均工作頻率。
6. cpufreq notifiers
CPUFreq的通知系統使用了核心的標準通知介面。它對外提供了兩個通知事件:policy通知和transition通知。
policy通知用於通知其它模組cpu的policy需要改變,每次policy改變時,該通知鏈上的回撥將會用不同的事件引數被呼叫3次,分別是:
- CPUFREQ_ADJUST 只要有需要,所有的被通知者可以在此時修改policy的限制資訊,比如溫控系統可能會修改在大允許執行的頻率。
- CPUFREQ_INCOMPATIBLE 只是為了避免硬體錯誤的情況下,可以在該通知中修改policy的限制資訊。
- CPUFREQ_NOTIFY 真正切換policy前,該通知會發往所有的被通知者。
- CPUFREQ_PRECHANGE 調整前的通知。
- CPUFREQ_POSTCHANGE 完成調整後的通知。
- CPUFREQ_RESUMECHANGE