本文探討Linux中主要的幾種零拷貝技術(shù)以及零拷貝技術(shù)適用的場景。為了迅速建立起零拷貝的概念,我們拿一個(gè)常用的場景進(jìn)行引入: 引文## 在寫一個(gè)服務(wù)端程序時(shí)(Web Server或者文件服務(wù)器),文件下載是一個(gè)基本功能。這時(shí)候服務(wù)端的任務(wù)是:將服務(wù)端主機(jī)磁盤中的文件不做修改地從已連接的socket發(fā)出去,我們通常用下面的代碼完成:
while((n = read(diskfd, buf, BUF_SIZE)) > 0)
write(sockfd, buf , n);
基本操作就是循環(huán)的從磁盤讀入文件內(nèi)容到緩沖區(qū),再將緩沖區(qū)的內(nèi)容發(fā)送到socket。但是由于Linux的I/O操作默認(rèn)是緩沖I/O。這里面主要使用的也就是read和write兩個(gè)系統(tǒng)調(diào)用,我們并不知道操作系統(tǒng)在其中做了什么。實(shí)際上在以上I/O操作中,發(fā)生了多次的數(shù)據(jù)拷貝。 當(dāng)應(yīng)用程序訪問某塊數(shù)據(jù)時(shí),操作系統(tǒng)首先會(huì)檢查,是不是最近訪問過此文件,文件內(nèi)容是否緩存在內(nèi)核緩沖區(qū),如果是,操作系統(tǒng)則直接根據(jù)read系統(tǒng)調(diào)用提供的buf地址,將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到buf所指定的用戶空間緩沖區(qū)中去。如果不是,操作系統(tǒng)則首先將磁盤上的數(shù)據(jù)拷貝的內(nèi)核緩沖區(qū),這一步目前主要依靠DMA來傳輸,然后再把內(nèi)核緩沖區(qū)上的內(nèi)容拷貝到用戶緩沖區(qū)中。 接下來,write系統(tǒng)調(diào)用再把用戶緩沖區(qū)的內(nèi)容拷貝到網(wǎng)絡(luò)堆棧相關(guān)的內(nèi)核緩沖區(qū)中,最后socket再把內(nèi)核緩沖區(qū)的內(nèi)容發(fā)送到網(wǎng)卡上。 說了這么多,不如看圖清楚: 數(shù)據(jù)拷貝 從上圖中可以看出,共產(chǎn)生了四次數(shù)據(jù)拷貝,即使使用了DMA來處理了與硬件的通訊,CPU仍然需要處理兩次數(shù)據(jù)拷貝,與此同時(shí),在用戶態(tài)與內(nèi)核態(tài)也發(fā)生了多次上下文切換,無疑也加重了CPU負(fù)擔(dān)。 什么是零拷貝技術(shù)(zero-copy)?## 零拷貝主要的任務(wù)就是避免CPU將數(shù)據(jù)從一塊存儲拷貝到另外一塊存儲,主要就是利用各種零拷貝技術(shù),避免讓CPU做大量的數(shù)據(jù)拷貝任務(wù),減少不必要的拷貝,或者讓別的組件來做這一類簡單的數(shù)據(jù)傳輸任務(wù),讓CPU解脫出來專注于別的任務(wù)。這樣就可以讓系統(tǒng)資源的利用更加有效。 我們繼續(xù)回到引文中的例子,我們?nèi)绾螠p少數(shù)據(jù)拷貝的次數(shù)呢?一個(gè)很明顯的著力點(diǎn)就是減少數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝,這也引入了零拷貝的一個(gè)類型: 讓數(shù)據(jù)傳輸不需要經(jīng)過user space 使用mmap##### 我們減少拷貝次數(shù)的一種方法是調(diào)用mmap()來代替read調(diào)用:
buf = mmap(diskfd, len);
write(sockfd, buf, len);
應(yīng)用程序調(diào)用mmap(),磁盤上的數(shù)據(jù)會(huì)通過DMA被拷貝的內(nèi)核緩沖區(qū),接著操作系統(tǒng)會(huì)把這段內(nèi)核緩沖區(qū)與應(yīng)用程序共享,這樣就不需要把內(nèi)核緩沖區(qū)的內(nèi)容往用戶空間拷貝。應(yīng)用程序再調(diào)用write(),操作系統(tǒng)直接將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到socket緩沖區(qū)中,這一切都發(fā)生在內(nèi)核態(tài),最后,socket緩沖區(qū)再把數(shù)據(jù)發(fā)到網(wǎng)卡去。 mmap 使用mmap替代read很明顯減少了一次拷貝,當(dāng)拷貝數(shù)據(jù)量很大時(shí),無疑提升了效率。但是使用mmap是有代價(jià)的。當(dāng)你使用mmap時(shí),你可能會(huì)遇到一些隱藏的陷阱。例如,當(dāng)你的程序map了一個(gè)文件,但是當(dāng)這個(gè)文件被另一個(gè)進(jìn)程截?cái)?truncate)時(shí), write系統(tǒng)調(diào)用會(huì)因?yàn)樵L問非法地址而被SIGBUS信號終止。SIGBUS信號默認(rèn)會(huì)殺死你的進(jìn)程并產(chǎn)生一個(gè)coredump,如果你的服務(wù)器這樣被中止了,那會(huì)產(chǎn)生一筆損失。 通常我們使用以下解決方案避免這種問題: 為SIGBUS信號建立信號處理程序 使用文件租借鎖
if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
perror("kernel lease set signal");
return -1;
}
/* l_type can be F_RDLCK F_WRLCK 加鎖*/
/* l_type can be F_UNLCK 解鎖*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
perror("kernel lease set type");
return -1;
}
使用sendfile##### 從2.1版內(nèi)核開始,Linux引入了sendfile來簡化操作:
#include
系統(tǒng)調(diào)用sendfile()在代表輸入文件的描述符in_fd和代表輸出文件的描述符out_fd之間傳送文件內(nèi)容(字節(jié))。描述符out_fd必須指向一個(gè)套接字,而in_fd指向的文件必須是可以mmap的。這些局限限制了sendfile的使用,使sendfile只能將數(shù)據(jù)從文件傳遞到套接字上,反之則不行。 sendfile系統(tǒng)調(diào)用過程 在我們調(diào)用sendfile時(shí),如果有其它進(jìn)程截?cái)嗔宋募䲡?huì)發(fā)生什么呢?假設(shè)我們沒有設(shè)置任何信號處理程序,sendfile調(diào)用僅僅返回它在被中斷之前已經(jīng)傳輸?shù)淖止?jié)數(shù),errno會(huì)被置為success。如果我們在調(diào)用sendfile之前給文件加了鎖,sendfile的行為仍然和之前相同,我們還會(huì)收到RT_SIGNAL_LEASE的信號。 目前為止,我們已經(jīng)減少了數(shù)據(jù)拷貝的次數(shù)了,但是仍然存在一次拷貝,就是頁緩存到socket緩存的拷貝。那么能不能把這個(gè)拷貝也省略呢? 借助于硬件上的幫助,我們是可以辦到的。之前我們是把頁緩存的數(shù)據(jù)拷貝到socket緩存中,實(shí)際上,我們僅僅需要把緩沖區(qū)描述符傳到socket緩沖區(qū),再把數(shù)據(jù)長度傳過去,這樣DMA控制器直接將頁緩存中的數(shù)據(jù)打包發(fā)送到網(wǎng)絡(luò)中就可以了。 總結(jié)一下,sendfile系統(tǒng)調(diào)用利用DMA引擎將文件內(nèi)容拷貝到內(nèi)核緩沖區(qū)去,然后將帶有文件位置和長度信息的緩沖區(qū)描述符添加socket緩沖區(qū)去,這一步不會(huì)將內(nèi)核中的數(shù)據(jù)拷貝到socket緩沖區(qū)中,DMA引擎會(huì)將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到協(xié)議引擎中去,避免了最后一次拷貝。 帶DMA的sendfile 不過這一種收集拷貝功能是需要硬件以及驅(qū)動(dòng)程序支持的。 使用splice##### sendfile只適用于將數(shù)據(jù)從文件拷貝到套接字上,限定了它的使用范圍。Linux在2.6.17版本引入splice系統(tǒng)調(diào)用,用于在兩個(gè)文件描述符中移動(dòng)數(shù)據(jù):
#define _GNU_SOURCE /* See feature_test_macros(7) */
#include
splice調(diào)用在兩個(gè)文件描述符之間移動(dòng)數(shù)據(jù),而不需要數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝。他從fd_in拷貝len長度的數(shù)據(jù)到fd_out,但是有一方必須是管道設(shè)備,這也是目前splice的一些局限性。flags參數(shù)有以下幾種取值:
splice調(diào)用利用了Linux提出的管道緩沖區(qū)機(jī)制, 所以至少一個(gè)描述符要為管道。 以上幾種零拷貝技術(shù)都是減少數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝技術(shù)實(shí)現(xiàn)的,但是有些時(shí)候,數(shù)據(jù)必須在用戶空間和內(nèi)核空間之間拷貝。這時(shí)候,我們只能針對數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝的時(shí)機(jī)上下功夫了。Linux通常利用寫時(shí)復(fù)制(copy on write)來減少系統(tǒng)開銷,這個(gè)技術(shù)又時(shí)常稱作COW。 由于篇幅原因,本文不詳細(xì)介紹寫時(shí)復(fù)制。大概描述下就是:如果多個(gè)程序同時(shí)訪問同一塊數(shù)據(jù),那么每個(gè)程序都擁有指向這塊數(shù)據(jù)的指針,在每個(gè)程序看來,自己都是獨(dú)立擁有這塊數(shù)據(jù)的,只有當(dāng)程序需要對數(shù)據(jù)內(nèi)容進(jìn)行修改時(shí),才會(huì)把數(shù)據(jù)內(nèi)容拷貝到程序自己的應(yīng)用空間里去,這時(shí)候,數(shù)據(jù)才成為該程序的私有數(shù)據(jù)。如果程序不需要對數(shù)據(jù)進(jìn)行修改,那么永遠(yuǎn)都不需要拷貝數(shù)據(jù)到自己的應(yīng)用空間里。這樣就減少了數(shù)據(jù)的拷貝。寫時(shí)復(fù)制的內(nèi)容可以再寫一篇文章了。。。 除此之外,還有一些零拷貝技術(shù),比如傳統(tǒng)的Linux I/O中加上O_DIRECT標(biāo)記可以直接I/O,避免了自動(dòng)緩存,還有尚未成熟的fbufs技術(shù),本文尚未覆蓋所有零拷貝技術(shù),只是介紹常見的一些,如有興趣,可以自行研究,一般成熟的服務(wù)端項(xiàng)目也會(huì)自己改造內(nèi)核中有關(guān)I/O的部分,提高自己的數(shù)據(jù)傳輸速率。 |
免責(zé)聲明:本站部分文章和圖片均來自用戶投稿和網(wǎng)絡(luò)收集,旨在傳播知識,文章和圖片版權(quán)歸原作者及原出處所有,僅供學(xué)習(xí)與參考,請勿用于商業(yè)用途,如果損害了您的權(quán)利,請聯(lián)系我們及時(shí)修正或刪除。謝謝!
始終以前瞻性的眼光聚焦站長、創(chuàng)業(yè)、互聯(lián)網(wǎng)等領(lǐng)域,為您提供最新最全的互聯(lián)網(wǎng)資訊,幫助站長轉(zhuǎn)型升級,為互聯(lián)網(wǎng)創(chuàng)業(yè)者提供更加優(yōu)質(zhì)的創(chuàng)業(yè)信息和品牌營銷服務(wù),與站長一起進(jìn)步!讓互聯(lián)網(wǎng)創(chuàng)業(yè)者不再孤獨(dú)!
掃一掃,關(guān)注站長網(wǎng)微信
當(dāng)我們在共享網(wǎng)絡(luò)訪問的時(shí)候,可能會(huì)遇到提示指定的網(wǎng)絡(luò)名不再可用的問題,這可能是由于我們的共享網(wǎng)絡(luò)出現(xiàn)了錯(cuò)誤,也可能是被共享的對象所拒絕了。指定的網(wǎng)絡(luò)名 ......
1、首先進(jìn)入到“百度”軟件中, 2、然后在其中輸入“百度識圖”, 3、之后點(diǎn)擊圖中的“開始使用”按鈕, 4、緊接著點(diǎn)擊右下角的“相冊”功能, 5、在相冊下 ......
文/曹楊 原標(biāo)題:誰還看電視? 爸爸戴一副老花鏡,媽媽戴一副近視鏡,一人坐在沙發(fā),一人躺在床上,各自刷著自己關(guān)注的博主更新的短視頻。電視也許開著,但只是背景。 這樣的畫面,幾乎成了洛奇家的常 ...
一、軟件沖突1、首先確認(rèn)是否是應(yīng)用程序沖突導(dǎo)致的。2、查看是否只有特定幾個(gè)游戲或應(yīng)用會(huì)導(dǎo)致該問題。3、如果是應(yīng)用沖突,那么只要卸載這些app就可以解決了。二 ......
圖片來源于簡書 文/郭開森 楊帆 陸玖財(cái)經(jīng)準(zhǔn)備開新欄目了,每周一創(chuàng)始人郭開森和楊帆合體郭德帆,對行業(yè)進(jìn)行一些觀察和評論,第一篇我們?nèi)允谴蛩銓懮鐓^(qū)團(tuán)購,這是當(dāng)下最火的話題。 來過陸玖財(cái)經(jīng)做客的朋友們...
電腦端:1、大家可以點(diǎn)擊右邊鏈接進(jìn)入網(wǎng)頁版的百度網(wǎng)盤,進(jìn)入之后點(diǎn)擊“去登錄”。https://pan.baidu.com/2、之后正確的輸入賬號密碼進(jìn)行登錄就好啦。手機(jī)端:1 ......
一、N100對比intel i3 1、N100的跑分達(dá)到了147210分,這個(gè)數(shù)據(jù)可以達(dá)到i3的七代級別。 2、在跑分上也是超越了大部分的I3七代CPU,不過比I3八代要弱勢一些。 3 ......
8月15日消息 上周,有媒體報(bào)道前身為百度圖片的“榴蓮”APP含有大量不雅視頻內(nèi)容被用戶舉報(bào)。對此,百度圖片官方進(jìn)行了回應(yīng),百度圖片表示已經(jīng)對報(bào)道中所涉及的“生吃旋風(fēng)哥”等爭議內(nèi)容進(jìn)行了下線處理。 此外,百度...
在填寫一些項(xiàng)目申請書中,總是免不了要選擇一些數(shù)字,但是在方框中如何插入數(shù)字,該怎么辦呢?那么下面就由學(xué)習(xí)啦小編給大家分享下word在方框里輸入數(shù)字的技巧, ......
WPS Office手機(jī)版怎么加橫線?很多用戶還不知道WPS Office手機(jī)版怎么加橫線,WPS Office手機(jī)版怎么加橫線,WPS Office手機(jī)版怎么打橫線,WPS Office手機(jī)版怎么弄 ......
迅雷前綴是什么 答:迅雷前綴是(magnet:?xt=urn:btih:)括號里的就是了。 我們只要在這段文字之后輸入后續(xù)的內(nèi)容,就可以創(chuàng)建下載鏈接了。 1、磁力鏈接不基于文 ......
一、內(nèi)容特權(quán)。 1、半價(jià)點(diǎn)播。 許多站內(nèi)視頻都需要付費(fèi)觀看,而大會(huì)員用戶可以直接半價(jià)享受; 購買成功后的48h內(nèi)無限次觀看。有部分的內(nèi)容是只限在中國大陸內(nèi)觀 ......
1、首先打開小米運(yùn)動(dòng)的“實(shí)驗(yàn)室功能”。 2、接著點(diǎn)擊“門卡模擬”。 3、然后點(diǎn)擊“我知道了”。 4、最后貼近就可以刷卡成功了。...
1、打開手機(jī)輕顏相機(jī)app,點(diǎn)擊“我的”,點(diǎn)擊“設(shè)置”,2、點(diǎn)擊“幫助與反饋”,3、點(diǎn)擊右下角“在線咨詢”即可聯(lián)系客服,詢問自己的問題啦!...
答:華為P系列: 華為p40,華為p40plus,華為p50,華為p50e,華為p60 華為mate系列: 華為mate40,華為mate50,華為mate50e,華為mate60 華為nova系列: 華為n ......
近期有用戶反映,電腦在更新Windows 11 Insider Preview 25252.1000后,出現(xiàn)了應(yīng)用和已壓縮的文件點(diǎn)擊毫無反應(yīng),拖拽都不行,只能從開始菜單打開的情況,這是怎 ......
可見單元格就是不包括隱藏或者篩選篩選后隱藏起來的單元格區(qū)域。方法:篩選或隱藏?cái)?shù)據(jù),復(fù)制需要粘貼的值,在目標(biāo)單元格區(qū)域左上角的第一個(gè)單元格處右擊,選擇【 ......
答:驍龍8+更好。 驍龍7+gen2實(shí)際上就是驍龍8+的低配版本。 在一些其他的核心架構(gòu)方面都是保持一致的,比如說CPU的架構(gòu)、GPU的架構(gòu)等等。 驍龍7+和驍龍8+具體 ......
文/黎明 一場針對中國互聯(lián)網(wǎng)巨頭的反壟斷風(fēng)暴正在醞釀,而且這次動(dòng)真格了。 11月10日,國家市場監(jiān)管總局發(fā)布《關(guān)于平臺經(jīng)濟(jì)領(lǐng)域的反壟斷指南(征求意見稿)》,要加大對互聯(lián)網(wǎng)巨頭涉嫌壟斷的調(diào)查和監(jiān)管。 ...
文件被win10系統(tǒng)誤報(bào)病毒自動(dòng)刪除了如何進(jìn)行恢復(fù)?有用戶下載了某些破解軟件卻被Win10系統(tǒng)誤認(rèn)為是病毒文件而自動(dòng)刪除,當(dāng)然系統(tǒng)自帶殺毒軟件其實(shí)挺不錯(cuò)的,就是有時(shí)候會(huì)誤報(bào),大家遇到這種情況的時(shí)候就希望把誤刪的...
win11系統(tǒng)如何釋放掉系統(tǒng)默認(rèn)保留的存儲空間?一般情況下,Windows會(huì)保留一些存儲空間,以便設(shè)備獲得良好性能和成功更新。但是當(dāng)出現(xiàn)系統(tǒng)盤儲存空間不足時(shí),我們會(huì)將幾個(gè)G的保留空間釋放出來,以解燃眉之急。本期教...
1、先打開機(jī)頂盒進(jìn)入主界面,并且使用遙控器打開設(shè)置。 2、然后選擇“賬號與安全”,并且進(jìn)入。 3、最后往下面翻就可以看到“ADB調(diào)試”的選項(xiàng),直接開啟就行了 ......
答:在3DMark壓力測試當(dāng)中,顯卡需要超高97%才能夠算合格,證明顯卡的穩(wěn)定性是過關(guān)的。 1、一般的默認(rèn)情況下在2500~3000分就算很正常的了。 2、分?jǐn)?shù)越高說明顯卡 ......
羅技g304dpi燈顏色代表什么:1、藍(lán)色:這種情況是正常工作的顯示,如果說是常亮或者閃爍,那都沒有問題這是在正常工作呢。2、紅色:如果說是紅燈閃爍的話那就是 ......
我們經(jīng)常用WPS的時(shí)候,如果需要輸入波浪號~,會(huì)發(fā)現(xiàn)鍵盤上的波浪號輸入之后在最上面,但是為了美觀,我們希望波浪號顯示在中間。這里總結(jié)了三個(gè)方法分享給大家 ......
win11系統(tǒng)快速跳過聯(lián)網(wǎng)創(chuàng)建本地管理賬戶3種方法?現(xiàn)在市面上銷售的品牌筆記本和臺式機(jī)基本上都預(yù)裝Windows11家庭中文版正版操作系統(tǒng),聯(lián)網(wǎng)后系統(tǒng)會(huì)自動(dòng)激活。當(dāng)用戶拿到新機(jī)器后還需要按照cortana(小娜)的提示一步...
答:中高端水平 i513500hx在處理器當(dāng)中是處于一個(gè)中高端的水平。 i513500hx是第十一代酷睿處理器系列的一員,基礎(chǔ)頻率為2.4GHz,表現(xiàn)十分的不錯(cuò)。 i513500hx介 ......
打開軟件,直接填寫就可以。 1、下載安裝easyconnect軟件, 2、打開easyconnect應(yīng)用,在如圖所示的“服務(wù)器地址”一欄輸入如圖所示網(wǎng)址,點(diǎn)擊“連接”, 3、等 ......
相信有非常多使用過筆記本的用戶都聽說過獨(dú)顯直連這個(gè)詞,但很多用戶并不了解獨(dú)顯直連是什么,又有什么用處,那么下面就和小編一起來看看什么是獨(dú)顯直連和開啟這 ......
win11系統(tǒng)開機(jī)總是自動(dòng)登錄OneDrive如何關(guān)閉?win11系統(tǒng)開機(jī)的時(shí)候,會(huì)自動(dòng)啟動(dòng)OneDrive,不想要啟動(dòng),該怎么操作呢?下面我們就來看看詳細(xì)的教程。 在OneDrive界面點(diǎn)小齒輪按鈕,下拉菜單中點(diǎn)【設(shè)置】。 單擊【...