python流式讀取大文件的兩種方法
1、使用read方法分塊讀取
使用更底層的file.read()方法,與直接循環(huán)迭代文件對(duì)象不同,每次調(diào)用file.read(chunk_size)會(huì)直接返回從當(dāng)前位置往后讀取chunk_size大小的文件內(nèi)容,不必等待任何換行符出現(xiàn)。
defcount_nine_v2(fname):
"""計(jì)算文件里包含多少個(gè)數(shù)字'9',每次讀取8kb
"""
count=0
block_size=1024*8
withopen(fname)asfp:
whileTrue:
chunk=fp.read(block_size)
#當(dāng)文件沒(méi)有更多內(nèi)容時(shí),read調(diào)用將會(huì)返回空字符串''
ifnotchunk:
break
count+=chunk.count('9')
returncount
2、利用生成器解耦代碼
可以定義一個(gè)新的chunked_file_reader生成器函數(shù),由它來(lái)負(fù)責(zé)所有與“數(shù)據(jù)生成”相關(guān)的邏輯。
count_nine_v3里面的主循環(huán)就只需要負(fù)責(zé)計(jì)數(shù)即可。
defchunked_file_reader(fp,block_size=1024*8):
"""生成器函數(shù):分塊讀取文件內(nèi)容
"""
whileTrue:
chunk=fp.read(block_size)
#當(dāng)文件沒(méi)有更多內(nèi)容時(shí),read調(diào)用將會(huì)返回空字符串''
ifnotchunk:
break
yieldchunk
defcount_nine_v3(fname):
count=0
withopen(fname)asfp:
forchunkinchunked_file_reader(fp):
count+=chunk.count('9')
returncount
使用iter(callable,sentinel)的方式調(diào)用它時(shí),會(huì)返回一個(gè)特殊的對(duì)象,迭代它將不斷產(chǎn)生可調(diào)用對(duì)象callable的調(diào)用結(jié)果,直到結(jié)果為setinel時(shí),迭代終止。
defchunked_file_reader(file,block_size=1024*8):
"""生成器函數(shù):分塊讀取文件內(nèi)容,使用iter函數(shù)
"""
#首先使用partial(fp.read,block_size)構(gòu)造一個(gè)新的無(wú)需參數(shù)的函數(shù)
#循環(huán)將不斷返回fp.read(block_size)調(diào)用結(jié)果,直到其為''時(shí)終止
forchunkiniter(partial(file.read,block_size),''):
yieldchunk
以上就是Python流式讀取大文件的兩種方法,更多Python學(xué)習(xí)教程請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。