首先是跳過(guò)開(kāi)始部分,這個(gè)在我們讀取文本的時(shí)候最常用。在實(shí)際的應(yīng)用當(dāng)中,比如記錄的日志或者是代碼等等,一般來(lái)說(shuō)頭部都會(huì)附上一段說(shuō)明,或者用注釋標(biāo)注或者是用特殊的符號(hào)標(biāo)記。這些信息是給用到數(shù)據(jù)的程序員看的,當(dāng)我們通過(guò)代碼獲取數(shù)據(jù)的時(shí)候,顯然是希望可以過(guò)濾掉這些信息的。
比如我們有一段數(shù)據(jù),它的開(kāi)頭用#做了一些注釋:
#Thisisadataforstudent
#Rows100
xiaoming,17,99;
xiaoli,18,98;
...
常規(guī)操作當(dāng)中,我們會(huì)創(chuàng)建一個(gè)打開(kāi)文件的迭代器,我們通過(guò)遍歷這個(gè)迭代器去獲取文件當(dāng)中的數(shù)據(jù):
withopen('xxxx.txt')asf:
forlineinf:
print(line)
如果只是用來(lái)輸出還好,如果我們需要加工文件當(dāng)中的數(shù)據(jù),那么頭部的注釋信息就會(huì)干擾我們代碼的運(yùn)行。我們當(dāng)然可以手動(dòng)加入一些判斷,但是這會(huì)比較麻煩,代碼也不夠美觀。針對(duì)這個(gè)問(wèn)題,一個(gè)比較好的解決方案是dropwhile。
dropwhile是itemtools當(dāng)中的一個(gè)函數(shù),它可以接收一個(gè)我們自定義的過(guò)濾函數(shù)和迭代器重新生成一個(gè)新的迭代器,這個(gè)新的迭代器當(dāng)中會(huì)過(guò)濾掉之前迭代器頭部不符合我們要求的數(shù)據(jù):
在剛才的例子當(dāng)中我們想要過(guò)濾掉頭部加了#注釋的部分,我們可以這么操作:
fromitertoolsimportdropwhile
withopen('xxxx.txt')asf:
forlineindropwhile(lambdaline:line.startswith('#'),f):
print(line)
這樣出來(lái)的結(jié)果就沒(méi)有頭部我們不需要的內(nèi)容了。
當(dāng)我們知道頭部不符合情況的數(shù)據(jù)的格式的時(shí)候,可以使用dropwhile來(lái)規(guī)定過(guò)濾的格式。如果我們知道需要過(guò)濾的條數(shù),則可以使用另外一個(gè)工具,叫做islice,它的本質(zhì)是一個(gè)切片函數(shù),就像是Python當(dāng)中數(shù)組的切片功能一樣,可以切出迭代器當(dāng)中指定片段的數(shù)據(jù)。
舉個(gè)例子:
fromitertoolsimportdropwhile
withopen('xxxx.txt')asf:
forlineinislice(f,3,None):
print(line)
這樣我們就會(huì)從第三行開(kāi)始獲取,之前的數(shù)據(jù)會(huì)被過(guò)濾掉。它其實(shí)就代表著數(shù)組當(dāng)中[3:]的切片操作。
迭代排列組合我們都知道在C++當(dāng)中有一個(gè)叫做next_permutation的函數(shù),可以傳入一個(gè)數(shù)組,返回下一個(gè)字典序的排列。在Python當(dāng)中也有同樣的功能,但是是以迭代器的形式使用的。
舉個(gè)簡(jiǎn)單的例子,比如我們有a,b,c三個(gè)元素,我們希望求出它的所有排列:
items=['a','b','c']
fromitertoolsimportpermutations
forpinpermutations(items):
print(p)
permutations還支持多傳一個(gè)參數(shù),比如上述的排列當(dāng)中我們希望只保留前兩個(gè)元素,除了切片之外,我們只需要多傳一個(gè)參數(shù)就好了,likethis:
forpinpermutations(items,2):
print(p)
除了排列之外,itertools當(dāng)中還支持組合,用法還是一樣,只是把函數(shù)名稱換成是combinations而已:
fromitertoolsimportcombindations
forcincombinations(items):
print(c)
在一般的組合當(dāng)中,一個(gè)元素一旦被選中那么它接下來(lái)就會(huì)從候選集當(dāng)中移除,再也不會(huì)被選中。如果我們希望獲得有放回的組合,我們可以再換一個(gè)函數(shù),這個(gè)函數(shù)名稱有點(diǎn)長(zhǎng),但是名字倒也直觀叫做combinations_with_replacement。但既然是有放回的抽樣,我們需要設(shè)定元素的數(shù)量,否則抽樣可以無(wú)限進(jìn)行下去。
forcincombinations_with_replacement(items,3):
print(c)
迭代合并后的序列上一篇文章當(dāng)中我們介紹了zip可以同時(shí)迭代多個(gè)迭代器,除此之外還有一種情況是我們需要把多個(gè)迭代器串起來(lái)迭代。比如系統(tǒng)的日志打在了多個(gè)文件當(dāng)中,我們希望找出其中有error的日志來(lái)分析。這個(gè)時(shí)候,我們希望的不是同時(shí)讀取多個(gè)迭代器,而是希望能夠有辦法將多個(gè)迭代器的內(nèi)容串聯(lián)起來(lái)。這個(gè)功能就是itertools當(dāng)中的chain方法,它接受多個(gè)迭代器,當(dāng)我們遍歷的時(shí)候,會(huì)自動(dòng)將多個(gè)迭代器的內(nèi)容串聯(lián)起來(lái),我們可以無(wú)縫迭代。
舉個(gè)例子:
fromitertoolsimportchain
nums=[1,2,3]
chars=['a','b','c']
foriinchain(nums,chars):
print(i)
這樣我們會(huì)把nums和chars當(dāng)中的內(nèi)容一起輸出出來(lái),就好像從頭到尾只執(zhí)行了一個(gè)迭代器一樣。
你可能會(huì)說(shuō)我們不用chain也可以實(shí)現(xiàn)啊,我們可以這樣:
foriinnums+chars:
print(i)
的確,從結(jié)果上來(lái)看這樣也是行得通的。但是如果我們分析一下內(nèi)部執(zhí)行的時(shí)候的中間變量,會(huì)發(fā)現(xiàn)當(dāng)我們執(zhí)行nums+chars的時(shí)候,實(shí)際上是先創(chuàng)建了一個(gè)新的臨時(shí)list。然后在這個(gè)list當(dāng)中存儲(chǔ)nums和chars的數(shù)據(jù),也就是說(shuō)我們迭代的其實(shí)是這個(gè)新的list。這帶來(lái)的結(jié)果是我們額外開(kāi)辟了一段內(nèi)存,并且花費(fèi)了一些時(shí)間。如果我們使用chain,它并不會(huì)有這樣的中間變量,完全是通過(guò)迭代器來(lái)執(zhí)行的迭代,非常節(jié)省內(nèi)存,這也是chain的優(yōu)點(diǎn)。
歸并迭代的內(nèi)容對(duì)于歸并操作我們應(yīng)該都不陌生,在之前的歸并排序以及一些題解的文章當(dāng)中我們見(jiàn)過(guò)很多次。同樣,我們?cè)谑褂霉ぞ吆喜⒍鄠€(gè)迭代器內(nèi)容的時(shí)候,如果迭代器當(dāng)中的內(nèi)容有序,我們也可以對(duì)多個(gè)迭代器當(dāng)中的元素進(jìn)行歸并,而不再需要我們自己手動(dòng)操作。
使用我們之前介紹的heapq的庫(kù)可以非常輕松地做到這一點(diǎn),我們一起來(lái)看一個(gè)例子:
a=[1,3,5]
b=[2,4,6]
importheapq
forcinheapq.merge(a,b):
print(c)
執(zhí)行之后,我們會(huì)得到[1,2,3,4,5,6]的結(jié)果。也就是說(shuō)通過(guò)heapq.merge操作,我們把多個(gè)有序的迭代器合并到了一起。當(dāng)然我們也可以自己合并,但如果我們只是需要利用當(dāng)中的數(shù)據(jù)的話,使用merge操作可以節(jié)省內(nèi)存空間。
以上內(nèi)容為大家介紹了Python之迭代器的幾個(gè)高級(jí)用法,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。