W3Cschool
恭喜您成為首批注冊(cè)用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
你有一個(gè)數(shù)據(jù)序列,想利用一些規(guī)則從中提取出需要的值或者是縮短序列
最簡(jiǎn)單的過(guò)濾序列元素的方法就是使用列表推導(dǎo)。比如:
>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> [n for n in mylist if n > 0]
[1, 4, 10, 2, 3]
>>> [n for n in mylist if n < 0]
[-5, -7, -1]
>>>
使用列表推導(dǎo)的一個(gè)潛在缺陷就是如果輸入非常大的時(shí)候會(huì)產(chǎn)生一個(gè)非常大的結(jié)果集,占用大量?jī)?nèi)存。如果你對(duì)內(nèi)存比較敏感,那么你可以使用生成器表達(dá)式迭代產(chǎn)生過(guò)濾的元素。比如:
>>> pos = (n for n in mylist if n > 0)
>>> pos
<generator object <genexpr> at 0x1006a0eb0>
>>> for x in pos:
... print(x)
...
1
4
10
2
3
>>>
有時(shí)候,過(guò)濾規(guī)則比較復(fù)雜,不能簡(jiǎn)單的在列表推導(dǎo)或者生成器表達(dá)式中表達(dá)出來(lái)。比如,假設(shè)過(guò)濾的時(shí)候需要處理一些異常或者其他復(fù)雜情況。這時(shí)候你可以將過(guò)濾代碼放到一個(gè)函數(shù)中,然后使用內(nèi)建的 filter()
函數(shù)。示例如下:
values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
try:
x = int(val)
return True
except ValueError:
return False
ivals = list(filter(is_int, values))
print(ivals)
# Outputs ['1', '2', '-3', '4', '5']
filter()
函數(shù)創(chuàng)建了一個(gè)迭代器,因此如果你想得到一個(gè)列表的話,就得像示例那樣使用 list()
去轉(zhuǎn)換。
列表推導(dǎo)和生成器表達(dá)式通常情況下是過(guò)濾數(shù)據(jù)最簡(jiǎn)單的方式。其實(shí)它們還能在過(guò)濾的時(shí)候轉(zhuǎn)換數(shù)據(jù)。比如:
>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> import math
>>> [math.sqrt(n) for n in mylist if n > 0]
[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]
>>>
過(guò)濾操作的一個(gè)變種就是將不符合條件的值用新的值代替,而不是丟棄它們。比如,在一列數(shù)據(jù)中你可能不僅想找到正數(shù),而且還想將不是正數(shù)的數(shù)替換成指定的數(shù)。通過(guò)將過(guò)濾條件放到條件表達(dá)式中去,可以很容易的解決這個(gè)問(wèn)題,就像這樣:
>>> clip_neg = [n if n > 0 else 0 for n in mylist]
>>> clip_neg
[1, 4, 0, 10, 0, 2, 3, 0]
>>> clip_pos = [n if n < 0 else 0 for n in mylist]
>>> clip_pos
[0, 0, -5, 0, -7, 0, 0, -1]
>>>
另外一個(gè)值得關(guān)注的過(guò)濾工具就是 itertools.compress()
,它以一個(gè) iterable
對(duì)象和一個(gè)相對(duì)應(yīng)的Boolean選擇器序列作為輸入?yún)?shù)。然后輸出 iterable
對(duì)象中對(duì)應(yīng)選擇器為T(mén)rue的元素。當(dāng)你需要用另外一個(gè)相關(guān)聯(lián)的序列來(lái)過(guò)濾某個(gè)序列的時(shí)候,這個(gè)函數(shù)是非常有用的。比如,假如現(xiàn)在你有下面兩列數(shù)據(jù):
addresses = [
'5412 N CLARK',
'5148 N CLARK',
'5800 E 58TH',
'2122 N CLARK'
'5645 N RAVENSWOOD',
'1060 W ADDISON',
'4801 N BROADWAY',
'1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]
現(xiàn)在你想將那些對(duì)應(yīng)count值大于5的地址全部輸出,那么你可以這樣做:
>>> from itertools import compress
>>> more5 = [n > 5 for n in counts]
>>> more5
[False, False, True, False, False, True, True, False]
>>> list(compress(addresses, more5))
['5800 E 58TH', '4801 N BROADWAY', '1039 W GRANVILLE']
>>>
這里的關(guān)鍵點(diǎn)在于先創(chuàng)建一個(gè)Boolean序列,指示哪些元素復(fù)合條件。然后 compress()
函數(shù)根據(jù)這個(gè)序列去選擇輸出對(duì)應(yīng)位置為T(mén)rue的元素。
和 filter()
函數(shù)類(lèi)似,compress()
也是返回的一個(gè)迭代器。因此,如果你需要得到一個(gè)列表,那么你需要使用 list()
來(lái)將結(jié)果轉(zhuǎn)換為列表類(lèi)型。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號(hào)-3|閩公網(wǎng)安備35020302033924號(hào)
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號(hào)
聯(lián)系方式:
更多建議: