一、簡(jiǎn)介
Python float NaN指的是“Not a Number”,即不是數(shù)字的浮點(diǎn)數(shù)值。通常出現(xiàn)在交叉驗(yàn)證等機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景中。Python浮點(diǎn)數(shù)的NaN值是可以通過(guò)math.nan或float('nan')方法創(chuàng)建出來(lái)的。這個(gè)NaN值可以與其他數(shù)字進(jìn)行比較,但是卻不能和自身進(jìn)行比較。
讓我們來(lái)看一個(gè)例子:
import math
a = float('nan')
b = float('nan')
c = 1.0
print(a == b) # False
print(a == a) # False
print(math.isnan(a)) # True
print(c > a) # False
二、原理
Python 中的 NaN 與 IEEE 754 標(biāo)準(zhǔn)中的 NaN 實(shí)現(xiàn)基本相同。 IEEE 754 中只定義了雙精度(double precision)的 NaN,但使用時(shí)需注意單精度(float)的 NaN 實(shí)現(xiàn)也與雙精度相同,僅數(shù)字精度不同。
IEEE 754 中,NaN 有兩種類型:一種是 quiet NaN(QNaN);一種是 signaling NaN(SNaN)。
QNaN 表示的是未定義或不適用的操作產(chǎn)生的結(jié)果。它可以被改變?yōu)?SNaN。
SNaN 表示的是嘗試執(zhí)行結(jié)果未定義的操作時(shí)產(chǎn)生的 NaN,默認(rèn)情況下,Python 只會(huì)使用 quiet NaN。SNaN 只應(yīng)該在調(diào)試和特定應(yīng)用中使用。
有一些操作可以產(chǎn)生 NaN,包括:
除以 0 0 除以 0 無(wú)窮 / 無(wú)窮 無(wú)窮 - 無(wú)窮 負(fù)數(shù)的平方根三、應(yīng)用
NaN 在機(jī)器學(xué)習(xí)中可用于以下用途:
缺失值的填充,即將列中的缺失值替換為 NaN。 標(biāo)記異常值,如數(shù)據(jù)集中的遠(yuǎn)離均值的極端值可以被標(biāo)記為 NaN。 簡(jiǎn)化數(shù)據(jù)處理,當(dāng)需要忽略一些數(shù)據(jù)點(diǎn)時(shí),可將其替換為NaN,減少對(duì)其他數(shù)據(jù)的干擾。四、使用示例
1. 缺失值填充
在數(shù)據(jù)分析中,經(jīng)常會(huì)遇到一些缺失值需要填充。通過(guò)將缺失值替換為 NaN,在分析中可以方便地使用 df.isna() 或 df.isnull() 進(jìn)行識(shí)別。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, np.nan, 22],
'salary': [3000, 5000, np.nan, 8000]}
df = pd.DataFrame(data)
print(df)
df.fillna(value=np.nan, inplace=True)
print(df)
2. 標(biāo)記異常值
有些數(shù)據(jù)集中可能存在一些離群值,將其用 NaN 標(biāo)記,可以在分析中忽略這些數(shù)據(jù)點(diǎn),并且不會(huì)對(duì)其他數(shù)據(jù)造成干擾。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
print(df)
3. 簡(jiǎn)化數(shù)據(jù)處理
有些數(shù)據(jù)點(diǎn)會(huì)對(duì)分析造成干擾,這時(shí)可以將其替換為 NaN,這樣在分析時(shí)就不會(huì)考慮這些特殊情況,避免對(duì)其他數(shù)據(jù)產(chǎn)生影響。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
df['salary'] = np.where(df['salary'] > 10000, np.nan, df['salary'])
print(df)