python特征生成是什么?
業(yè)內(nèi)常說(shuō)數(shù)據(jù)決定了模型效果的上限,機(jī)械學(xué)習(xí)算法通過(guò)數(shù)據(jù)特征進(jìn)行預(yù)測(cè),良好的特征可以顯著提高模型效果。這意味著通過(guò)特征生成(即從數(shù)據(jù)設(shè)計(jì)中加工模型的可用特征)是特征工程的重要一步。
一、特征生成作用
1、增加特征的表達(dá)能力,提升模型效果;
(如體重除以身高就是表達(dá)健康情況的重要特征,而單純看身高或體重對(duì)健康情況表達(dá)就有限。)
2、可以融入業(yè)務(wù)上的理解設(shè)計(jì)特征,增加模型的可解釋性。
二、特征生成方法
1、聚合方式
對(duì)存在一對(duì)多的字段,將其對(duì)應(yīng)多條記錄分組聚合后統(tǒng)計(jì)平均值、計(jì)數(shù)、值等數(shù)據(jù)特征。
#自定義分組聚合統(tǒng)計(jì)函數(shù)
defx2_sum(group):
returnsum(group**2)
df.groupby('cust_no').C1.apply(x2_sum)
2、轉(zhuǎn)換方式
對(duì)字段間做加減乘除等運(yùn)算生成數(shù)據(jù)特征的過(guò)程,對(duì)不同字段類型有不同轉(zhuǎn)換方式。
以上就是python特征生成是什么,希望能對(duì)大家有所幫助,更多Python學(xué)習(xí)教程請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。