一、數(shù)據(jù)標(biāo)簽定義
數(shù)據(jù)標(biāo)簽是一種用來描述業(yè)務(wù)實(shí)體特征的數(shù)據(jù)形式。通過標(biāo)簽可以有效擴(kuò)充業(yè)務(wù)實(shí)體的分析角度,且通過對不同標(biāo)簽的簡單操作,便可進(jìn)行數(shù)據(jù)篩選和分析。
比如對用戶進(jìn)行刻畫時,可以從“性別”、“年齡”、“地區(qū)”、“興趣愛好”、“產(chǎn)品偏好”等角度進(jìn)行描述。
分析角度片面會導(dǎo)致很多問題,例如:某大學(xué)年度調(diào)查數(shù)據(jù)顯示,本校計(jì)算機(jī)系女生中,50%都嫁給了本校男老師。該消息一經(jīng)公布,就引起了校內(nèi)外的巨大反響,人們對師生戀、校園戀愛議論紛紛。結(jié)果是該大學(xué)計(jì)算機(jī)系只有兩名女生,其中一名女生和計(jì)算機(jī)系老師相戀結(jié)婚,由此得來的50%是真實(shí)數(shù)據(jù)。所以盡可能多的擴(kuò)展分析角度,能夠更全面、更準(zhǔn)確地對分析對象進(jìn)行刻畫。
延伸閱讀:
二、如何管理標(biāo)簽
(1)標(biāo)簽分類
標(biāo)簽分類的主要目的是方便用戶查找標(biāo)簽。對標(biāo)簽分類的方式有很多,大致可以分為幾大類:按生成方式分類、按業(yè)務(wù)主題分類、按技術(shù)特性分類、按使用情況分類。
1. 按生成方式分類
從生成方式上來看,標(biāo)簽可分為事實(shí)標(biāo)簽、模型標(biāo)簽以及策略標(biāo)簽。
事實(shí)標(biāo)簽是基于用戶實(shí)際信息的記錄,經(jīng)過簡單的加工而成,這種標(biāo)簽反應(yīng)的是客觀事實(shí);
模型標(biāo)簽則是通過用戶分析模型處理后,二次加工生成的用戶洞察性標(biāo)簽;
策略標(biāo)簽是根據(jù)具體的業(yè)務(wù)分析及策略規(guī)劃制定的群組性標(biāo)簽,供執(zhí)行人員直接進(jìn)行活動分組及行為洞察。
2. 按業(yè)務(wù)主題分類
主題是根據(jù)公司核心業(yè)務(wù)劃分的,和業(yè)務(wù)密切相關(guān)。按業(yè)務(wù)主題劃分標(biāo)簽,能夠更有針對性的服務(wù)于業(yè)務(wù)分析使用。
3. 按技術(shù)特性分類
按標(biāo)簽的更新時效分類:可以分為批量更新標(biāo)簽和實(shí)時更新標(biāo)簽;
按標(biāo)簽的訪問方式分類:可以分為批量訪問和實(shí)時訪問;
按標(biāo)簽的字段類型分類:可以分為數(shù)值類、日期類、枚舉類、文本類等等。
4. 按使用情況分類
主要是為了方便用戶使用標(biāo)簽,可分為熱門標(biāo)簽、普通標(biāo)簽、冷門標(biāo)簽。
考慮到同一標(biāo)簽有可能同時隸屬于不同的分類,可以從兩個層面對標(biāo)簽進(jìn)行管理,一是物理層面的管理,二是邏輯層面的管理。
(2)標(biāo)簽生成
標(biāo)簽的產(chǎn)生大致可分類手工產(chǎn)出和自動產(chǎn)出兩類。手工產(chǎn)出就是通過手寫SQL或建模依次產(chǎn)出每個標(biāo)簽。自動產(chǎn)出是一種更高效的方式,通過邏輯配置或者數(shù)據(jù)挖掘一次性產(chǎn)生多個標(biāo)簽。
要獲得能給業(yè)務(wù)帶來實(shí)際幫助的標(biāo)簽體系,我們需要在標(biāo)簽體系中引入“假設(shè)-測試-驗(yàn)證-定義”的迭代過程,通過不斷的迭代挖掘與試驗(yàn),才會找到可以準(zhǔn)確刻畫用戶的標(biāo)簽體系,找到更多業(yè)務(wù)增長點(diǎn)。
(3)標(biāo)簽更新
除了少數(shù)專用型標(biāo)簽可能僅使用一次之外,其他絕大部分標(biāo)簽上線后必須持續(xù)進(jìn)行更新,否則便成了僵尸標(biāo)簽。
按照標(biāo)簽更新方式,標(biāo)簽大致可以分為批量更新標(biāo)簽和實(shí)時更新標(biāo)簽兩類。
對于實(shí)時更新標(biāo)簽,一旦產(chǎn)生標(biāo)簽的數(shù)據(jù)發(fā)生了變化,就需立即更新該標(biāo)簽。比如最后一次登錄APP的時間這個實(shí)時標(biāo)簽,只要用戶登錄了APP,就把標(biāo)簽值更新為此次登錄時間。
對于批量更新標(biāo)簽,不管是每天、每周還是每月更新,都是通過跑批方式進(jìn)行。這里需要注意的有兩點(diǎn),一是為了更新方便,盡量把更新周期相同的標(biāo)簽放在同一個表中。二是標(biāo)簽更新會有先后順序,對于特別強(qiáng)調(diào)邏輯一致性的業(yè)務(wù)來說,如果該業(yè)務(wù)相關(guān)的部分標(biāo)簽已經(jīng)更新了,但另一部分還未更新,這時產(chǎn)出的數(shù)據(jù)結(jié)果是不準(zhǔn)確。