建模術(shù)：數(shù)據(jù)挖掘要還原用戶的生活場景

數(shù)據(jù)觀 ? 9年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

萬物皆數(shù)據(jù)，數(shù)據(jù)藏大道。教你Know那些有趣、有用、有逼格的Data!

繼續(xù)“術(shù)”篇，希望能更貼近實操。

“術(shù)”篇將包含數(shù)據(jù)收集、數(shù)據(jù)管理、建模、網(wǎng)站分析、個性化推薦、場景應用、數(shù)據(jù)升溫理論等，這些都是筆者擅長的領(lǐng)域，在長期的實踐過程中，形成了個人獨特、務(wù)實的理解和方法。

建模無疑是大數(shù)據(jù)里面最藝術(shù)的部分，也是最令大數(shù)據(jù)從業(yè)者癡迷、得意的領(lǐng)域，一個好的模型就是一篇作品，是一首詩，令人心曠神怡。

建模、模型并不是什么新鮮事物，它們早已出現(xiàn)在很多場合，譬如“產(chǎn)品模型”、“推薦模型”、“營銷模型”、“挖掘模型”等等，它們有什么不同？

建模的幻影有千萬種，有些人做過，有些人沒做過，我們該如何看待？

建模是不是需具備很多專業(yè)知識，非專業(yè)人士無法掌握？

小白楊的所思所想，都在下面的文字。

　　 一、建模并不神秘：讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)

一些建模的觀點已在前面的道與法兩篇體現(xiàn)，歸納如下：

　　 建模的本質(zhì)就是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。 人類、智能體的認知、行動需要用到不同的數(shù)據(jù)（Know->行動），如果這個數(shù)據(jù)沒有被直接掌握，那就要基于已知的事實數(shù)據(jù)推測，這個過程就是“建模”，得到的結(jié)果就是一個新的“數(shù)據(jù)”。

建模術(shù)：數(shù)據(jù)挖掘要還原用戶的生活場景

　　 建模就是在做偵探， 都是利用已掌握的大量的、不完整的、不一定可信的事實數(shù)據(jù)推導還原事實的全部。幾乎所有的領(lǐng)域都涉及建模。

　　 模型分三大類，但萬變不離其宗。

第一類，利用已知的事實數(shù)據(jù)計算推測相關(guān)聯(lián)的其它事實數(shù)據(jù)，譬如應用人的屬性、行為數(shù)據(jù)推測它的消費需求；

第二類，利用已知的事實數(shù)據(jù)計算推測規(guī)律性的數(shù)據(jù)，譬如基于歷史的購買記錄分析商品的銷售趨勢、細分比較等；

第三類，利用已知的細節(jié)事實數(shù)據(jù)組合建立對事實全局的認識（數(shù)據(jù)），譬如從生效時間、適用區(qū)域及客戶群、定價等維度建立產(chǎn)品模型，其實就是綜合這些細節(jié)數(shù)據(jù)形成了一個“產(chǎn)品”的“數(shù)據(jù)”。

對“新”的數(shù)據(jù)的認識不要拘泥于一定要和以前的數(shù)據(jù)不一樣，多個數(shù)據(jù)組合形成新的含義也是一種新的數(shù)據(jù)。

數(shù)據(jù)是人類對世界的觀測，把客觀世界抽樣、采集到數(shù)字世界里面，建模就是要在數(shù)字世界里面把客觀事實還原回來、預測它的發(fā)展。有趣的是，在數(shù)字世界里面，可以打破客觀物質(zhì)的當前認知局限，任意交叉組合，從而有無限創(chuàng)新的可能。

總結(jié)一下，建模本質(zhì)就是對已知數(shù)據(jù)的組合、簡單或者復雜的計算處理，最終轉(zhuǎn)換成一個新的數(shù)據(jù)，從而影響行動。

不同類型建模差別很大，接下來我們將聚焦到數(shù)據(jù)營銷領(lǐng)域來探討，部分觀點不具備普適性。

　　 二、建模的六大誤區(qū)

　　 誤區(qū)一：會用工具等于會建模？ 數(shù)據(jù)挖掘大多遵循CRISP-DM流程，弄來很多的數(shù)據(jù)維度（有甚者上百種），選取某一種算法，找來訓練集訓練出一堆莫名其妙的規(guī)則，輸出的目標用戶特征誰也說不清楚，只能告訴你支持度、置信度多少。這個過程本來是沒有問題的，前提條件是有明確的挖掘方向。但是很多人都錯把業(yè)務(wù)目標當挖掘方向了。

真正的建模應該從業(yè)務(wù)目標開始，先基于業(yè)務(wù)目標理解客戶分解挖掘方向（特征明顯的群體），再找數(shù)據(jù)用算法關(guān)聯(lián)推導。懂工具能很好的完成挖掘方向到目標結(jié)果的過程，但業(yè)務(wù)目標到挖掘方向這個過程就不是只掌握工具就能夠勝任的了。

敏銳的洞察挖掘方向、正確的數(shù)據(jù)選取是建摸的核心能力，比掌握工具更加重要！

　　 誤區(qū)二：建模不與實際銷售場景相結(jié)合！ 某央企（莫亂猜）各省公司大數(shù)據(jù)成功案例滿天飛，模型成功率動輒30-40%。筆者看到的時候自慚形愧，也一直很納悶，做了這么多年精準營銷，大部分模型的營銷成功率都是幾個百分點，兩位數(shù)以上的鳳毛麟角，怎么別人的水平都已經(jīng)趕超美帝了！后來終于搞明白，原來他們的目標客戶在各種渠道成功下單都算，不管是否施加了營銷動作，而我們只統(tǒng)計針對目標用戶采取營銷動作的直接轉(zhuǎn)化下單。他們得意于挖出目標用戶的精準，其實，這些模型的高成功率只能說明這批用戶自然轉(zhuǎn)化率高，找出這些用戶并無實質(zhì)意義，因為不施加任何動作用戶就已經(jīng)購買了，挖它出來干嘛？

建模必須與實際銷售場景結(jié)合，要么找出自然轉(zhuǎn)化率高的用戶采取更低成本的接觸方式轉(zhuǎn)化，要么找出一批用戶施加營銷動作后較自然轉(zhuǎn)化大大提升！

　　 誤區(qū)三：盲目使用、過度依賴訓練集！ 訓練集是個雙刃劍，正確使用能充分發(fā)揮技術(shù)算法的價值，而濫用則陷入誤區(qū)。前面說的某央企案例，其實訓練那些模型并不困難，不就把各渠道成功下單用戶作為訓練集嘛，掌握工具的新手都能做出來。訓練集要與準備施加的營銷動作一致的才有意義。

訓練集還要有代表性，譬如歷史的數(shù)據(jù)是和大客戶談妥對其所有員工批量轉(zhuǎn)化的，以這些數(shù)據(jù)為訓練集就沒有任何意義。

營銷場景初始往往沒有訓練集，必須跳出“訓練集”局限。

　　 誤區(qū)四：要相關(guān)不要因果！ 《大數(shù)據(jù)時代》作者提出這個觀點的時候，其實并不是要放棄追求因果，而是找出相關(guān)關(guān)系后，更迫切的是接下來怎么做，因果關(guān)系可以慢慢研究。這一點被很多人誤讀，世間沒有無緣無故的愛，也沒有無緣無故的恨，兩個事物相關(guān)度很高，背后必定有一串的因果鏈條，如果找不到，那可能是因為訓練集的問題導致偽相關(guān)，我們就要警惕了。

　　 誤區(qū)五：過于迷信算法！ 大道至簡，有效的東西一定是簡單的。非要復雜，那一定是因為沒找到或者沒掌握關(guān)聯(lián)度更高的原始數(shù)據(jù)。算法并不能解決所有問題，沒有好的數(shù)據(jù)基礎(chǔ)，它無能為力。建模涉及到很多關(guān)鍵要素，比拼的是綜合實力，在同等條件下，努力提升算法才是有意義的。

　　 誤區(qū)六：盲目追求數(shù)據(jù)精度！ 高的精度意味著更高的成本，對應更少的數(shù)據(jù)規(guī)模，如何取舍就要運用“法”篇說的ROI原則了。

　　 三、建模七術(shù)

建模術(shù)：數(shù)據(jù)挖掘要還原用戶的生活場景

　　 1、場景驅(qū)動

建模的第一件事情是搞清楚應用場景，提煉賣點、利益點，哪些是能打動用戶的關(guān)鍵要素。從“命中目標”和“命中營銷特性”這兩個方面去思考我們要找什么樣的用戶，匹配什么樣的關(guān)鍵特征。

　　 2、迭代建模

建模要用互聯(lián)網(wǎng)思維“小步快跑，快速迭代”，快速對消費者需求做出反應，否則數(shù)據(jù)會失去時效。因此我們應從簡單開始入手，采用簡單算法快速輸出數(shù)據(jù)，后續(xù)在實戰(zhàn)中不斷檢驗、修正、迭代優(yōu)化，不斷提升數(shù)據(jù)的精準性。

　　 3、場景還原

確定業(yè)務(wù)目標后，還原用戶的生活場景，設(shè)想用戶的需求場景，再考察數(shù)據(jù)能否關(guān)聯(lián)。

理解生活，數(shù)據(jù)挖掘會很簡單。商業(yè)最終解決的是人們的物質(zhì)文化需求，你想挖掘什么樣的群體，先從生活中去理解它，它在什么場景下需要這些產(chǎn)品，有什么行為習慣，在我們的數(shù)據(jù)中留下了哪些蛛絲馬跡？譬如“外圍女”這個群體，你too simple對她們一無所知，就很難把她們找出來。為了挖掘“工業(yè)區(qū)人群”，我們特地組織前往廠區(qū)調(diào)研他們購買手機、上網(wǎng)、生活習慣等情況，為了挖掘“出租車司機”，我們打車的時候?qū)λ麄冞M行了訪談。

五個方面理解還原。

身份屬性：譬如商務(wù)精英消費能力高使用Iphone手機比例高

狀態(tài)變化：譬如夜間位置變換，推測用戶搬家了有寬帶需求

行為表達：譬如在社交網(wǎng)絡(luò)、搜索引擎等互聯(lián)網(wǎng)上表達了對目標商品的關(guān)注

習慣偏好：譬如喜歡日本料理、西餐廳的人群超60%使用Iphone手機

關(guān)系推測：譬如和快遞員交互的用戶，我們推測它是一個電商消費者

對于任何一個業(yè)務(wù)目標，都可以從上述五個方面還原與業(yè)務(wù)目標相關(guān)聯(lián)的場景，還原足夠多的場景，就可以挖掘出足夠規(guī)模的用戶數(shù)據(jù)。

　　 4、找數(shù)據(jù)關(guān)聯(lián)

還原出場景后，就要找數(shù)據(jù)進行關(guān)聯(lián)。有些我們可以基于直接數(shù)據(jù)進行輸出，沒有直接的數(shù)據(jù)，則找間接數(shù)據(jù)選取算法進行推導，而間接數(shù)據(jù)的選取，可繼續(xù)應用上述五個方面場景還原的方法。

至于具體如何清洗數(shù)據(jù)、缺省異常值處理、算法選取、誤差分析等等那些實操細節(jié)，文章很多。

　　 5、快速收斂

建模是人與機器協(xié)作的結(jié)果，核心參與者是人，建模方向由人來確定，數(shù)據(jù)維度的選取主要是人（機器輔助驗證），算法也是人設(shè)計的，機器所起的所用是訓練迭代，而機器儲存的數(shù)據(jù)相對人腦太單一，人對數(shù)據(jù)結(jié)果、應用結(jié)果進行解讀，及時輸入一些理解能加快收斂的速度。

　　 6、少即是多 　

挖掘的目標不僅僅是“有需求”，而是“能轉(zhuǎn)化”，因為好的營銷場景、文案，能激發(fā)那些原來看起來沒有需求的用戶的購買欲望，而即使是有需求的用戶，如果不能直擊它的痛點、愉悅點，也難以轉(zhuǎn)化。

好的模型應盡量簡單，很多復雜規(guī)則的模型有可能命中率高，但實際營銷應用的時候，往往難以與營銷特性相匹配，效果不一定好；而簡單模型特征明顯，全力聚焦用戶特性策劃營銷動作，更能引起用戶共鳴，產(chǎn)生興趣進而購買。

　　 7、高質(zhì)量的數(shù)據(jù)才是硬道理

正是因為我們沒有直接數(shù)據(jù)，所以我們只能找其它數(shù)據(jù)間接推導，如果我們掌握的數(shù)據(jù)與目標關(guān)聯(lián)度很高，那么算法可以很簡單，否則無論算法多么的先進，效果也是有一個瓶頸的。

與其花大力氣建模，筆者更愿意前瞻性的解決數(shù)據(jù)源問題，收集更多更有效的數(shù)據(jù)。

筆者更愿意當一個數(shù)據(jù)架構(gòu)師，也一直自命數(shù)據(jù)架構(gòu)師。

　　最后總結(jié)一下，建模其實并不神秘，本質(zhì)上是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。而建模關(guān)鍵是要還原用戶的生活場景，找準方向，找到合適的數(shù)據(jù)關(guān)聯(lián)推導，快速校驗迭代收斂。

<完 >

作者：吳顯洋（云中白楊，也稱小白楊）：從小愛數(shù)學，畢業(yè)于清華大學計算機系，曾是系統(tǒng)架構(gòu)師，后回歸數(shù)據(jù)，10年大數(shù)據(jù)實戰(zhàn)經(jīng)驗，擅長數(shù)據(jù)化思考、系統(tǒng)性設(shè)計。愛徒步、愛歷史、愛思考宇宙！信奉道家思想，堅信萬物皆數(shù)據(jù)，數(shù)據(jù)藏大道。

建模術(shù)：數(shù)據(jù)挖掘要還原用戶的生活場景