如果是初學(xué)者,當(dāng)你參加數(shù)據(jù)科學(xué)項(xiàng)目時(shí),應(yīng)避免以下十二種常見錯(cuò)誤。
01 沒有檢查你的數(shù)據(jù)
你需要檢查自己即將收集/使用的數(shù)據(jù)的量與質(zhì)。“你的工程中大部分的時(shí)間,通常是80%的時(shí)間,將用于獲取和清洗數(shù)據(jù),”data.world的數(shù)據(jù)科學(xué)家和知識(shí)工程師Jonathan Ortiz如是說。“你需要檢查是否記錄好了需要用于分析的數(shù)據(jù)”
TechTarget首席營銷官John Steinert表示,即使你收集的數(shù)據(jù)正確無誤,但是如果數(shù)據(jù)量過低或獨(dú)立變量過多,那么也很難用來為B2B市場營銷和銷售等業(yè)務(wù)領(lǐng)域創(chuàng)建預(yù)測模型。“數(shù)據(jù)量越大、數(shù)據(jù)科學(xué)工具的效果就越好,預(yù)測模型就越強(qiáng)大。因?yàn)榻灰桌屎艿停元?dú)立的變量會(huì)對交易造成較大影響。
02 沒有理解你的數(shù)據(jù)
你可能對你的數(shù)據(jù)集將顯示的結(jié)果有預(yù)先判斷,但是數(shù)據(jù)團(tuán)隊(duì)?wèi)?yīng)該在使用數(shù)據(jù)訓(xùn)練數(shù)據(jù)模型之前花些時(shí)間仔細(xì)研究數(shù)據(jù)。Ortiz說:“如果你看到一些違反直覺的東西,說明你的假設(shè)可能是錯(cuò)誤的,或者數(shù)據(jù)是錯(cuò)誤的。
我認(rèn)為最重要的事情就是研究數(shù)據(jù),繪制圖表并進(jìn)行探索性分析。很多人都匆匆略過這一步,甚至完全忽略。但是實(shí)際上你需要了解數(shù)據(jù)是什么樣子的。如果事先進(jìn)行一些探索,你就可以更快地確定這些數(shù)據(jù)是否能根據(jù)專業(yè)知識(shí)和商業(yè)敏銳性告訴你合理有用的結(jié)果。
03 期望過高
Chintan Shah說,對人工智能的炒作讓太多的人相信只要我們向計(jì)算機(jī)算法扔數(shù)據(jù),它就會(huì)自己解決所有問題。盡管公司擁有大量的數(shù)據(jù),但要將數(shù)據(jù)轉(zhuǎn)換成可用的格式,還需要有專門的人力。
只關(guān)注公司以前做了什么只能使做以前的事的效率提高而不能發(fā)現(xiàn)新的事物。“你越是只把過去作為預(yù)測未來的依據(jù),你就越不愿意去尋找新的途徑,”Steinert說。“即使你用第三方的數(shù)據(jù)來解決你的產(chǎn)品或服務(wù)的需求,它也不能保證你一定能完成這些銷售任務(wù)。”他補(bǔ)充稱:“數(shù)據(jù)模型可以告訴你,一家公司與你提供的服務(wù)相匹配,但它不能告訴你該公司現(xiàn)在是否有需求。”
04 未對新模型進(jìn)行測試
如果你已經(jīng)花費(fèi)了時(shí)間和金錢來構(gòu)建一個(gè)數(shù)據(jù)模型,那么你希望在任何地方都能使用它來充分提高模型利用率。但是,如果這樣做,就無法衡量這個(gè)模型的效果。另一方面,如果用戶不相信模型,他們可能不會(huì)使用它,然后你就不能測試它,Steinert說。
那么解決方案是什么呢?用一個(gè)使用模型的組來確保模型有效,一個(gè)不使用它的控制組來對照,Steinert補(bǔ)充道。有一個(gè)隨機(jī)組去尋找模型成立的場合,而對照組則按原先的情況設(shè)計(jì)。
05 只有目標(biāo),沒有假設(shè)
尋找可以提供特定改進(jìn)的數(shù)據(jù)模型是很誘人的,例如,在48小時(shí)內(nèi)解決80%的客戶案例,或者在一季度內(nèi)獲得10%的業(yè)務(wù)增長,但這些指標(biāo)還不足以應(yīng)對問題。
我需要將這個(gè)指標(biāo)增加10%;我的假設(shè)是什么?可能會(huì)影響到什么?然后我可以對數(shù)據(jù)中的數(shù)據(jù)進(jìn)行探索性分析跟蹤。在你提出的問題和你正在測試的假設(shè)中清楚地說明,可以幫助你減少在這個(gè)問題上花費(fèi)的時(shí)間。”
06 模型已過時(shí)
如果你有一個(gè)適合你的問題的數(shù)據(jù)模型,你可能認(rèn)為你可以一直使用它,但是模型需要更新,并且隨著時(shí)間的推移,你可能需要構(gòu)建另外的模型。Ortiz警告說:“功能會(huì)隨著時(shí)間而改變。你需要不斷地觀察其有效性并更新你的模型。”
模型過時(shí)有很多原因;世界在變化,你的公司也在變化(尤其是當(dāng)模型被證明有用的時(shí)候)。模型不應(yīng)該被視為靜態(tài)的;市場當(dāng)然不是一成不變的。“如果市場的偏好正在偏離你的舊有模型,它將使你走入歧途。”模型的性能衰退。或者競爭對手從你的市場表現(xiàn)中學(xué)習(xí)時(shí)它就過時(shí)了。問題是隨著時(shí)間的推移,我們該如何發(fā)現(xiàn)新的模型?這就要求我們進(jìn)行一系列實(shí)驗(yàn),以發(fā)現(xiàn)新的找到模型的機(jī)會(huì)。
07 不監(jiān)控最終結(jié)果
使用控制組的另一部分作用是測量模型的輸出的效果,你需要在整個(gè)過程中跟蹤它,或者最終針對錯(cuò)誤的目標(biāo)優(yōu)化。
Steinert指出:有的公司使用機(jī)器人來提供電話服務(wù),而且不持續(xù)檢查機(jī)器人是否能夠帶來更高的客戶滿意度,只慶幸減少了人力成本。如果客戶結(jié)束合作是因?yàn)闄C(jī)器人無法給他們正確的答案,而不是因?yàn)榻鉀Q了他們的問題,那么客戶滿意度將大幅下降。
08 忽略業(yè)務(wù)專家的作用
如果你認(rèn)為需要的所有答案都在數(shù)據(jù)中,而開發(fā)人員或數(shù)據(jù)科學(xué)家可以自己找到它們,那就大錯(cuò)特錯(cuò)了。你必須要確保了解實(shí)際業(yè)務(wù)問題的人參與這項(xiàng)工作中。
Ortiz建議,開始項(xiàng)目時(shí),甚至在查看數(shù)據(jù)之前,要在數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)專家之間進(jìn)行對話,以確保每個(gè)人都清楚項(xiàng)目要實(shí)現(xiàn)什么效果。然后,你可以做探索性的數(shù)據(jù)分析,看看你是否能夠?qū)崿F(xiàn)它,如果不能,你可能需要用一種新的方式重新表述這個(gè)問題,或者采用一個(gè)不同的數(shù)據(jù)源。但這個(gè)具體領(lǐng)域的專家應(yīng)該幫助確定目標(biāo)是什么以及項(xiàng)目是否符合目標(biāo)。
09 選擇過于復(fù)雜的工具
機(jī)器學(xué)習(xí)的最前沿是令人興奮的,新技術(shù)可能非常強(qiáng)大,但它們也可能是多余的。Shah指出:“也許像邏輯回歸或決策樹這樣的簡單方法就能完成這項(xiàng)工作。” Ortiz對此表示贊同。
人們很容易將大量的計(jì)算機(jī)資源和復(fù)雜的模型用于解決問題。也許我對一個(gè)項(xiàng)目的某個(gè)方面有著很好的理解,我想測試一個(gè)全新的算法,這個(gè)算法可以做的比要求的更多。或者我只是想嘗試一下是否能找到一個(gè)簡單的方法來解決這個(gè)問題。在使用復(fù)雜辦法之前,應(yīng)該將所有簡單的辦法考慮一遍” Ortiz說道,注意到過擬合更可能發(fā)生在像深度學(xué)習(xí)這樣的復(fù)雜算法中:過擬合可能使新數(shù)據(jù)不符合原有模型。
你應(yīng)該與業(yè)務(wù)專家商量目標(biāo)然后選擇技術(shù)。很多數(shù)據(jù)科學(xué)家關(guān)注機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)往往關(guān)注的是預(yù)測。但不是你面臨的每一個(gè)問題都是預(yù)測問題。我們需要關(guān)注上季度的銷售情況,這可能意味著很多不同的事情。我們是否需要預(yù)測新客戶的銷售額,有可能你只需要知道為什么在上個(gè)季度的某一周銷售情況不佳。
10 選擇不合適的模型
有很多數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的例子,你可以從中學(xué)習(xí)和適應(yīng)。“數(shù)據(jù)科學(xué)熱度呈指數(shù)增長的原因之一是幾乎所有算法的開源模型都可用,這使得快速開發(fā)模型變得很容易,”Shah解釋說。但是這些模型通常是針對特定的用例開發(fā)的。他說,如果你從系統(tǒng)中需要的是不同的功能,那么最好構(gòu)建自己的版本。實(shí)現(xiàn)自己的數(shù)據(jù)清理和功能構(gòu)建過程。他建議道。“它給你更多的控制權(quán)。”
11 曲解基本概念和基礎(chǔ)原理
當(dāng)你沒有足夠的數(shù)據(jù)用于單獨(dú)的訓(xùn)練集時(shí),交叉驗(yàn)證可幫助你評估預(yù)測模型的準(zhǔn)確性。對于交叉驗(yàn)證,你可以分幾次設(shè)置數(shù)據(jù),使用不同的部分訓(xùn)練。然后分次測試模型, 以確定是否無論你使用哪部分?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練都能獲得相同的精度。
但是你不能用它來證明你的模型總是和它的交叉驗(yàn)證分?jǐn)?shù)一樣準(zhǔn)確,Ortiz解釋道。一個(gè)可歸納的模型是對新傳入的數(shù)據(jù)作出精確反應(yīng)的模型,但交叉驗(yàn)證永遠(yuǎn)無法證明這一點(diǎn)。“因?yàn)樗皇褂媚阋呀?jīng)擁有的數(shù)據(jù),它只是能顯示你的模型的盡可能準(zhǔn)確的數(shù)據(jù)。”
從根本上說,“相關(guān)性不是因果關(guān)系;看到兩個(gè)相關(guān)的東西并不意味著一個(gè)影響另一個(gè),”他指出。你對數(shù)據(jù)集進(jìn)行的探索性繪圖可以讓你了解它可以預(yù)測什么,以及哪些數(shù)據(jù)值不會(huì)告訴你任何事情的相關(guān)性。如果你正在跟蹤你的電子商務(wù)網(wǎng)站上的客戶行為,以預(yù)測哪些客戶將返回,以及何時(shí)返回,記錄他們登錄并不會(huì)告訴你任何信息,因?yàn)樗麄円呀?jīng)回到你的站點(diǎn)來做這些事情。登錄與返回有高度的相關(guān)性,但將其納入模型是錯(cuò)誤的。
12 低估用戶的理解能力
Ortiz指出,業(yè)務(wù)用戶可能無法自己進(jìn)行統(tǒng)計(jì)分析,但這并不意味著他們不了解錯(cuò)誤邊際、統(tǒng)計(jì)意義和有效性這些指標(biāo)。通常,當(dāng)一份分析報(bào)告提交給商業(yè)團(tuán)隊(duì)時(shí),它最終會(huì)變成一張只有一個(gè)數(shù)字的幻燈片。無論是一個(gè)準(zhǔn)確的數(shù)字、一個(gè)估計(jì)還是一個(gè)預(yù)測,誤差范圍是非常重要的。如果在數(shù)據(jù)分析的基礎(chǔ)上做出商業(yè)決策,那么就要清楚地說明解釋結(jié)果來使決策者相信這個(gè)系統(tǒng),不要認(rèn)為他們在技術(shù)上什么都不懂,無法理解結(jié)果。
End.
作者:Mary Branscombe
翻譯:李昊璟、朝樂門
來源:數(shù)據(jù)科學(xué)DataScienc
轉(zhuǎn)載請注明來自夕逆IT,本文標(biāo)題:《電話外呼機(jī)器人,解決了時(shí)間浪費(fèi)和效率低下的問題!》

還沒有評論,來說兩句吧...