最近的熱播劇《天才基本法》中,提到了很多有趣的數(shù)學(xué)知識(shí)點(diǎn),比如"親和數(shù)""巴什博奕""孔明棋""七橋問(wèn)題"等等,讓很多觀眾直呼不明覺(jué)厲。其中,最讓Mr.Tech感興趣的是劇中男女主參加數(shù)學(xué)建模大賽時(shí)用到的貝葉斯網(wǎng)絡(luò)。
【資料圖】
▲女主使用貝葉斯網(wǎng)絡(luò)進(jìn)行算法建模,來(lái)預(yù)測(cè)嫌犯行動(dòng)軌跡和抓捕時(shí)間方位。圖片截圖自電視劇《天才基本法》
貝葉斯網(wǎng)絡(luò)是一種分類(lèi)算法,被廣泛地應(yīng)用于醫(yī)療診斷、風(fēng)控等業(yè)務(wù)場(chǎng)景中,并發(fā)揮著重要作用。關(guān)于"貝葉斯網(wǎng)絡(luò)",你了解多少?今天,國(guó)內(nèi)專(zhuān)業(yè)的數(shù)據(jù)智能服務(wù)商每日互動(dòng)(股票代碼:300766)就和大家一起走進(jìn)機(jī)器學(xué)習(xí)領(lǐng)域,共同學(xué)習(xí)這個(gè)神奇的算法模型。
一、走進(jìn)貝葉斯網(wǎng)絡(luò)
生活中,人們往往會(huì)從最終的結(jié)果反向推測(cè)其原因,從而更好地做風(fēng)險(xiǎn)規(guī)避,或提前創(chuàng)造充分條件以達(dá)成預(yù)期目標(biāo)。不過(guò)事物之間的聯(lián)系往往錯(cuò)綜復(fù)雜,我們?nèi)绾纬榻z剝繭,清晰分析出事件和事件之間的相互依賴(lài)關(guān)系?是否有可能通過(guò)數(shù)學(xué)的方式來(lái)計(jì)算和衡量其中的因果作用,幫助我們追溯甚至預(yù)測(cè)事物的走向?
貝葉斯網(wǎng)絡(luò)就是當(dāng)下數(shù)據(jù)科學(xué)家和算法工程師用來(lái)解決此類(lèi)問(wèn)題的一種有效方式。
貝葉斯網(wǎng)絡(luò)(bayesian network)是描述隨機(jī)變量(事件)之間關(guān)系的模型。例如,貝葉斯網(wǎng)絡(luò)可以表示疾病和癥狀之間的概率關(guān)系。根據(jù)癥狀,該網(wǎng)絡(luò)可以計(jì)算各種疾病存在的概率。
貝葉斯網(wǎng)絡(luò)用有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)表示,其中每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,節(jié)點(diǎn)間的聯(lián)系用有向箭頭表示,箭頭從"因節(jié)點(diǎn)"指向"被影響節(jié)點(diǎn)",用條件概率表達(dá)關(guān)系強(qiáng)度。
現(xiàn)實(shí)中,醫(yī)生的診斷過(guò)程和貝葉斯網(wǎng)絡(luò)的推理機(jī)制高度一致。如上圖,如果患者咳嗽非常嚴(yán)重,甚至出現(xiàn)氣急、呼吸不暢等癥狀,醫(yī)生結(jié)合霧霾天氣、患者的吸煙史等情況,初步判斷患者可能得了肺炎。接下來(lái)醫(yī)生會(huì)要求患者拍肺部的X光片,根據(jù)患者的X光片表現(xiàn),做出更加科學(xué)的診斷結(jié)論。
目前,很多醫(yī)療輔助系統(tǒng)正是基于貝葉斯網(wǎng)絡(luò),將過(guò)往的醫(yī)學(xué)診斷經(jīng)驗(yàn)很好地沉淀下來(lái),實(shí)現(xiàn)智能診斷,幫助醫(yī)生大幅提升診斷效率。
接下來(lái),我們?cè)偕钊肓私飧顚哟蔚膯?wèn)題:貝葉斯網(wǎng)絡(luò)如何量化和計(jì)算事件之間的因果/條件依賴(lài)關(guān)系?
在上述案例中,霧霾、吸煙、過(guò)敏、病菌感染等都是導(dǎo)致患者得肺炎的風(fēng)險(xiǎn)因子。那么哪一個(gè)風(fēng)險(xiǎn)因子的影響作用最大?這就需要我們理解貝葉斯網(wǎng)絡(luò)的底層數(shù)學(xué)思想--貝葉斯定理。
二、貝葉斯網(wǎng)絡(luò)與貝葉斯定理
貝葉斯定理由英國(guó)著名數(shù)學(xué)家托馬斯·貝葉斯提出,它是關(guān)于條件概率的定理,公式如下:
根據(jù)高中的概率論知識(shí)來(lái)理解貝葉斯公式:
P(A),P(B)表示事件A和事件B的獨(dú)立發(fā)生概率。
P(A|B)是個(gè)條件概率,表示當(dāng)事件B發(fā)生的情況下,事件A發(fā)生的概率。
P(B|A)也是個(gè)條件概率,表示當(dāng)事件A發(fā)生的情況下,事件B發(fā)生的概率。
貝葉斯定理中有先驗(yàn)概率和后驗(yàn)概率之分。
先驗(yàn)概率:指根據(jù)以往經(jīng)驗(yàn)和統(tǒng)計(jì)分析得到的概率。是在"結(jié)果"發(fā)生之前的概率,比如公式中的P(A)就是先驗(yàn)概率。先驗(yàn)概率一般作為"由因求果"問(wèn)題中的"因"出現(xiàn)。
后驗(yàn)概率:是根據(jù)觀察到的樣本修正之后的概率值。指在結(jié)果發(fā)生之后,我們根據(jù)"結(jié)果"來(lái)計(jì)算和分析最有可能導(dǎo)致該結(jié)果的原因,即"執(zhí)果尋因"中的"因"。公式中的P(A|B)就是后驗(yàn)概率。
接下來(lái),我們將剛才提到的醫(yī)療診斷實(shí)例簡(jiǎn)化,來(lái)進(jìn)一步理解貝葉斯定理。
假設(shè)(先驗(yàn)概率均為假設(shè)數(shù)據(jù)):
患者病菌感染的概率P(V)=5%
患者感冒的概率P(C)=30%
患者因?yàn)椴【腥径忻暗母怕蔖(C|V)=40%
那么:
根據(jù)貝葉斯定理,感冒患者被病菌感染的后驗(yàn)概率P(V|C)=P(C|V)*P(V)/P(C)=40%*5%/30%≈66.67%
再?gòu)?fù)雜一些。
假設(shè)(先驗(yàn)概率均為假設(shè)數(shù)據(jù)):
患者發(fā)熱的概率P(F)=6%
患者因?yàn)楦忻岸l(fā)熱的概率P(F|C)=60%
那么:
患者因?yàn)椴【腥径l(fā)熱的概率P(F|V)=P(C|V)*P(F|C)=24%
那么:
根據(jù)貝葉斯定理,發(fā)熱患者被病菌感染的后驗(yàn)概率P(V|F)=P(F|V)*P(V)/P(F)=24%*5%/6%=20%
如上,貝葉斯網(wǎng)絡(luò)其實(shí)就是基于貝葉斯定理對(duì)事物之間因果關(guān)系以及依賴(lài)關(guān)系進(jìn)行量化,并使得因果或依賴(lài)關(guān)系的強(qiáng)弱可以被推理和計(jì)算。
在解決實(shí)際業(yè)務(wù)問(wèn)題時(shí),算法工程師們往往會(huì)通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)得到先驗(yàn)概率,然后使用貝葉斯網(wǎng)絡(luò)進(jìn)行推理,實(shí)現(xiàn)對(duì)機(jī)器故障原因、患者病因等的智能分析,以及對(duì)機(jī)器設(shè)備故障概率、患者患病風(fēng)險(xiǎn)等的預(yù)測(cè)。
只不過(guò),在實(shí)際的機(jī)器學(xué)習(xí)過(guò)程中,算法工程師們需要計(jì)算的數(shù)據(jù)量非常龐大,所構(gòu)建的貝葉斯網(wǎng)絡(luò)更為復(fù)雜。
貝葉斯定理與人類(lèi)大腦的推理過(guò)程非常相似,作為人工智能領(lǐng)域?qū)W習(xí)和推理的重要分支,貝葉斯定理一直備受關(guān)注。而以貝葉斯定理為基礎(chǔ)的貝葉斯網(wǎng)絡(luò)由Judea Pearl于1986年提出,是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。2011年,Judea Pearl還憑借在人工智能以及貝葉斯網(wǎng)絡(luò)方面的貢獻(xiàn),獲得了"計(jì)算機(jī)界的諾貝爾獎(jiǎng)"--圖靈獎(jiǎng)。
當(dāng)前,算法工程師們對(duì)貝葉斯網(wǎng)絡(luò)的研究側(cè)重在結(jié)構(gòu)學(xué)習(xí)方面,希望能夠構(gòu)建起更加客觀、可靠的網(wǎng)絡(luò)模型,更好地發(fā)揮出貝葉斯網(wǎng)絡(luò)在不確定性推理方面的優(yōu)勢(shì)。
結(jié)語(yǔ):
《天才基本法》中,女主成功應(yīng)用貝葉斯網(wǎng)絡(luò)和貝葉斯定理解決了疑犯軌跡預(yù)測(cè)和追蹤的問(wèn)題。而在現(xiàn)實(shí)世界,人們對(duì)大數(shù)據(jù)和AI技術(shù)的應(yīng)用更加深入,不斷探索使用數(shù)據(jù)智能技術(shù)解決各種不確定問(wèn)題,比如基于豐富、實(shí)時(shí)的數(shù)據(jù)構(gòu)建動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),幫助相關(guān)部門(mén)預(yù)測(cè)公共突發(fā)事件的影響,支撐應(yīng)急管理等等。
作為一家數(shù)據(jù)智能企業(yè),每日互動(dòng)(個(gè)推)也一直走在技術(shù)創(chuàng)新的前沿。通過(guò)對(duì)大數(shù)據(jù)進(jìn)行深度治理和挖掘,每日互動(dòng)(個(gè)推)將大數(shù)據(jù)加工為信息和知識(shí),解讀出數(shù)據(jù)的人文涵義,從而更好地服務(wù)行業(yè)客戶(hù)和政府相關(guān)部門(mén),助力科學(xué)決策。
想要了解更多數(shù)智前沿技術(shù)?持續(xù)關(guān)注每日互動(dòng)的個(gè)推技術(shù)實(shí)踐"漫話DI"系列專(zhuān)欄,和Mr.Tech一起近距離感受數(shù)智魅力~