泰坦尼克號(hào)沉沒(méi)已經(jīng)過(guò)去107年,這場(chǎng)悲劇與可持續(xù)農(nóng)業(yè)、人口遷移問(wèn)題或者健康保險(xiǎn)費(fèi)率等現(xiàn)代問(wèn)題能有什么關(guān)系?這里給大家一點(diǎn)提示:數(shù)據(jù)證明。
無(wú)論是好是壞,現(xiàn)代世界正越來(lái)越多地利用算法識(shí)別數(shù)據(jù)中的模式,并根據(jù)這些模式做出預(yù)測(cè)。人們希望回答的問(wèn)題是,“某個(gè)人能否在泰坦尼克號(hào)的沉沒(méi)中幸存下來(lái)?”而這個(gè)問(wèn)題的基本分析方法,與“最有可能的人口遷移途徑是什么?”完全一致。
歷史悠久的問(wèn)題
基于泰坦尼克號(hào)數(shù)據(jù)集,以預(yù)測(cè)海上生存概率,一直是眾多胸懷抱負(fù)的數(shù)據(jù)科學(xué)家以及程序員的標(biāo)準(zhǔn)實(shí)踐問(wèn)題。
這是一個(gè)基本的挑戰(zhàn):將一部分泰坦尼克號(hào)乘客名單添加至算法,其中描述每位乘客及其特性的一些基本變量。根據(jù)這些數(shù)據(jù),算法應(yīng)能夠提出相關(guān)結(jié)論,說(shuō)明哪些變量決定某個(gè)人在1912年4月那個(gè)寒冷的夜晚?yè)碛懈叩纳婊蛘咚劳鰴C(jī)率。為了測(cè)試結(jié)果是否正確,你需要利用訓(xùn)練完成的算法處理名單中的其余乘客信息,而后與實(shí)際結(jié)果進(jìn)行比較。
Kaggle.com等在線社區(qū)曾經(jīng)進(jìn)行過(guò)這樣的競(jìng)賽,看誰(shuí)能夠開(kāi)發(fā)出準(zhǔn)確率最高的生存預(yù)測(cè)算法。此外,這也是大學(xué)課程當(dāng)中的常見(jiàn)問(wèn)題。乘客名單大到足夠能反映出明確的趨勢(shì),同時(shí)又小到能夠被初學(xué)者掌握。其結(jié)果也相對(duì)簡(jiǎn)單——決定生死的變量可能只有十幾項(xiàng),所以問(wèn)題并不復(fù)雜,初學(xué)者也能夠解決;但其中的交互關(guān)系又足夠復(fù)雜,能吸引到技術(shù)人員的關(guān)注。另外,由于泰坦尼克號(hào)的故事非常有名,因此即使過(guò)去一個(gè)多世紀(jì),仍能引發(fā)共鳴。
SparkBeyond公司正在將泰坦尼克號(hào)問(wèn)題作為其AI平臺(tái)的早期測(cè)試素材,并希望將其作為向潛在客戶展示技術(shù)能力的方式之一。該公司聯(lián)合創(chuàng)始人兼CEO Sagie Davidovich表示,“有趣的是,即使是在像泰坦尼克號(hào)這樣簡(jiǎn)單的問(wèn)題當(dāng)中,我們?nèi)阅軌虬l(fā)掘出大量有價(jià)值的結(jié)論?!?
生存結(jié)果可歸結(jié)為變量
如果大家對(duì)泰坦尼克號(hào)的故事比較熟悉,完全可以通過(guò)簡(jiǎn)單的數(shù)字計(jì)算對(duì)乘客的命運(yùn)做出合理的猜測(cè)。
其中女性的生存機(jī)率幾乎達(dá)到男性的兩倍,兒童的生存機(jī)率則為成人的1.4倍。一等艙乘客的生存機(jī)率為其他乘客的1.9倍。事實(shí)證明,中年女性與年輕女性之間,艙位等級(jí)對(duì)生存率的影響最大;而在中年男性與年輕男性之間,年齡差異則是決定生存率的關(guān)鍵。
雖然這些結(jié)果基本在人們的意料之中,但確實(shí)能夠做出非常準(zhǔn)確的預(yù)測(cè)。除此之外,算法也需要考慮到其它變量對(duì)于生存名單的影響,例如一個(gè)人的父母、孩子或者兄弟姐妹是否同在船上。正因?yàn)檫@些復(fù)雜性因素的存在,泰坦尼克號(hào)乘客名單才有長(zhǎng)久以來(lái)一直成為數(shù)據(jù)科學(xué)家們關(guān)注的經(jīng)典問(wèn)題。
事實(shí)證明,以不同的方式查看數(shù)據(jù)有時(shí)也能帶來(lái)更快捷的分析結(jié)果。Davidovich指出,SparkBeyond的AI方案就通過(guò)查看船票上列出的乘客姓名前綴,發(fā)現(xiàn)了這樣一條分析“捷徑”。
Davidovich解釋道,“從數(shù)據(jù)當(dāng)中可以看出,最簡(jiǎn)單的高生存率預(yù)測(cè)指標(biāo)就是,乘客的名字中不包含“先生”這一表述。這顯然涉及到乘客的性別成分,但深入解讀,這種現(xiàn)象實(shí)際上包含了上面談到的全部三種生存指標(biāo)?!币?yàn)椤跋壬边@一前綴,能夠快速確定最有可能在沉船事故中死亡的群體:中產(chǎn)階級(jí)及資產(chǎn)階級(jí)成年男性,這一群更有能力購(gòu)買(mǎi)頭等艙船票的群體,往往(雖然并非全部)擁有“閣下”這類(lèi)頭銜,而年輕的男孩則被稱為“少爺”(主要來(lái)自貴族階層)或者并無(wú)特別的稱謂。
現(xiàn)代應(yīng)用
SparkBeyond公司的AI方案目前已經(jīng)開(kāi)始研究監(jiān)獄暴力行為的原因、半導(dǎo)體制造質(zhì)量控制以及人口遷移模式等問(wèn)題。
Davidovich介紹稱,“機(jī)器智能可以確定的一項(xiàng)基本事實(shí),在于自然災(zāi)害與人口遷移之間的聯(lián)系。美國(guó)人口遷移的大幅飆升與颶風(fēng)哈維有關(guān),這一點(diǎn)在某些高速公路及主要道路上體現(xiàn)得尤為明顯?!?
當(dāng)然,除了數(shù)據(jù)模式這一共同本質(zhì)之外,泰坦尼克號(hào)數(shù)據(jù)集還有著另一大共通的特性——盡管人們?cè)诜治鰰r(shí)很容易迷失在具體數(shù)據(jù)當(dāng)中,但這些紛繁復(fù)雜的數(shù)字與變量背后仍是真實(shí)人生的反映。