四個(gè)特征帶你了解大數(shù)據(jù)的定義
大數(shù)據(jù)是當(dāng)前較為火爆的一個(gè)詞匯,究竟什么是大數(shù)據(jù)、大數(shù)據(jù)的概念是怎樣的?大數(shù)據(jù)有哪些特質(zhì),大數(shù)據(jù)有哪些技術(shù)方面的要求,大數(shù)據(jù)對(duì)當(dāng)前社會(huì)產(chǎn)生了哪些重要的影響?
國(guó)內(nèi)知名大數(shù)據(jù)專家、中科院計(jì)算所博士、職品匯創(chuàng)始人龔才春博士對(duì)此做了詳盡的分析,他指出:“從常規(guī)定義來講,大數(shù)據(jù)就是大小超出常規(guī)數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)庫(kù),并且也強(qiáng)調(diào),不是說一定要超過特定TB的數(shù)據(jù)集才是大數(shù)據(jù)。這個(gè)定義并沒有詮釋什么是常規(guī)的數(shù)據(jù)庫(kù)工具,也沒有詮釋大數(shù)據(jù)與數(shù)據(jù)量的關(guān)系,是一個(gè)比較原始的大數(shù)據(jù)定義?!?/span>
而國(guó)際數(shù)據(jù)公司(International Data CorporaTIon,簡(jiǎn)稱IDC)則從四個(gè)特征定義大數(shù)據(jù):數(shù)據(jù)規(guī)模龐大(Volume)、數(shù)據(jù)更新頻繁(Velocity)、數(shù)據(jù)類型多樣(Variety)和數(shù)據(jù)價(jià)值巨大(Value)。
龔博士認(rèn)為,在上述四大定義的基礎(chǔ)上,一般偏向于再加上數(shù)據(jù)處理復(fù)雜(Complexity),構(gòu)成相對(duì)完整的大數(shù)據(jù)的定義,這就是大家耳熟能詳?shù)?V+1C。
1.數(shù)據(jù)規(guī)模龐大(Volume)
當(dāng)數(shù)據(jù)規(guī)模很小時(shí),屬于傳統(tǒng)的“小數(shù)據(jù)”時(shí)代的問題,已有非常成熟的數(shù)據(jù)存儲(chǔ)、計(jì)算、分析、呈現(xiàn)方案,數(shù)據(jù)模型也有非常多的研究。大數(shù)據(jù)必須是規(guī)模異常龐大的數(shù)據(jù),只有當(dāng)規(guī)模龐大時(shí)候,才有新的研究?jī)r(jià)值。
前面已經(jīng)提到,大數(shù)據(jù)的大,不是說一定要超過特定TB的數(shù)據(jù)集才是大數(shù)據(jù)。由于計(jì)算能力、存儲(chǔ)能力、分析能力的有限,現(xiàn)在看起來很簡(jiǎn)單的問題,在歷史上可能都是大數(shù)據(jù)的問題。遼沈戰(zhàn)役中,司令員林彪對(duì)戰(zhàn)報(bào)要求很細(xì),包括每支部隊(duì)殲敵多少、俘虜多少;繳獲的火炮、車輛多少;槍支、物資多少……一天深夜,值班參謀正讀著一份某師上報(bào)的戰(zhàn)斗繳獲報(bào)告,那是該師的下屬部隊(duì)偶然碰上的一個(gè)不大的遭遇戰(zhàn),他們殲滅了一部分?jǐn)橙?,繳獲了一些戰(zhàn)利品,敵人余部逃走。林彪聽了匯報(bào)后,立即口授命令,全力追擊從胡家窩棚逃走的那股敵人,一定要把它徹底打掉。果然活捉了國(guó)民黨新編第六軍軍長(zhǎng)廖耀湘。這些數(shù)據(jù)在今天看來,規(guī)模非常非常小。但在當(dāng)時(shí)這已經(jīng)是“大數(shù)據(jù)”了,林彪懂得分析數(shù)據(jù),從繳獲中手槍和沖鋒槍的比例準(zhǔn)確判斷出敵方的指揮部在胡家窩棚,這也算是大數(shù)據(jù)分析的魅力。
2.數(shù)據(jù)更新頻繁(Velocity)
我們知道摩爾定律揭示了處理器分析能力與時(shí)間的關(guān)系,也就是說,每隔18個(gè)月左右處理器的分析能力翻一番。對(duì)于一個(gè)靜止的數(shù)據(jù)集,哪怕今天我們的處理器無法處理,存儲(chǔ)器不好存儲(chǔ)。隨著技術(shù)的進(jìn)步,未來可能變成非常容易處理,就像我們現(xiàn)在看著當(dāng)年林彪分析戰(zhàn)報(bào)一樣,這些戰(zhàn)報(bào)數(shù)據(jù)的處理今天已經(jīng)變得非常非常容易了,在今天已經(jīng)不算“大數(shù)據(jù)”了。
大數(shù)據(jù)技術(shù),要求我們更多地想出“巧妙”的分析辦法,提成更“優(yōu)秀”的處理模型,而不能只依賴存儲(chǔ)能力、處理水平、網(wǎng)絡(luò)帶寬等硬件設(shè)備的性能改進(jìn)。所以大數(shù)據(jù)技術(shù),對(duì)分析對(duì)象要求是頻繁更新的數(shù)據(jù)集。
3.數(shù)據(jù)類型多樣(Variety)
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),無論從理論上,還是在應(yīng)用上都非常成熟了。關(guān)系型數(shù)據(jù)庫(kù)一般保存格式固定、類型單一的數(shù)據(jù),幾十年的數(shù)據(jù)庫(kù)理論、數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)的研究,已經(jīng)有相當(dāng)多的研究成果。
大數(shù)據(jù)要求我們的分析對(duì)象是異構(gòu)、異質(zhì)的數(shù)據(jù)集,可能包括文本、音頻、視頻等多種形式,也可能是結(jié)構(gòu)化、半結(jié)構(gòu)化的或無結(jié)構(gòu)的。
4.數(shù)據(jù)價(jià)值巨大(Value)
如果數(shù)據(jù)沒有價(jià)值,我們就沒有分析的必要。因此,大數(shù)據(jù)要求我們處理的數(shù)據(jù)集是有巨大商業(yè)價(jià)值或社會(huì)價(jià)值的。阿里巴巴愿意花巨大代價(jià)提高推薦系統(tǒng)的準(zhǔn)確性,就是在于其推薦系統(tǒng)的準(zhǔn)確率的提高,能大大提高平臺(tái)的交易量,從而具有非常巨大的商業(yè)價(jià)值。我們?cè)谌珖?guó)部署“天眼”系統(tǒng),提高大數(shù)據(jù)技術(shù)在天眼系統(tǒng)的分量,就是因?yàn)樘煅巯到y(tǒng)分析能力的一小步提升,都能在降低犯罪率、打擊犯罪、保障人民群眾安全、信用取證等方面都有巨大的社會(huì)價(jià)值。
在Value這個(gè)層面,我們除了要求價(jià)值巨大外,我們一般會(huì)增加一點(diǎn)要求,那就是價(jià)值密度極低。我們常說,大數(shù)據(jù)是一個(gè)“金礦”,金礦就包含兩個(gè)方面的含義:一方面,黃金很值錢,金礦很有價(jià)值;另一方面,金礦不是金庫(kù),幾萬頓的礦砂,也許只有幾十公斤黃金,也就是說金庫(kù)的價(jià)值密度是非常低的。大數(shù)據(jù)的價(jià)值方面的含義,也要求價(jià)值密度非常低。如果數(shù)據(jù)集中每一條數(shù)據(jù)都是非常有價(jià)值的,那也就無所謂“挖掘”了,沒有挖掘,大數(shù)據(jù)的意義也蕩然無存了。
5.數(shù)據(jù)處理復(fù)雜(Complexity)
IDC公司的大數(shù)據(jù)只有4V的特征,我們一般偏向于增加另一個(gè)維度的要求:數(shù)據(jù)處理復(fù)雜。例如,統(tǒng)計(jì)中國(guó)人口的平均年齡,這個(gè)數(shù)據(jù)量是非常龐大的,有接近14億條記錄;這個(gè)數(shù)據(jù)也是動(dòng)態(tài)更新的,每年都有幾千萬人出生,幾千萬死亡;這個(gè)數(shù)據(jù)集也可以是多樣的,湖南的數(shù)據(jù)可以放在mysql中,湖北的數(shù)據(jù)可以在oracle中,北京的數(shù)據(jù)可能在Txt文件中,上海的數(shù)據(jù)可能在Word文檔中;這個(gè)數(shù)據(jù)集和這個(gè)分析都是有價(jià)值的,但是平均到每一條數(shù)據(jù),價(jià)值又非常有限。也就是說,這個(gè)問題是符合4V特征的,但是這個(gè)問題怎么看都“太簡(jiǎn)單”了,年齡加起來求平均即可,不能成為真正意義上的“大數(shù)據(jù)問題”。
大數(shù)據(jù)要求數(shù)據(jù)處理復(fù)雜,不能腦袋一拍就可以想出辦法,不能套用現(xiàn)有的、成熟的數(shù)據(jù)庫(kù)工具簡(jiǎn)單得到答案。
【其他定義】
除了上述主流的定義,還有人使用3S或者3I描述大數(shù)據(jù)的特征。
3S指的是:大小(Size)、速度(Speed)和結(jié)構(gòu)(Structure)。
3I指的是:
(1)、定義不明確的(Ill-de.ned):多個(gè)主流的大數(shù)據(jù)定義都強(qiáng)調(diào)了數(shù)據(jù)規(guī)模需要超過傳統(tǒng)方法處理數(shù)據(jù)的規(guī)模,而隨著技術(shù)的進(jìn)步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也會(huì)相應(yīng)不斷變大,因而并沒有一個(gè)明確的標(biāo)準(zhǔn)。
(2)、令人生畏的(InTImidaTIng):從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用大數(shù)據(jù)的過程中充滿了各種挑戰(zhàn)。
(3)、即時(shí)的(Immediate):數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減,因此為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得數(shù)據(jù)洞察之間的時(shí)間,使得大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù),這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。