導讀:大數(shù)據(jù)是一種全新的思維方式和商業(yè)模式。
大家好,我是小棗君。
今天這篇文章,我們來聊聊大數(shù)據(jù)。
近年來,大數(shù)據(jù)這個詞的熱度很高,受到公眾的廣泛關(guān)注。
對于很多人來說,當他第一次聽到“大數(shù)據(jù)”這個詞,會自然而然從字面上去理解——認為大數(shù)據(jù)就是大量的數(shù)據(jù),大數(shù)據(jù)技術(shù)就是大量數(shù)據(jù)的存儲技術(shù)。
但事實上,它并不只是一項存儲技術(shù),而是一系列和海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù)。大數(shù)據(jù)系統(tǒng),是一個龐大的框架系統(tǒng)。
更進一步來說,大數(shù)據(jù)是一種全新的思維方式和商業(yè)模式。
圖片來自網(wǎng)絡(luò)
今天這篇文章,就讓我們來深入了解一下,到底什么是大數(shù)據(jù)。
大數(shù)據(jù)的定義
首先,我們看看大數(shù)據(jù)的定義。
行業(yè)里對大數(shù)據(jù)的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大數(shù)據(jù),是指物理世界到數(shù)字世界的映射和提煉。通過發(fā)現(xiàn)其中的數(shù)據(jù)特征,從而做出提升效率的決策行為。
狹義的定義,是技術(shù)工程師給的——大數(shù)據(jù),是通過獲取、存儲、分析,從大容量數(shù)據(jù)中挖掘價值的一種全新的技術(shù)架構(gòu)。
相比較而言,狹義定義更好理解一些。
大家注意,關(guān)鍵詞我都在上面原句加粗了:
要做什么?——獲取數(shù)據(jù)、存儲數(shù)據(jù)、分析數(shù)據(jù)
對誰做?——大容量數(shù)據(jù)
目的是什么?——挖掘價值
獲取數(shù)據(jù)、存儲數(shù)據(jù)、分析數(shù)據(jù),這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然后存在電腦里,統(tǒng)計分析有多少人遲到、缺勤,然后扣TA工資。
但是,同樣的行為,放在大數(shù)據(jù)身上,就行不通了。換言之,傳統(tǒng)個人電腦,傳統(tǒng)常規(guī)軟件,無力應(yīng)對的數(shù)據(jù)級別,才叫“大數(shù)據(jù)”。
大數(shù)據(jù),到底有多大?
我們傳統(tǒng)的個人電腦,處理的數(shù)據(jù),是GB/TB級別。例如,我們的硬盤,現(xiàn)在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關(guān)系,大家應(yīng)該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數(shù)據(jù)是什么級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續(xù)乘以1024:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。
普通硬盤
1PB,需要大約2個機柜的存儲設(shè)備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。。。
2個機柜
1EB,需要大約2000個機柜的存儲設(shè)備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。
21個籃球場
阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,數(shù)據(jù)量據(jù)說已經(jīng)接近EB級。
阿里數(shù)據(jù)中心內(nèi)景
EB還不是最大的。目前全人類的數(shù)據(jù)量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被創(chuàng)建和復制的數(shù)據(jù)總量是1.8ZB。
而到2020年,全球電子設(shè)備存儲的數(shù)據(jù),將達到35ZB。如果建一個機房來存儲這些數(shù)據(jù),那么,這個機房的面積將比42個鳥巢體育場還大。
數(shù)據(jù)量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大數(shù)據(jù)應(yīng)用,還沒有達到ZB級,主要集中在PB/EB級別。
大數(shù)據(jù)的級別定位
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
數(shù)據(jù)的來源
數(shù)據(jù)的增長,為什么會如此之快?
說到這里,就要回顧一下人類社會數(shù)據(jù)產(chǎn)生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被發(fā)明之后的階段。尤其是數(shù)據(jù)庫被發(fā)明之后,使得數(shù)據(jù)管理的復雜度大大降低。各行各業(yè)開始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫中。這時的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主(待會解釋什么是“結(jié)構(gòu)化數(shù)據(jù)”)。數(shù)據(jù)的產(chǎn)生方式,也是被動的。
世界上第一臺通用計算機-ENIAC
第二個階段,是伴隨著互聯(lián)網(wǎng)2.0時代出現(xiàn)的?;ヂ?lián)網(wǎng)2.0的最重要標志,就是用戶原創(chuàng)內(nèi)容。隨著互聯(lián)網(wǎng)和移動通信設(shè)備的普及,人們開始使用博客、facebook、youtube這樣的社交網(wǎng)絡(luò),從而主動產(chǎn)生了大量的數(shù)據(jù)。
第三個階段,是感知式系統(tǒng)階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點開始自動產(chǎn)生大量的數(shù)據(jù),例如遍布世界各個角落的傳感器、攝像頭。
經(jīng)過了“被動-主動-自動”這三個階段的發(fā)展,最終導致了人類數(shù)據(jù)總量的極速膨脹。
大數(shù)據(jù)的4個V
行業(yè)里對大數(shù)據(jù)的特點,概括為4個V。
前面所說的龐大數(shù)據(jù)體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
Variety(多樣化)
數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。
數(shù)據(jù)又分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
從名字可以看出,結(jié)構(gòu)化數(shù)據(jù),是指可以用預先定義的數(shù)據(jù)模型表述,或者,可以存入關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結(jié)構(gòu)化數(shù)據(jù)。
而網(wǎng)頁文章、郵件內(nèi)容、圖像、音頻、視頻等,都屬于非結(jié)構(gòu)話數(shù)據(jù)。
在互聯(lián)網(wǎng)領(lǐng)域里,非結(jié)構(gòu)化數(shù)據(jù)的占比已經(jīng)超過整個數(shù)據(jù)量的80%。
大數(shù)據(jù),就符合這樣的特點:數(shù)據(jù)形式多樣化,且非結(jié)構(gòu)化數(shù)據(jù)占比高。
Velocity(時效性)
大數(shù)據(jù)還有一個特點,那就是時效性。從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現(xiàn)在的按秒甚至毫秒變化。
我們還是用數(shù)字來說話:
就在剛剛過去的這一分鐘,數(shù)據(jù)世界里發(fā)生了什么?
Email:2.04億封被發(fā)出
Google:200萬次搜索請求被提交
Youtube:2880分鐘的視頻被上傳
Facebook:69.5萬條狀態(tài)被更新
Twitter:98000條推送被發(fā)出
12306:1840張車票被賣出
……
怎么樣?是不是瞬息萬變?
Value(價值密度)
最后一個特點,就是價值密度。
大數(shù)據(jù)的數(shù)據(jù)量很大,但隨之帶來的,就是價值密度很低,數(shù)據(jù)中真正有價值的,只是其中的很少一部分。
例如通過監(jiān)控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鐘。
2014年美國波士頓爆炸案,現(xiàn)場調(diào)取了10TB的監(jiān)控數(shù)據(jù)(包括移動基站的通訊記錄,附近商店、加油站、報攤的監(jiān)控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。
大數(shù)據(jù)的價值
剛才說到價值密度,也就說到了大數(shù)據(jù)的核心本質(zhì),那就是價值。
人類提出大數(shù)據(jù)、研究大數(shù)據(jù)的主要目的,就是為了挖掘大數(shù)據(jù)里面的價值。
大數(shù)據(jù),究竟有什么價值?
早在1980年,著名未來學家阿爾文·托夫勒在他的著作《第三次浪潮》中,就明確提出:“數(shù)據(jù)就是財富”,并且,將大數(shù)據(jù)稱為“第三次浪潮的華彩樂章”。
第一次浪潮:農(nóng)業(yè)階段,約1萬年前開始
第二次浪潮:工業(yè)階段,17世紀末開始
第三次浪潮:信息化階段,20世紀50年代后期開始
進入21世紀之后,隨著前面所說的第二第三階段的發(fā)展,移動互聯(lián)網(wǎng)崛起,存儲能力和云計算能力飛躍,大數(shù)據(jù)開始落地,也引起了越來越多的重視。
2012年的世界經(jīng)濟論壇指出:“數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣和黃金一樣”。這無疑將大數(shù)據(jù)的價值推到了前所未有的高度層面上。
如今,大數(shù)據(jù)應(yīng)用開始走進我們的生活,影響我們的衣食住行。
滴滴的大數(shù)據(jù)殺熟,相信大家都有所耳聞
之所以大數(shù)據(jù)會有這么快的發(fā)展,就是因為越來越多的行業(yè)和企業(yè),開始認識到大數(shù)據(jù)的價值,開始試圖參與挖掘大數(shù)據(jù)的價值。
歸納來說,大數(shù)據(jù)的價值主要來自于兩個方面:
1 幫助企業(yè)了解用戶
大數(shù)據(jù)通過相關(guān)性分析,將客戶和產(chǎn)品、服務(wù)進行關(guān)系串聯(lián),對用戶的偏好進行定位,從而提供更精準、更有導向性的產(chǎn)品和服務(wù),提升銷售業(yè)績。
典型的例子就是電商。
像阿里淘寶這樣的電子商務(wù)平臺,積累了大量的用戶購買數(shù)據(jù)。在早期的時候,這些數(shù)據(jù)都是累贅和負擔,存儲它們需要大量的硬件成本。但是,現(xiàn)在這些數(shù)據(jù)都是阿里最寶貴的財富。
通過這些數(shù)據(jù),可以分析用戶行為,精準定位目標客群的消費特點、品牌偏好、地域分布,從而引導商家的運營管理、品牌定位、推廣營銷等。
大數(shù)據(jù)可以對業(yè)績產(chǎn)生直接影響。它的效率和準確性,遠遠超過傳統(tǒng)的用戶調(diào)研。
除了電商,包括能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運輸、公共事業(yè)等,都是大數(shù)據(jù)的用武之地。
大數(shù)據(jù)甚至能夠幫助競選總統(tǒng)
2 幫助企業(yè)了解自己
除了幫助了解用戶之外,大數(shù)據(jù)還能幫助了解自己。
企業(yè)生產(chǎn)經(jīng)營需要大量的資源,大數(shù)據(jù)可以分析和鎖定資源的具體情況,例如儲量分布和需求趨勢。這些資源的可視化,可以幫助企業(yè)管理者更直觀地了解企業(yè)的運作狀態(tài),更快地發(fā)現(xiàn)問題,及時調(diào)整運營策略,降低經(jīng)營風險。
總而言之,“知己知彼,百戰(zhàn)百勝”。大數(shù)據(jù),就是為決策服務(wù)的。
大數(shù)據(jù)和云計算
說到這里,我們要回答一個很多人心里都存在的疑惑——大數(shù)據(jù)和云計算之間,到底有什么關(guān)系?
可以這么解釋:數(shù)據(jù)本身是一種資產(chǎn),而云計算,則是為挖掘資產(chǎn)價值提供合適的工具。
從技術(shù)上,大數(shù)據(jù)是依賴于云計算的。云計算里面的海量數(shù)據(jù)存儲技術(shù)、海量數(shù)據(jù)管理技術(shù)、分布式計算模型等,都是大數(shù)據(jù)技術(shù)的基礎(chǔ)。
云計算就像是挖掘機,大數(shù)據(jù)就是礦山。如果沒有云計算,大數(shù)據(jù)的價值就發(fā)揮不出來。
相反的,大數(shù)據(jù)的處理需求,也刺激了云計算相關(guān)技術(shù)的發(fā)展和落地。
也就是說,如果沒有大數(shù)據(jù)這座礦山,云計算這個挖掘機,很多強悍的功能都發(fā)展不起來。
套用一句老話——云計算和大數(shù)據(jù),兩者是相輔相成的。
大數(shù)據(jù)和物聯(lián)網(wǎng)(5G)
第二個問題,大數(shù)據(jù)和物聯(lián)網(wǎng)有什么關(guān)系?
這個問題我覺得大家應(yīng)該能夠很快想明白,前面其實也提到了。
物聯(lián)網(wǎng)就是“物與物互相連接的互聯(lián)網(wǎng)”。物聯(lián)網(wǎng)的感知層,產(chǎn)生了海量的數(shù)據(jù),將會極大地促進大數(shù)據(jù)的發(fā)展。
同樣,大數(shù)據(jù)應(yīng)用也發(fā)揮了物聯(lián)網(wǎng)的價值,反向刺激了物聯(lián)網(wǎng)的使用需求。越來越多的企業(yè),發(fā)覺能夠通過物聯(lián)網(wǎng)大數(shù)據(jù)獲得價值,就會愿意投資建設(shè)物聯(lián)網(wǎng)。
其實這個問題也可以進一步延伸為“大數(shù)據(jù)和5G之間的關(guān)系”。
即將到來的5G,通過提升連接速率,提升了“人聯(lián)網(wǎng)”的感知,也促進了人類主動創(chuàng)造數(shù)據(jù)。
另一方面,它更多是為“物聯(lián)網(wǎng)”服務(wù)的。包括低延時、海量終端連接等,都是物聯(lián)網(wǎng)場景的需求。
5G刺激物聯(lián)網(wǎng)的發(fā)展,而物聯(lián)網(wǎng)刺激大數(shù)據(jù)的發(fā)展。所有通信基礎(chǔ)設(shè)施的強大,都是為大數(shù)據(jù)崛起鋪平道路。
大數(shù)據(jù)的產(chǎn)業(yè)鏈
接下來再說說大數(shù)據(jù)的產(chǎn)業(yè)鏈。
大數(shù)據(jù)的產(chǎn)業(yè)鏈,和大數(shù)據(jù)的處理流程是緊密相關(guān)的。簡單來說,就是生產(chǎn)數(shù)據(jù)、聚合數(shù)據(jù)、分析數(shù)據(jù)、消費數(shù)據(jù)。
每個環(huán)節(jié),都有相應(yīng)的角色玩家。如下圖:
從目前的情況來看,國外廠商在大數(shù)據(jù)產(chǎn)業(yè)占據(jù)了較大的份額,尤其是上游領(lǐng)域,基本上都是國外企業(yè)。國內(nèi)IT企業(yè)相比而言,存在較大的差距。
大數(shù)據(jù)相關(guān)重點領(lǐng)域及企業(yè)(技術(shù))
大數(shù)據(jù)的挑戰(zhàn)
說了那么多大數(shù)據(jù)的好話,并不代表大數(shù)據(jù)是完美的。
大數(shù)據(jù)也面臨著很多挑戰(zhàn)。
除了數(shù)據(jù)管理技術(shù)難度之外,大數(shù)據(jù)的最大挑戰(zhàn),就是安全。
數(shù)據(jù)是資產(chǎn),也是隱私。沒有人愿意自己的隱私被暴露,所以,人們對自己的隱私保護越來越重視。政府也在不斷加強對公民隱私權(quán)的保護,出臺了很多法律。
歐盟在2018年出臺了有史以來最嚴厲的GDPR(《一般數(shù)據(jù)保護法案》),把網(wǎng)絡(luò)數(shù)據(jù)保護上升到前所未有的高度
在這種情況下,企業(yè)獲取用戶數(shù)據(jù),就需要慎重考慮,是否符合倫理和法律。一旦違法,將付出極為沉重的代價。
此外,即使企業(yè)合法獲取數(shù)據(jù),也要擔心是否會被惡意攻擊和竊取。這里面的風險也是不容忽視的。
除了安全之外,大數(shù)據(jù)還要面臨能耗等方面的問題。
換言之,如果不能很好地保護和利用手里的大數(shù)據(jù),那么它就是一個燙手的山芋,有還不如沒有。
好啦,洋洋灑灑寫了這么多,相信大家已經(jīng)對大數(shù)據(jù)有了初步的了解。
后續(xù),小棗君將重點介紹大數(shù)據(jù)的關(guān)鍵框架和技術(shù)棧,包括大家非常關(guān)心的Hadoop、Spark、HDFS、MapReduce等概念,都將一一進行解讀。
敬請期待!
掃一掃在手機上閱讀本文章