大數(shù)據(jù)的前世今生 |
|||
來(lái)源: | 發(fā)布時(shí)間:2015年05月19日|||
摘要:
|
|||
什么是大數(shù)據(jù)(big data)?它在百度百科上的概念是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。 這 個(gè)晦澀難懂的概念用一個(gè)例子就能說(shuō)清,劉邦為什么能戰(zhàn)勝項(xiàng)羽?在歷史的角度上原因很多,但從今天的話題來(lái)看,因?yàn)閯钫莆樟恕按髷?shù)據(jù)”。劉邦的隊(duì)伍進(jìn)入咸 陽(yáng)后,蕭何將秦朝有關(guān)國(guó)家戶(hù)籍、地形、法令等圖書(shū)檔案一律收走。這些秦朝的律令圖書(shū)檔案就相當(dāng)于大數(shù)據(jù),使劉邦對(duì)天下的關(guān)塞險(xiǎn)要、戶(hù)口多寡、強(qiáng)弱形勢(shì)、風(fēng) 俗民情等了如指掌,從而制定了正確的方針政策和律令制度,找到了可靠的依據(jù),對(duì)日后打敗項(xiàng)羽、西漢政權(quán)的建立和鞏固,起到了巨大的作用。這個(gè)故事看似不太 著邊際,卻一目了然的解釋了“大數(shù)據(jù)”的作用。 而在網(wǎng)絡(luò)時(shí)代的當(dāng)下,大數(shù)據(jù)的數(shù)量規(guī)模、復(fù)雜程度早已不是人工可以掌握的, 這個(gè)數(shù)據(jù)量有多大?舉一個(gè)直觀的例子:每天互聯(lián)網(wǎng)上要發(fā)出2940億封郵件,200萬(wàn)篇博客,1288個(gè)新應(yīng)用可供下載,數(shù)據(jù)流量可以刻1.68億張 DVD光盤(pán)。如此數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類(lèi)型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,只有基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式下,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用,才能形成智力 資源和知識(shí)服務(wù)能力。 講到這里,很多概念性的名詞蹦出,比如“云計(jì)算、云平臺(tái)”,恐怕有很多人不明白其含義,以及大數(shù)據(jù)的產(chǎn)生的背景和演變的過(guò)程,大數(shù)據(jù)應(yīng)用的知識(shí)和常識(shí)以對(duì)社會(huì)發(fā)展產(chǎn)生的革命性變化等。對(duì)此我們專(zhuān)訪了中金數(shù)據(jù)系統(tǒng)有限公司云計(jì)算研發(fā)部副總監(jiān)關(guān)懿新。 什么是大數(shù)據(jù) “大數(shù)據(jù)并非新鮮事物,它早就存在,以前在軟件行業(yè),叫數(shù)據(jù)挖掘,企業(yè)通過(guò)報(bào)表、分析、圖表、走向趨勢(shì)、生產(chǎn)量分析其中的關(guān)系,發(fā)掘出能反映的問(wèn)題,數(shù)據(jù)挖掘更多體現(xiàn)在傳統(tǒng)的軟件應(yīng)用里面,只不過(guò)大家不太注意?!标P(guān)懿新說(shuō)道。 其實(shí)大數(shù)據(jù)并非一個(gè)確切的概念。最初這個(gè)概念是指需要處理的信息量過(guò)大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時(shí)所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具,這導(dǎo)致了新的處理技術(shù)的誕生。 “大 數(shù)據(jù)的發(fā)掘能夠被廣泛應(yīng)用也是因?yàn)榧夹g(shù)的進(jìn)步,使得海量的計(jì)算資源可以被計(jì)算。最早因?yàn)楣雀杷阉饕娴尼绕?,建立一套不?duì)外的海量數(shù)據(jù)處理平臺(tái) MapReduce,后來(lái)開(kāi)源的軟件仿照它的理論做了Hadoop平臺(tái)。國(guó)內(nèi)最早的巨型機(jī),比如銀河機(jī)、天河機(jī)也是非常昂貴?!标P(guān)懿新進(jìn)一步說(shuō)到,隨著互 聯(lián)網(wǎng)的發(fā)展,這些技術(shù)使得人們可以處理的數(shù)據(jù)大大增加。而且這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫(kù)表格來(lái)整齊地排列,一些可以消除僵化的層次機(jī)構(gòu)和一致性的技術(shù) 出現(xiàn),互聯(lián)網(wǎng)公司可以收集大量更有價(jià)值的數(shù)據(jù)。 2011年5月,麥肯錫全球研究院發(fā)布了名為《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的 下一個(gè)前沿》的研究報(bào)告,報(bào)告中指出大數(shù)據(jù)將成為企業(yè)的核心資產(chǎn),對(duì)大數(shù)據(jù)的分析將成為競(jìng)爭(zhēng)的關(guān)鍵,并會(huì)引發(fā)新一輪生產(chǎn)力的增長(zhǎng)與創(chuàng)新,對(duì)海量數(shù)據(jù)的有效 利用將成為企業(yè)在競(jìng)爭(zhēng)中取勝的最有利武器。麥肯錫還預(yù)測(cè)通過(guò)對(duì)大數(shù)據(jù)的合理使用可以使零售業(yè)的經(jīng)營(yíng)利潤(rùn)提高60%以上。 麥肯錫的報(bào)告發(fā)出后,大數(shù)據(jù)的概念迅速得到了IT界的熱捧。 隨著平臺(tái)逐步的成熟,當(dāng)這些數(shù)據(jù)進(jìn)入商用,互聯(lián)網(wǎng)公司順利成章地 成為了最新處理技術(shù)的領(lǐng)頭羊,他們甚至超過(guò)了很多有幾十年經(jīng)驗(yàn)的線下公司,成為新技術(shù)的領(lǐng)銜使用者。這僅僅是一個(gè)開(kāi)始,當(dāng)大數(shù)據(jù)時(shí)代進(jìn)入了我們的生活,在 各行各業(yè)遍地開(kāi)花的時(shí)候,正式開(kāi)啟了重大的時(shí)代轉(zhuǎn)型。到今天“大數(shù)據(jù)”的概念已經(jīng)在業(yè)界內(nèi)外和大眾媒體上沸沸揚(yáng)揚(yáng)地廣為傳播,并不斷涌現(xiàn)出這個(gè)方向上的努 力與創(chuàng)新。 云計(jì)算與云平臺(tái) 云計(jì)算的概念最早出現(xiàn)在2006年,在當(dāng)年8月舉行的搜索引擎戰(zhàn)略大會(huì)上,谷歌CEO施密特在回答主持人提問(wèn)的時(shí)候,第一次使用了“云”(cloud)這個(gè)詞來(lái)描述他的服務(wù)器。 其 實(shí)這樣的想法由來(lái)已久。早在1995年,為了對(duì)抗快速崛起的微軟,甲骨文(Oracle)公司的CEO拉里?埃里森就推出了一款名為“網(wǎng)絡(luò)計(jì)算機(jī)”的設(shè) 備,當(dāng)時(shí)售價(jià)500美元,不需要安裝微軟的操作系統(tǒng)就可以使用。埃里森揶揄道:“個(gè)人電腦(PC)是一種可笑的設(shè)備?!彼O(shè)想這樣一臺(tái)設(shè)備,可以像插入插 座獲得電力一樣,即插就能獲得數(shù)據(jù)。但是,這款設(shè)備生不逢時(shí),很快就退出了市場(chǎng),因?yàn)楫?dāng)時(shí)的網(wǎng)絡(luò)傳輸速度極慢,產(chǎn)生的數(shù)據(jù)也沒(méi)有那么大,在自家的電腦上就 可以輕松完成。但是,埃里森的這個(gè)想法卻深深地影響了硅谷,奠定了現(xiàn)在云計(jì)算的雛形。 近幾年云計(jì)算作為一個(gè)時(shí)髦的名詞,在商界、學(xué)術(shù)界甚至政府界都拼命的在各自的產(chǎn)品、技術(shù)、報(bào)告和文件中與之關(guān)聯(lián)。一時(shí)間,云存儲(chǔ)、云手機(jī)、云電腦等概念甚囂塵上,但始終有種云里霧里的感覺(jué)。 “云 計(jì)算是把大量的數(shù)據(jù)資源架構(gòu)在互聯(lián)網(wǎng)上,或者說(shuō)是云端,一個(gè)你看不到,但是能夠給你提供服務(wù)、能夠調(diào)動(dòng)大量的計(jì)算機(jī)資源給你提供服務(wù)的地方。比如說(shuō)你需要 這種服務(wù),需要十臺(tái)計(jì)算機(jī)或者一百臺(tái)計(jì)算機(jī),但你不需要把計(jì)算機(jī)都買(mǎi)過(guò)來(lái),云計(jì)算是可以提供大規(guī)模的計(jì)算機(jī),遠(yuǎn)程地為你提供服務(wù)。”關(guān)懿新解釋道。 云計(jì)算能夠提供可彈性的計(jì)算資源在商業(yè)上為客戶(hù)進(jìn)行服務(wù)。中金曾經(jīng)為某三維動(dòng)畫(huà)制作公司做3D效果的渲染,因?yàn)檫@家公司做完這部片子就不再需要這個(gè)服務(wù),所以不打算購(gòu)買(mǎi)計(jì)算機(jī)但可以租用了中金的計(jì)算機(jī)的服務(wù)。 “客戶(hù)根據(jù)需要多長(zhǎng)時(shí)間、多少臺(tái)機(jī)器來(lái)付費(fèi)就可以了。這樣的服務(wù)在互聯(lián)網(wǎng)企業(yè)剛起步的時(shí)候,需要的資源比較少,可以租少量的服務(wù)器,隨著業(yè)務(wù)的快速擴(kuò)張,可以從云端租用大量的服務(wù)器來(lái)支撐他們的業(yè)務(wù)。”關(guān)懿新說(shuō):“這樣比自己購(gòu)買(mǎi)計(jì)算機(jī)省下了一大筆錢(qián)和精力。” 云 平臺(tái)是海量計(jì)算機(jī)管理的平臺(tái),它是虛擬的平臺(tái),且靈活可變,在中金數(shù)據(jù)系統(tǒng)有限公司采訪時(shí),記者看到了機(jī)房里一臺(tái)臺(tái)服務(wù)器,云平臺(tái)的概念是用一個(gè)軟件把這 一百臺(tái)服務(wù)器管理起來(lái),需要計(jì)算的時(shí)候就在上面產(chǎn)生一臺(tái)虛擬機(jī)器,而這臺(tái)機(jī)器所用的CPU是下面一百臺(tái)物理機(jī)提供的。因?yàn)橐慌_(tái)物理機(jī)可以根據(jù)它的能力產(chǎn)生 若干臺(tái)虛擬的計(jì)算機(jī),所以客戶(hù)可以根據(jù)需求來(lái)定制這臺(tái)虛擬計(jì)算機(jī)來(lái)提供服務(wù),服務(wù)完成之后這臺(tái)虛擬計(jì)算機(jī)就自動(dòng)消掉了。 云平 臺(tái)分為幾個(gè)層次,IAAS基礎(chǔ)層是虛擬機(jī)一層,負(fù)責(zé)動(dòng)態(tài)管理物理資源,PAAS平臺(tái)層提供更基礎(chǔ)的軟件層,一般面向開(kāi)發(fā)商,提供報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)的 服務(wù)。SAAS是軟件層,直接提供軟件服務(wù),為客戶(hù)直接從手機(jī)端、PC端提供服務(wù),客戶(hù)直接從軟件上看到結(jié)果。比如輿情服務(wù)、信息推薦等。 大數(shù)據(jù)與云計(jì)算 大 數(shù)據(jù)催生了云計(jì)算,反過(guò)來(lái),云計(jì)算又進(jìn)一步激發(fā)了人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)。從表面上看,大數(shù)據(jù)和云計(jì)算是兩個(gè)完全不同的概念,從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān) 系就像一對(duì)完美搭檔,二者存在很多的交集,相互依賴(lài)。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)的挖掘,但 它必須依托云計(jì)算的分布式處理。 大數(shù)據(jù)的出現(xiàn),為云計(jì)算提供了釋放能量的空間,也指明了云計(jì)算真正有價(jià)值的方向。大數(shù)據(jù)對(duì)云 環(huán)境有著很高的依賴(lài),云計(jì)算不僅大大提高了企業(yè)處理大數(shù)據(jù)的計(jì)算能力,而且不需要投入和管理過(guò)多的硬件設(shè)備,按照需要進(jìn)行付費(fèi),有效地優(yōu)化現(xiàn)有的資源。從 這一層意義上來(lái)說(shuō),云計(jì)算為大數(shù)據(jù)提供了保管的場(chǎng)所和暢通的訪問(wèn)渠道。大數(shù)據(jù)作為企業(yè)的核心資產(chǎn),對(duì)其進(jìn)行有效的盤(pán)活,發(fā)掘出其在商業(yè)決策中的巨大價(jià)值是 云計(jì)算的內(nèi)在靈魂和必然的升級(jí)方向。 “互聯(lián)網(wǎng)公司通過(guò)云計(jì)算為企業(yè)提供服務(wù),近些年在全國(guó)建立了很多數(shù)據(jù)中心,當(dāng)時(shí)提倡的概 念是集約化建設(shè)。通過(guò)建設(shè)集中的數(shù)據(jù)中心之后,很多單位只需要租用數(shù)據(jù)中心的服務(wù)?!标P(guān)懿新打了個(gè)比方:“簡(jiǎn)單說(shuō),原來(lái)各個(gè)單位都在建小機(jī)房,后來(lái)集中成 一個(gè)大機(jī)房,提供動(dòng)態(tài)的資源分配為各個(gè)單位服務(wù)?!?/p> 逐漸這個(gè)概念得到推廣,政府把原來(lái)只是在IT界的“云計(jì)算”推廣得更大、 更遠(yuǎn),開(kāi)始建設(shè)云計(jì)算中心?!按蠹s從2010年開(kāi)始,云計(jì)算的計(jì)算能力升級(jí),能夠把若干臺(tái)機(jī)器統(tǒng)一管理,進(jìn)行大規(guī)模的運(yùn)算,能對(duì)海量的數(shù)據(jù)進(jìn)行運(yùn)算。于是 互聯(lián)網(wǎng)公司把數(shù)據(jù)挖掘應(yīng)用的更加廣泛。云計(jì)算中心分為幾種,一種是私有云,在政府或企業(yè)范圍內(nèi)建作內(nèi)部使用;一種是公有云,在互聯(lián)網(wǎng)企業(yè)界,比如微軟、谷 歌、阿里巴巴等,公眾可以訪問(wèn),但云計(jì)算的安全性、可用性以及成本等方面仍存在諸多的疑慮;另一種是混合云,就是把私有云和公有云混合在一起?!标P(guān)懿新說(shuō) 道:“當(dāng)大數(shù)據(jù)和百姓的衣食住行息息相關(guān)時(shí),是它推廣速度最快的時(shí)候。比如前一段出現(xiàn)的騰訊推出的嘀嘀打車(chē)、平安推出的網(wǎng)絡(luò)保險(xiǎn),就是基于大數(shù)據(jù)的分析和 挖掘,對(duì)數(shù)據(jù)進(jìn)行分析,推算出用戶(hù)的需求,產(chǎn)生商業(yè)的應(yīng)用來(lái)影響到每個(gè)人的生活?!?/p> “什么是大數(shù)據(jù)?”當(dāng)我們?cè)倩仡^思考時(shí),這個(gè)問(wèn)題看似簡(jiǎn)單,卻也很難回答。仁者見(jiàn)仁,智者見(jiàn)智,有人說(shuō),大數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。也有人說(shuō)大數(shù)據(jù)像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而大部分隱藏在表面之下…… 大數(shù)據(jù)不僅是一個(gè)技術(shù),未來(lái)或許將成為一個(gè)行業(yè),依然讓人琢磨不透,這就是大數(shù)據(jù)的魅力。 |
|||
|