用戶名: 密碼: 驗證碼:

鄔賀銓:我們需要國家大數(shù)據(jù)戰(zhàn)略

摘要:在日前舉行的第十屆國家信息化專家論壇上,中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓指出,大數(shù)據(jù)需要更強調數(shù)據(jù)挖掘利用,而針對目前存在的技術應用、人才、安全隱私等問題,最關鍵的是要有國家大數(shù)據(jù)戰(zhàn)略,使其成為轉變經(jīng)濟增長方式的有效抓手。

  ICCSZ訊 “不要被大數(shù)據(jù)(Big Data)的‘Big’誤導,大數(shù)據(jù)更強調的不是數(shù)據(jù)大,而是數(shù)據(jù)挖掘。”在日前舉行的第十屆國家信息化專家論壇上,中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓指出,大數(shù)據(jù)需要更強調數(shù)據(jù)挖掘利用,而針對目前存在的技術應用、人才、安全隱私等問題,最關鍵的是要有國家大數(shù)據(jù)戰(zhàn)略,使其成為轉變經(jīng)濟增長方式的有效抓手。

  大數(shù)據(jù)的價值好似沙里淘金

  NBA從上世紀80年代開始將球員在賽場上的表現(xiàn)數(shù)據(jù)化,經(jīng)過30多年的積累已經(jīng)達到可辨別每一個球員在場上的弱點,方便教練進行針對性戰(zhàn)術安排。目前30家NBA球隊俱樂部已有半數(shù)聘請了數(shù)據(jù)分析師,他們的平均勝率達到59.3%,而沒有進行數(shù)據(jù)分析的球隊僅有平均40.7%的勝率。這就是大數(shù)據(jù)的價值體現(xiàn)。

  大數(shù)據(jù)的價值究竟從何而來?鄔賀銓認為,數(shù)據(jù)大與價值大未必成正比。例如將一個人每分鐘的身體數(shù)據(jù)記錄下來,對了解該人的身體狀況是有用的,但如果將他的每毫秒的身體數(shù)據(jù)都記錄下來,數(shù)據(jù)量將較前者高6萬倍,與按每分鐘記錄的數(shù)據(jù)相比,其價值并不能增加。大數(shù)據(jù)的價值在于樣本數(shù)的普遍性。統(tǒng)計一個人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計60個人每小時的身體狀況數(shù)據(jù)相比,可能后者在統(tǒng)計上更有意義。大數(shù)據(jù)往往是低價值密度。大數(shù)據(jù)中多數(shù)數(shù)據(jù)可能是重復的,忽略其中一些數(shù)據(jù)并不影響對其挖掘的效果。因此可以說大數(shù)據(jù)的價值好似沙里淘金和海底撈針。

  微軟的研究發(fā)現(xiàn),F(xiàn)acebook 90%的Hadoop任務數(shù)據(jù)集在100GB以下,Yahoo平均為12.5GB。北京公交一卡通乘客每天刷卡4000萬次、地鐵1000萬人次,每天累計的數(shù)據(jù)是MB級,一年下來也不到TB級,充其量只是中數(shù)據(jù),但對這一數(shù)據(jù)量的挖掘顯然就能得出北京人群使用公交的出行規(guī)律,對于優(yōu)化北京公交線路的設置有足夠的價值。因此鄔賀銓指出,事實上小數(shù)據(jù)也值得重視,對未到TB級規(guī)模的數(shù)據(jù)的挖掘也有價值。

  網(wǎng)絡的數(shù)據(jù)并非都可信

  Google的流感指數(shù)在2008年H7N1流感爆發(fā)時給出的預測比美國疾控中心早兩周發(fā)布,與其數(shù)據(jù)相似度0.9。美國紐約州2013年1月流感流行狀況十分嚴峻,政府發(fā)布了“公共健康緊急狀態(tài)”的通告,大眾媒體的廣泛報道,影響了谷歌用戶的搜索因為,導致Google的流感指數(shù)估值出現(xiàn)了假陽性,遠高于疾控中心的統(tǒng)計數(shù)值。在谷歌流感指數(shù)的啟發(fā)下,紐約羅切斯特大學利用Twitter的數(shù)據(jù)進行了嘗試,可以提前8天預報流感對人體的侵襲狀況,而且準確率高達90%,不過Twitter的使用者大部分是年輕人,而季節(jié)性流感的襲擾對象多為抵抗力較弱的老年人和兒童,因此基于Twitter的微博判斷流感有片面性。

  鄔賀銓由此指出,網(wǎng)絡的數(shù)據(jù)并非都可信。網(wǎng)絡數(shù)據(jù)中真?zhèn)位祀s,特別是微博傳播不實消息散布很快,而微信圈子內(nèi)的消息不易監(jiān)控,對信息內(nèi)容管理提出挑戰(zhàn)。過去往往認為“有圖有真相”,事實上圖片可以移花接木、張冠李戴、時空錯亂,或者照片是對的,可是文字解釋是捏造的,這樣的事情已經(jīng)屢見不鮮。鑒于“謠言轉發(fā)500次就是傳謠”,一些網(wǎng)站規(guī)定所有帖子不論是否真實一律對轉發(fā)自動封頂不超過499次,從輿情收集效果看,人為的截尾導致失去真實性。

  他也指出,傳感器收集的數(shù)據(jù)并非都是可信的,特別是歷史上該傳感器的數(shù)據(jù)與同類的其他傳感器報出的數(shù)據(jù)差異很大時,該數(shù)據(jù)就應棄用。既然數(shù)據(jù)會有重復而且并非都是全部有用的,因此需要進行數(shù)據(jù)過濾,這對簡化存儲和提高可信性都是有意義的。還可以利用異構多源數(shù)據(jù)來提高可信性,收集多源異構的數(shù)據(jù)有利于對數(shù)據(jù)的理解。例如通過城市交通監(jiān)控系統(tǒng)可以實時掌握交通流量,如果加上政府數(shù)據(jù)和網(wǎng)絡數(shù)據(jù),就可能知道發(fā)生交通擁堵的原因。

  要重視數(shù)據(jù)的挖掘利用

  大數(shù)據(jù)的挖掘深化了信息技術的應用,催生新的應用和新業(yè)態(tài)出現(xiàn),大數(shù)據(jù)提升了管理和決策的智能化水平,鄔賀銓提出要重視數(shù)據(jù)的挖掘利用,不僅是大數(shù)據(jù),中小數(shù)據(jù)的挖掘也有意義。

  大數(shù)據(jù)的量越大處理難度越大,但僅僅是需要更多的服務器或者說需要更高速的服務器。鄔賀銓認為,大數(shù)據(jù)的主要挑戰(zhàn)是實時性數(shù)據(jù)變化快。對于靜態(tài)的數(shù)據(jù),可以將數(shù)據(jù)帶進程序來處理,但對于動態(tài)的數(shù)據(jù),需要帶程序進數(shù)據(jù)。大數(shù)據(jù)更大的挑戰(zhàn)是品種多,特別是非結構化。對于結構化數(shù)據(jù)可以使用關系數(shù)據(jù)庫技術來處理,對于非結構化數(shù)據(jù)則要用NoSQL來處理。針對結構化數(shù)據(jù)的虛擬存儲平臺采用了動態(tài)分層技術,根據(jù)數(shù)據(jù)被調用的頻率,自動將常用的數(shù)據(jù)搬到最高層。針對非結構化數(shù)據(jù)使用內(nèi)容歸檔平臺,把結構化和非結構化數(shù)據(jù)集成到一個單一的動態(tài)歸檔架構中,設計一套軟件和元數(shù)據(jù)庫規(guī)則,通過給數(shù)據(jù)加標簽的方式,建立不同維度,從而具有模糊查詢功能。

  鄔賀銓指出,“大”僅僅是大數(shù)據(jù)的特征之一,大數(shù)據(jù)包括ABC三個要素:大分析(Analytic)、高帶寬(Bandwidth)、大內(nèi)容(Content)。實時性是大數(shù)據(jù)挖掘的挑戰(zhàn),而非結構化是大數(shù)據(jù)挖掘的主要挑戰(zhàn)。目前國際上大數(shù)據(jù)處理技術主要還是結構性數(shù)據(jù),據(jù)說大數(shù)據(jù)中80%以上都是非結構性數(shù)據(jù)。2012年斯坦福大學與Google合作建立深度學習網(wǎng)絡,對來自YouTube的上千萬幅視頻幀自主學習,用10天學會了識別貓的臉孔,然后從2萬張未見過的照片中找貓,準確率僅達到15.8%。可見非結構性數(shù)據(jù)的挖掘技術到實用還有相當距離。目前國內(nèi)外都有很多大數(shù)據(jù)應用成功例子,但基本上還是結構性數(shù)據(jù),對結構性數(shù)據(jù)的挖掘是大數(shù)據(jù)應用的切入點。

  大數(shù)據(jù)的挑戰(zhàn)最終是戰(zhàn)略問題 鄔賀銓指出,當前大數(shù)據(jù)面臨的問題主要表現(xiàn)在技術和應用、人才、安全隱私、發(fā)展戰(zhàn)略等方面。

  首先是技術和應用問題。中國人口居世界首位,但2010年中國新存儲的數(shù)據(jù)為250PB,僅為日本的60%和北美的7%。我國一些部門和機構擁有大量數(shù)據(jù)但以鄰為壑,寧愿自己不用也不愿提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數(shù)據(jù)存儲量達到364EB,其中55%(200EB)的數(shù)據(jù)需要一定程度的保護,然而目前只有不到一半(44%,即96EB)的數(shù)據(jù)得到保護。我國在自主可控的大數(shù)據(jù)分析技術與產(chǎn)品方面與發(fā)達國家相比有不少差距。國內(nèi)企業(yè)在數(shù)據(jù)庫、數(shù)據(jù)倉庫、商業(yè)智能分析軟件等領域基礎薄弱,尤其是大數(shù)據(jù)方面已經(jīng)遠遠落后于國外先進企業(yè)。

  其次是人才問題。500年前達·芬奇可以同時是畫家、音樂家、工程師、科學家,100年前的醫(yī)生可以了解醫(yī)學領域的所有分支,今天一名初級醫(yī)生必須同時了解大約一萬種疾病和綜合征、3000種藥物和1100種檢驗方法。估計一個專業(yè)的醫(yī)生也需要每天學習21小時才能跟得上學科的發(fā)展。Gartner咨詢公司預測大數(shù)據(jù)將為全球帶來440萬個IT新崗位和上千萬個非IT崗位,麥肯錫公司預計美國到2018年深度數(shù)據(jù)分析人才缺口達14萬~19萬人,還需要數(shù)據(jù)需求和技術及應用的管理者150萬人。中國能理解與應用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。

  然后是安全與隱私問題。大數(shù)據(jù)的利用首先要求政府數(shù)據(jù)原則上該公開的必須公開。大數(shù)據(jù)的挖掘與利用需要有法可依。我國需要盡快制定“信息保護法”和“信息公開法”,既要鼓勵面向群體而且服務于社會的數(shù)據(jù)挖掘,又要防止針對個體侵犯隱私的行為,提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。安全與隱私保護的隱患仍大量存在,重要的數(shù)據(jù)存儲和應用不能過分依賴大數(shù)據(jù)分析技術與平臺,需要重視信息泄密的風險。

  最后是發(fā)展戰(zhàn)略問題。信息化要從重視硬件到重視軟件,再到重視數(shù)據(jù)的利用,不僅大數(shù)據(jù),中小數(shù)據(jù)的挖掘也有意義。需要制定國家大數(shù)據(jù)發(fā)展戰(zhàn)略,大數(shù)據(jù)是一個應用驅動性很強的服務,其標準和產(chǎn)業(yè)格局尚未形成,這是我國跨越發(fā)展的機會,但切忌一哄而起在目的不明情況下到處建設大數(shù)據(jù)中心,到處搞“數(shù)據(jù)房地產(chǎn)”,而是需要從戰(zhàn)略上重視大數(shù)據(jù)的開發(fā)利用,將它作為轉變經(jīng)濟增長方式的有效抓手。

【加入收藏夾】  【推薦給好友】 
免責聲明:凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品,版權均屬于光通訊咨詢網(wǎng),未經(jīng)本網(wǎng)授權不得轉載、摘編或利用其它方式使用上述作品。 已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內(nèi)使用,反上述聲明者,本網(wǎng)將追究其相關法律責任。
※我們誠邀媒體同行合作! 聯(lián)系方式:訊石光通訊咨詢網(wǎng)新聞中心 電話:0755-82960080-188   debison