大數據 -網路名詞

大數據

大數據(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程最佳化能力的海量、高增長率和多樣化的信息資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

  • 中文名稱
    大數據
  • 外文名稱
    big data,mega data
  • 別    稱
    巨量資料
  • 提出時間
    2008年8月中旬
  • v4特點
    大量、高速、多樣、價值
  • 提出者
    維克托·邁爾-舍恩伯格及肯尼斯·庫克耶
  • 套用學科
    計算機

概念

大數據大數據

“大數據”是指以多元形式,自許多來源蒐集而來的龐大數據組,往往具有實時性。在企業對企業銷售的情況下,這些數據可能得自社交網路、電子商務網站、顧客來訪紀錄,還有許多其他來源。這些數據,並非公司顧客關係管理資料庫的常態數據組。

從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分散式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分散式處理、分散式資料庫、雲存儲和/或虛擬化技術。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地讚頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為網際網路信息技術行業的流行辭彙。美國網際網路數據中心指出,網際網路上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又並非單純指人們在網際網路上發布的信息,全世界的工業設備、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。

大數據的意義是由人類日益普及的網路行為所伴生的,受到相關部門、企業採集的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據 。2013年5月10日,阿里巴巴集團董事局主席馬雲在淘寶十周年晚會上,將卸任阿里集團CEO的職位,並在晚會上做卸任前的演講,馬雲說,大家還沒搞清PC時代的時候,移動網際網路來了,還沒搞清移動網際網路的時候,大數據時代來了。

借著大數據時代的熱潮,微軟公司生產了一款數據驅動的軟體,主要是為工程建設節約資源提高效率。在這個過程里可以為世界節約40%的能源。拋開這個軟體的前景不看,從微軟團隊致力於研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智慧型化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”微軟史密斯這樣說。而智慧型建築正是他的團隊專注的事情。

從海量數據中“提純”出有用的信息,這對網路架構和數據處理能力而言也是巨大的挑戰。在經歷了幾年的批判、質疑、討論、炒作之後,大數據終於迎來了屬於它的時代。2012年3月22日,歐巴馬政府宣布投資2億美元拉動大數據相關產業發展,將“大數據戰略”上升為國家戰略。歐巴馬政府甚至將大數據定義為“未來的新石油”。

大數據時代已經來臨,它將在眾多領域掀起變革的巨浪。但我們要冷靜的看到,大數據的核心在於為客戶挖掘數據中蘊藏的價值,而不是軟硬體的堆砌。因此,針對不同領域的大數據套用模式、商業模式研究將是大數據產業健康發展的關鍵。我們相信,在國家的統籌規劃與支持下,通過各地方政府因地制宜制定大數據產業發展策略,通過國內外IT龍頭企業以及眾多創新企業的積極參與,大數據產業未來發展前景十分廣闊。

大數據就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。

意義

現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。 阿里巴巴創辦人馬雲來台演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數據科技,顯示大數據對於阿里巴巴集團來說舉足輕重。

有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。

大數據的價值體現在以下幾個方面:

1)對大量消費者提供產品或服務的企業可以利用大數據進行精準行銷

2) 做小而美模式的中長尾企業可以利用大數據做服務轉型

3) 面臨網際網路壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值

不過,“大數據”在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”這確實是需要警惕的。

在這個快速發展的智慧型硬體時代,困擾套用開發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。例如,通過結合大數據和高性能的分析,下面這些對企業有益的情況都可能會發生:

1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。

2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。

3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。

4)根據客戶的購買習慣,為其推送他可能感興趣的優惠信息。

5)從大量客戶中快速識別出金牌客戶。

6)使用點擊流分析和數據挖掘來規避欺詐行為。

介紹

     隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲台》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關係型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據時代的中國塗料行大數據時代的中國塗料行

簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網路日誌、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。

物聯網、雲計算、移動網際網路車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。

領域的套用

在時下商界的流行語中,很難找出一個比“大數據”更吸引眼球的術語了。大數據的顛覆和創新作用幾乎在每個行業都有體現,風電行業也不例外。

上世紀90年代末,美國航空航天局的研究人員創造了大數據一詞,自誕生以來,它一直是一個模糊而誘人的概念,直到最近幾年,才躍升為一個主流辭彙。但是,人們對它的態度卻仍占據了光譜的兩端,一些人對它抱有近乎宗教崇拜的熱情,認為大數據時代將釋放出巨大的價值,是通往未來的必然之途。在一些觀察者眼中,大數據已成為勞動力和資本之外的第三生產力。而懷疑者稱,大數據會威脅到智慧財產權,威脅到隱私保護,無法形成氣候。

產業洞察研究院表示無論如何,大數據在風電領域已有所建樹。

首先,結合了大數據分析和天氣建模技術的能源電力系統能夠提高風電的可靠性。以往對風資源的預測不夠精準,在風能無法貢獻預期功力時,火電就要作為後備電力。這樣,電網對風電的依賴程度越高,需要建設後備電站的成本就越高。另外,啟用火電站的就等於向環境中釋放碳排。然而,在大數據分析的幫助下,溫度、氣壓、濕度、降雨量、風向和風力等變數都得到充分考慮,對風電的預測更加精準。電網調度人員可以提前做好調度安排,也有助於電網消納更多風電。

除了做到更精準的預測,檢測和採集風機的運轉數據、風場的運營數據還有利於風機製造商更好地改善風機的性能,風電場業主在追求風場效益最大化時也離不開大數據。

大數據在風電領域的套用前景看起來很美,但當前存在的問題是,將風機、風場的數據匯集起來並非易事。這些數據分散在風機製造商、風場業主、系統運營商和運維服務商等多個環節手中,他們能從這些數據中得到利益卻無法做到合理分配,所以,有些利益相關方寧願不分享這些數據。

智慧財產權問題也是大數據影響風電進程的一個攔路虎。試想,如果多家風機製造商都公開風機的設計數據,那將是整個行業的幸事,通過交流和分享,風機的設計會有所改善性,性能會提高。但出於商業競爭考慮,風機製造商往往將這些數據視為商業機密、競爭利器,不願公開。同理,風場業主收集和保存的風電運行數據不但有助於他們做出更好的業務決策,也有利於第三方運維企業提供更好的服務,但在實際情況下,運維商卻很難得到這些數據。

風電行業的意義在於向終端消費者提供更穩定、更清潔、更廉價的電力,這是行業存在合理性的根據,也是業界努力的方向。共建並分享運營數據,進而激發這些數據的全部潛力才是風電行業迎接大數據時代的應有姿態。

說明

例子包括網路日誌,RFID,感測器網路,社會網路,社會數據(由於數據革命的社會),網際網路文本和檔案;網際網路搜尋索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務 。籃球比賽當中利用大數據對球員的個人在比賽場上的數據分析,可以幫助比賽變得更加精彩。

價值

大數據最核心的價值就是在於對於海量數據進行存儲和分析。相比起現有的其他技術而言,大數據的“廉價、迅速、最佳化”這三方面的綜合成本是最優的。

優勢

在大數據和大數據分析,他們對企業的影響有一個興趣高漲。大數據分析是研究大量的數據的過程中尋找模式,相關性和其他有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。

一、Hadoop

Hadoop 是一個能夠對大量數據進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。

HadoopHadoop

Hadoop是一個能夠讓用戶輕鬆架構和使用的分散式計算平台。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程式。它主要有以下幾個優點:

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫,比如 C++。

二、HPCC

HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與 通信”的報告,也就是被稱為HPCC計畫的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計畫,該計畫的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆 比特網路技術,擴展研究和教育機構及網路連線能力。

該項目主要由五部分組成:

1、高性能計算機系統(HPCS),內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;

2、先進軟體技術與算法(ASTA),內容有巨大挑戰問題的軟體支撐、新算法設計、軟體分支與工具、計算計算及高性能計算研究中心等;

3、國家科研與教育格線(NREN),內容有中接站及10億位級傳輸的研究與開發;

4、基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高性能計算中來增加創新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯營,和來提供必需的基礎架構來支 持這些調查和研究活動;

5、信息基礎結構技術和套用(IITA ),目的在於保證美國在先進信息技術開發方面的領先地位。

三、Storm

Storm是自由的開源軟體,一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。 Storm很簡單,支持許多種程式語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的套用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。

Storm有許多套用領域:實時分析、線上機器學習、不停頓的計算、分散式RPC(遠過程調用協定,一種通過網路從遠程電腦程式上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設定和操作。

四、Apache Drill

為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為“Drill”的開源項目。Apache Drill 實現了 Google's Dremel.

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,“Drill”已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。

該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數據分析工具的網際網路套用提速)。而“Drill”將有助於Hadoop用戶實現更快查詢海量數據集的目的。

“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程式數據、分析垃圾郵件、分析谷歌分散式構建系統上的測試結果等等。

通過開發“Drill”Apache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。

五、RapidMiner

RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及範圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。

功能和特點

免費提供數據挖掘技術和庫

100%用Java代碼(可運行在作業系統)

數據挖掘過程簡單,強大和直觀

內部XML保證了標準化的格式來表示交換數據挖掘過程

可以用簡單腳本語言自動進行大規模進程

多層次的數據視圖,確保有效和透明的數據

圖形用戶界面的互動原型

命令行(批處理模式)自動大規模套用

Java API(套用編程接口)

簡單的外掛程式和推廣機制

強大的可視化引擎,許多尖端的高維數據的可視化建模

400多個數據挖掘運營商支持

耶魯大學已成功地套用在許多不同的套用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發的方法和分散式數據挖掘。

六、 Pentaho BI

Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智慧型套用的開發。它的出現,使得一系列的面向商務智慧型的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項複雜的、完整的商務智慧型解決方案。

Pentaho BI 平台,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平台上執行的商業智慧型流程。流程可以很容易的被定製,也可以添加新的流程。BI 平台包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平台中來。 Pentaho的發行,主要以Pentaho SDK的形式進行。

Pentaho SDK共包含五個部分:Pentaho平台、Pentaho示例資料庫、可獨立運行的Pentaho平台、Pentaho解決方案示例和一個預先配製好的 Pentaho網路伺服器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台原始碼的主體;Pentaho資料庫為 Pentaho平台的正常運行提供的數據服務,包括配置信息、Solution相關的信息等等,對於Pentaho平台來說它不是必須的,通過配置是可以用其它資料庫服務取代的;可獨立運行的Pentaho平台是Pentaho平台的獨立運行模式的示例,它演示了如何使Pentaho平台在沒有套用伺服器支持的情況下獨立運行;Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平台開發相關的商業智慧型解決方案。

Pentaho BI 平台構建於伺服器,引擎和組件的基礎之上。這些提供了系統的J2EE 伺服器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,數據集成,分析和建模功能。這些組件的大部分是基於標準的,可使用其他產品替換之。

特殊技術

大的數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分散式檔案系統,分散式資料庫,雲計算平台,網際網路,和可擴展的存儲系統

一些但不是所有的MPP的關係資料庫的PB的數據存儲和管理的能力。隱含的負載,監控,備份和最佳化大型數據表的使用在RDBMS的。

管理大數據

我們需要的是以數據為中心的SOA還是以SOA為中心的數據?答案取決於如何處理的SOA-數據關係的三個不同模型來管理大數據、雲數據和數據層次結構。在越來越多的虛擬資源中,將這些模型之間所有類型的數據進行最優擬合是SOA所面臨的巨大挑戰之一。本文詳細介紹了每個SOA模型管理數據的優點、選擇和選項。

SOA的三個數據中心模型分別是數據即服務(DaaS)模型、物理層次結構模型和架構組件模型。DaaS數據存取的模型描述了數據是如何提供給SOA組件的。物理模型描述了數據是如何存儲的以及存儲的層次圖是如何傳送到SOA數據存儲器上的。最後,架構模型描述了數據、數據管理服務和SOA組件之間的關係。

SOA和數據企業的例子

也許以極限情況為開始是理解SOA數據問題的最好方式:一個企業的數據需求完全可以由關係資料庫管理系統(RDBMS)中的條款來表示。這樣一個企業可能會直接採用資料庫設備或者將專用的資料庫伺服器和現有的查詢服務連線到SOA組件(查詢即服務,或QaaS)上。這種設計理念五年前或者更早之前已經被人們所接受。該設計之所以成功是因為它平衡了上述三個模型之間的關係。QaaS服務模型不是機械地連線到存儲器上;而是通過一個單一的架構—— RDBMS(關係型資料庫管理系統)。數據去重和完整性便於管理單一的架構。

通過大數據的例子可以更好地理解為什么這個簡單的方法卻不能在更大的範圍內處理數據。多數的大數據是非關係型的、非交易型的、非結構化的甚至是未更新的數據。由於缺乏數據結構因此將其抽象成一個查詢服務並非易事,由於數據有多個來源和形式因此很少按序存儲,並且定義基礎數據的完整性和去重過程是有一些規則的。當作為大數據引入到SOA的應用程式中時,關鍵是要定義三種模型中的最後一種模型,SOA數據關係中的架構模型。有兩種選擇:水平方向和垂直方向。

SOA和各類數據模型

在水平集成數據模型中,數據收集隱蔽於一套抽象的數據伺服器,該伺服器有一個或多個接口連線到應用程式上,也提供所有的完整性和數據管理功能。組件雖不能直接訪問數據,但作為一種即服務形式,就像他們在簡單情況下的企業,其數據的要求是純粹的RDBMS模型。應用程式組件基本上脫離了RDBMS與大數據之間數據管理的差異。儘管由於上述原因這種方法不能創建簡單的RDBMS查詢模型,但是它至少複製了我們上面提到的簡單的RDBMS模型。

垂直集成的數據模型以更多應用程式特定的方式連線到數據服務上,該方式使得客戶關係管理、企業資源規劃或動態數據認證的應用程式數據很大程度在服務水平上相互分離,這種分離直接涉及到數據基礎設施。在某些情況下,這些應用程式或許有可以直接訪問存儲/數據服務的SOA組件。為了提供更多統一的數據完整性和管理,管理伺服器可以作為SOA組件來操作各種資料庫系統,以資料庫特定的方式執行常見的任務,如去重和完整性檢查。這種方法更容易適應於遺留套用和數據結構, 但它在問數據何訪方式上會破壞SOA即服務原則,也可能產生數據管理的一致性問題。

SOA和水平數據模型

毫無疑問水平模型更符合SOA原則,因為它更徹底地從SOA組件中抽象出了數據服務。不過,為了使其有效,有必要對非關係型資料庫進行抽象定義和處理低效率與抽象有關的流程——SOA架構師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。

水平的SOA數據策略已經開始套用於適用大數據的抽象數據。解決這個問題最常見的方法是MapReduce,可以套用於Hadoop形式的雲構架。Hadoop以及類似的方法可以分發、管理和訪問數據,然後集中查詢這一分散式信息的相關結果。實際上,SOA組件應將MapReduce和類似數據分析功能作為一種查詢功能套用。

效率問題

效率問題較為複雜。因為水平資料庫模型可能是通過類似大多數SOA流程的信息服務匯流排來完成的,一個重要的步驟是要確保與該編排相關的開銷額度保持在最低程度。這可以幫助減少與SOA相關的數據訪問開銷,但它不能克服存儲系統本身的問題。因為這些存儲系統已經通過水平模型脫離了SOA組件,很容易被忽略與延遲和數據傳輸量相關的問題,特別地,如果資料庫是雲分布的,那么使用他們就會產生可變的網路延遲

上述問題的一個解決方案是現代分層存儲模式。資料庫不是磁碟,而是一組相互連線的高速快取點,其存儲於本地記憶體中,也可能轉向固態硬碟,然後到本地磁碟,最後到雲存儲。快取算法處理這些快取點之間的活動,從而來平衡存儲成本(同時也是平衡同步地更新成本)和性能。

對於大數據,它也是經常可以創建適用於大多數分析的匯總數據。例如一個計算不同地點車輛數量的交通遙測套用。這中方法可以產生大量的數據,但是如果匯總數據最後一分鐘還存儲在記憶體中,最後一小時存儲在快閃記憶體中,最後一天存在磁碟上,那么控制應用程式所需的實際時間可以通過快速訪問資源得到滿足,然而假設分析時我們可以使用一些更便宜、更慢的應用程式是會怎樣。

SOA都是抽象的,但當抽象隱藏了底層影響性能和回響時間的複雜性時,這種抽象的危險程度會提高。數據訪問也是這樣的,因此,SOA架構師需要認真地考慮抽象與性能之間的平衡關係,並為其特定的業務需求最佳化它。

特點

第一,數據體量巨大。從TB級別,躍升到PB級別。

第二,數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。

第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。

第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動網際網路、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。

最新動態

十多位院士建議進行頂層設計,兩部委啟動示範工程

中國報告網調查員最新獲悉,最近,十多位院士向高層建議,我國應制定大數據國家戰略,並在發展目標、發展原則、關鍵技術等方面作出頂層設計。與此同時,國家發改委與中科院正在啟動“基礎研究大數據服務平台套用示範項目”。權威人士透露,有關部門正在積極研究,大數據國家戰略或將提上議程。

多位中國科學院院士和中國工程院院士表示,在我國國家戰略層面的檔案中,對大數據提得不多,希望國家制定大數據國家戰略。

多位院士的建議方案認為,所要制定的大數據國家戰略是國家層面的頂層規劃。其主要內容包括:構建大數據研究平台,整合創新資源,實施“專項計畫”,突破關鍵技術;構建大數據良性生態環境,制定支持政策,形成行業聯盟,制定行業標準;構建大數據產業鏈,促進創新鏈與產業鏈有效嫁接。

一位中國工程院院士在一份《關於實施大數據國家戰略研究》的報告中表示:“雖然我們意識到大數據的重要性,卻並未在真正意義上將其提升到國家戰略高度來考量,我們迫切需要從國家層面上制定大數據發展規劃,將大數據上升為國家戰略。”

這份研究報告指出,要“通過國家層面的戰略規劃明確大數據產業的發展重點、空間布局和保障措施,推動和改善與大數據相關的收集、儲存和分析工具及技術,並在公共服務領域如安防、醫療、衛生、教育等開展大數據套用示範,提高應急處置能力和安全防範能力,提升服務能力和運作效率。”

調查員從國家發改委了解到,最近,國家發改委和中科院正在推進國家高技術服務業研發與產業化專項“基礎研究大數據服務平台套用示範”項目。

國家發改委高技術產業司有關人士表示:“我們將依靠新的方式、新的理念、新的技術對大數據進行挖掘套用,幫助科技、經濟、社會發展;希望結合有關國家研究機構的優勢與特色,能夠探索大數據的潛在發展前景與效益,支持相關領域內的融合創新與思想碰撞。”

中國科學院科學數據中心主任黎建輝研究員則表示“目前我們正在對基礎研究的大數據獲取方式、組織與管理、關聯與發現、分析與可視化等方面進行研究,下階段將研究大數據的協同創新、科研模式變革、服務模式、產業化探索、人才培養等方面問題。”

科技部高新司副司長楊鹹武表示:“當前全球已經全面進入資訊時代,數據的深度分析和利用將對推動經濟持續增長、提升企業的競爭力起到重要的作用。”

根據觀研天下監測統計,2011年全球數據總量已經達到1.8ZB1ZB等於1萬億GB,1.8ZB也就相當於18億個1TB移動硬碟的存儲量,而這個數值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的數據量,增長近20倍。開源分析機構Wikibon預計,2012年全球大數據企業營收為50億美元,未來5年的市場複合年增長率將達到58%,2017年將達到500億美元。

據權威專家透露,在有關部門協商的基礎上,經國務院同意,將來或推出一個國家科技和產業專項來引導和支持大數據的研究和產業發展。

這個專項包括大數據的發展目標、發展原則和重點任務。有關院士建議,我國大數據的發展目標是,“十二五”時期以及未來十年,實現大數據產業技術創新,產業的整體質量效益得到提升,套用水平明顯提高,推動經濟社會發展。發展原則是,市場主導、創新發展;套用牽引、融合發展。

重點任務主要有布局關鍵技術、推進示範套用、完善支持政策等三方面。首先,布局關鍵技術研發創新。一是以數據分析技術為核心,加強人工智慧、商業智慧型、機器學習等領域的理論研究和技術研發,夯實發展基礎。二是加快非結構化數據處理技術、非關係型資料庫管理技術、可視化技術等基礎技術研發,並推動與雲計算、物聯網、移動網際網路等技術的融合,形成較為成熟、可行的解決方案。三是面向大數據套用,加強網頁搜尋技術、知識計算搜尋技術、知識庫技術等核心技術的研發,開發出高質量的單項技術產品,並與數據處理技術相結合,為實現商業智慧型服務提供技術體系支撐。

其二,加速推進示範套用。一是面向能源、金融、電信等行業,引導企業參與,發展數據監測、商業決策、數據分析等軟硬體一體化的行業套用解決方案;二是面向城鎮化建設與民生需求,加快推動大數據在城市建設生活服務領域的套用,不斷提升數字內容加工處理軟體等服務發展水平。三是推動行業數據深加工服務。大力開發深度加工的行業資料庫,對高科技領域數據進行深度加工,建立基於不同行業領域的專題資料庫,提供內容增值服務。四是推進政府及大型公共信息服務平台建設。發展和利用跨部門的政府信息大平台,提高行政工作效率,降低政府運行成本。利用政府信息大平台,提高政府決策的科學性和精準性,提高政府預測預警能力以及應急回響能力。

最後,完善支持政策,鼓勵民間投資。一是加大財政投入。加大中央預算內投資和中央財政信息技術專項資金對大數據產業的投入,安排國有資本經營預算支出支持重點企業實施大數據項目。二是拓展投融資渠道。積極創新金融產品和服務,支持大數據成果轉化和產業化。鼓勵和引導民間投資和外資進入大數據領域。

相關市場調研報告:《中國IDC市場運營格局與競爭策略分析報告(2013-2017)》

發展影響

      斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 位元組的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上和將獲得的數據,每5天沃爾瑪處理超過100萬客戶的交易每隔一小時,反過來進口量資料庫估計超過2.5 PB的是相當於167次,在美國國會圖書館的書籍 。FACEBOOK處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時,現在可以在一個星期內實現。

大數據意味什么?企業與廠商大數據意味什么?企業與廠商

“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟體智慧型數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟體業務的快速。

大數據已經出現,因為我們生活在一個社會中有更多的東西。有46億全球行動電話用戶有1億美元和20億人訪問網際網路。基本上,人們比以往任何時候都與數據或信息互動。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導致更多的識字信息的增長。思科公司預計,到2013年,在網際網路上流動的交通量將達到每年667艾位元組。

市場

中國人口眾多,網際網路用戶數在2013年已經超過5億人,全球第一。海量的網際網路用戶創造了大規模的數據量。據預測,到2015年全球有超過85%的財富500強企業將在大數據競爭中失去優勢。我們認為這種發展趨勢在國內同樣不可避免,在未來的市場競爭中,能在第一時間從大量網際網路數據中獲取最有價值信息的企業才最具有優勢。

當前,大部分中國企業在數據基礎系統架構和數據分析方面都面臨著諸多挑戰。根據產業信息網調查,目前國內大部分企業的系統架構在應對大量數據時均有擴展性差、資源利用率低、套用部署複雜、運營成本高和高能耗等問題。國內企業為適應大數據時代而做出大規模調整是一種必然,這為國內從事大數據相關業務的IT企業帶來了極大市場需求。

中國企業數據系統架構存在的問題

大數據

2011年是中國大數據市場的元年,部分IT廠商已經推出了相關產品,部分企業已經開始實施了一些大數據解決方案。據預測,中國大數據技術和服務市場將在未來幾年快速增長。預計相關市場規模在2012年將達到4.7億元,增長率高達80.8%,並且將在2016年接近100億元。我們認為未來兩年將是中國大數據市場的發展的初期培育階段,2015年之後中國大數據市場將進入成熟階段。目前國內的大數據廠商有永洪科技,GBase等,但所占市場份額還很少。

趨勢

國內企業,不論是國企還是民企,真正在業務決策中以數據分析結果為依據的,主要集中在銀行,保險,電信和電商等幾個行業。以IT預算最充沛,人員能力最強的銀行為例,目前主要是大型銀行在導入數據分析。中小銀行尚在觀望與學習階段,人員與能力建設正在起步階段。數據分析的套用範圍主要集中在信用風險、流程最佳化、市場行銷、成本與預算等幾個方面,深度尚可,但廣度一般,尚未擴充到運營管理的所有領域。

根據前瞻產業研究院發布的《2014-2018年中國大數據產業發展前景與投資戰略規劃分析報告》分析,目前,在對數據的價值的態度上,除了6.9%的企業認為數據沒有價值以外,絕大多數企業都認為數據具有或可能具有很高的價值,可見大數據的價值已經在企業中獲得了廣泛的認可。未來隨著越來越多的大數據分析平台和工具的開始廣泛套用,大數據的價值將會被進一步釋放並獲得企業認可。

相關信息

最早提出“大數據”時代已經到來的機構是全球知名諮詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。

“麥肯錫的報告發布後,大數據迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。”隨著網際網路技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。“如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那么如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。”

事實上,全球網際網路巨頭都已意識到了“大數據”時代,數據的重要意義。包括EMC、惠普(微博)、IBM、微軟(微博)在內的全球IT 巨頭紛紛通過收購“大數據”相關廠商來實現技術整合,亦可見其對“大數據”的重視。

“大數據”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在12月8日工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智慧型分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。

沒有雲的話,大數據就是個作坊

其實大數據很早以前就有,只是光只有數據大是沒有用處的。世界上最大的數據估計和網際網路一點關係都沒有,歐洲對撞實驗室做一次碰撞的數據,可能一輩子都做不完,最大的數據估計在那裡。

今天的數據不是大,真正有意思的是數據變得線上了,這個恰恰是網際網路的特點。所有東西線上這個事情,遠遠比“大”更反映本質。

像快的打車要用一個交通的數據,如果這些東西不線上,是沒有用的。

為什么今天的淘寶數據值錢,因為他線上了。寫在磁帶、寫在紙上的數據,根本沒有用。

反過來講,線上讓數據蒐集變得非常容易。過去美國誰要做總統,需要做蓋勒普調查,去街上攔2000個人,在紙上打個勾,預測就很準了。現在不用做這個事情,只要在twitter上分析每個人發的東西,就可以知道總統會是誰了。

而且蓋勒普調查做完之後很難快速影響社會,現在數據可以反過來快速影響社會。就像打車軟體,如果要影響計程車司機,可能比計程車公司更大,原因就是數據線上了。

有時候,一些石油、地質之類的公司來跟我講大數據,我就想不通這算不算大數據。他們的數據多是肯定的,但是他們的數據不線上,沒有意義。

Hadoop

Hadoop旨在通過一個高度可擴展的分散式批量處理系統,對大型數據集進行掃描,以產生其結果。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。

Hadoop平台對於操作非常大型的數據集而言可以說是一個強大的工具。為了抽象Hadoop編程模型的一些複雜性,已經出現了多個在Hadoop之上運行的套用開發語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函式,並使用稱為Hadoop Streaming(簡寫為Streaming)的API調用它們。與流數據分析

什么是流

從技術角度而言,流是通過邊緣連線的節點圖。圖中的每個節點都是“運算符”或“適配器”,均能夠在某種程度上處理流內的數據。節點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節點的輸出與另外一個或多個節點的輸入相互連線。圖形的邊緣將這些節點緊密聯繫在一起,表示在運算符之間移動的數據流。

右圖一個簡單的流圖,它可以從檔案中讀取數據,將數據傳送到名為Functor的運算符(此運算符能夠以某種編程方式轉換所傳入的數據),然後將這些數據傳入另一個運算符。在此圖片中,流數據被傳送至Split運算符,而後又將數據傳入檔案接收器或資料庫(具體情況視Split運算符的內部狀況而定)。

Streams

即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,然後對這些數據執行動態分析。這項分析可觸發大量事件,使企業利用即時的智慧型實時採取行動,最終改善業務成果。

當數據流過這些分析組件後,Streams將提供運算符將數據存儲至各個位置,或者如果經過動態分析某些數據被視為毫無價值,則會丟棄這些數據。你可能會認為Streams與複雜事件處理(CEP) 系統非相似,不過Streams的設計可擴展性更高,並且支持的數據流量也比其他系統多得多。此外,Streams還具備更高的企業級特性,包括高可用性、豐富的應用程式開發工具包和高級調度。

多重挑戰

伴隨著各種隨身設備、物聯網和雲計算雲存儲等技術的發展,人和物的所有軌跡都可以被記錄。在移動網際網路的核心網路節點是人,不再是網頁。數據大爆炸下,怎樣挖掘這些數據,也面臨著技術與商業的雙重挑戰。

首先,如何將數據信息與產品和人相結合,達到產品或服務最佳化是大數據商業模式延展上的挑戰之一。張夏天認為,大數據對算法和計算平台的挑戰加大,計算開銷大增。總量上升,質量下降,這是大數據帶來的重大挑戰。

其次,巧婦難為無米之炊,大數據的關鍵還是在於誰先擁有數據。多盟聯合創始人兼COO張鶴表示,智慧型手機是根據用戶行銷而不是根據媒體行銷。移動網際網路提供了新的數據來源,數據分析能夠針對每一位用戶的手機信息做精準匹配,但目前大數據時代還沒有真正來臨。多盟雖然每天可覆蓋1800萬用戶,但對用戶行為的描述,還需要更大的數據量。

從市場角度來看,大數據還面臨其他因素的挑戰。架勢無線CEO葉忻直言,大數據很有前景,但是市場中數據噪音太多,會導致數據價值大大降低。以無線行銷為例,大量的刷量以及水軍好評差評等數據已經嚴重乾擾了數據的準確性,這實際上大大降低了數據的價值。

投資熱點

大數據是繼雲計算、物聯網之後IT產業又一次顛覆性的技術變革。雲計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營交易信息、物聯網世界中的商品物流信息,網際網路世界中的人與人互動信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。

大數據時代網民和消費者的界限正在消弭,企業的疆界變得模糊,數據成為核心的資產,並將深刻影響企業的業務模式,甚至重構其文化和組織。因此,大數據對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。如果不能利用大數據更加貼近消費者、深刻理解需求、高效分析信息並作出預判,所有傳統的產品公司都只能淪為新型用戶平台級公司的附庸,其衰落不是管理能扭轉的。

因此,大數據時代將引發新一輪信息化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的數據量,而麥肯錫則預測未來大數據產品在三大行業的套用就將產生7千億美元的潛在市場,未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。數據處理技術和設備提供商、IT系統諮詢和ERP/CRM/BI改造服務商、智慧型化和人機互動套用以及信息安全提供商將獲巨大需求,相應公司將獲得機會。

當前我們還處在大數據時代的前夜,預計今明兩年將是大數據市場的培育期,2014年以後大數據產品將會形成業績。由於國際巨頭在硬體層和基礎軟體層壟斷優勢明顯,本土企業將主要依靠對客戶需求的了解和客戶資源優勢,以及本地化服務的優勢,在套用軟體層分得蛋糕,擁有大數據處理、挖掘技術、數據分析人才以及數據資產的公司值得看好。

開創新世界

大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步 (如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。可以簡單地說,以往人類社會基本處於蒙昧狀態中的不發展階段,即自然發展階段。現在,這一不發展階段隨著2012年的所謂“世界末日”之說而永遠成為了過去。大數據宣告了21世紀是人類自主發展的時代,是不以所謂“上帝”的意志為轉移的時代,是“上帝”失業的時代。

大數據大數據

對於地球上每一個普通居民而言,大數據有什么套用價值呢?只要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞於人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閒等等行業,與每個人產生密切的聯繫。

大數據技術離你我都並不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的雲計算,無法抵禦的仿真環境。大數據依仗於無處不在的感測器,比如手機、髮帶,甚至是能夠收集司機身體數據的汽車,或是能夠監控老人下床和行走速度與壓力的“魔毯”(由GE與Intel聯合開發),洞察了一切。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的最佳化。

隨著科學技術的發展,人類必將實現數千年的機器人夢想。早在古希臘、古羅馬的神話中就有冶煉之神用黃金製造機械僕人的故事。《論衡》中也記載有魯班曾為其母巧公製作一台木馬車,“機關具備,一驅不還”。而到現代,人類對於機器人的嚮往,從機器人頻繁出現在科幻小說和電影中已不難看出。公元2035年,智慧型型機器人已被人類廣泛利用,送快遞、遛狗、打掃衛生……這是電影《我,機器人》里描繪的場景。事實上,今天人們已經享受到了部分家用智慧型機器人給生活帶來的便利。比如,智慧型吸塵器以及廣泛套用於汽車工業領域的機器手等等。有意思的是,2010年松下公司專門為老年人開發了“洗髮機器人”,它可以自動完成從塗抹洗髮水、按摩到用清水洗淨頭髮的全過程。未來的智慧型機器人不會是電影《變形金剛》中的龐然大物,而會越來越小。目前,科學家研發出的智慧型微型計算機只和雪花一樣大,卻能夠執行複雜的計算任務,將來可以把這些微型計算機安裝在任何物件上用以監測環境和發號施令。隨著大數據時代的到來和技術的發展,科技最終會將我們帶進神奇的智慧型機器人時代。

在大數據時代,人腦信息轉換為電腦信息成為可能。科學家們通過各種途徑模擬人腦,試圖解密人腦活動,最終用電腦代替人腦發出指令。正如今天人們可以從電腦上下載所需的知識和技能一樣,將來也可以實現人腦中的信息直接轉換為電腦中的圖片和文字,用電腦施展讀心術。2011年,美國軍方啟動了“讀心頭盔”計畫,憑藉讀心頭盔,士兵無需語言和手勢就可以互相“閱讀”彼此的腦部活動,在戰場上依靠“心靈感應”,用意念與戰友互通訊息。目前,“讀心頭盔”已經能正確“解讀”45%的命令。隨著這項“讀心術”的發展,人們不僅可以用意念寫微博、打電話,甚至連夢中所見都可以轉化為電腦圖像。據美國《紐約時報》報導,歐巴馬政府將繪製完整的人腦活動地圖,全面解開人類大腦如何思考、如何儲存和檢索記憶等思維密碼作為美國科技發展的重點,美國科學家已經成功繪出鼠腦的三維圖譜。2012年,美國IBM計算機專家用運算速度最快的96台計算機,製造了世界上第一個“人造大腦”,電腦精確模擬大腦不再是痴人說夢。試想一下,如果人類大腦實現了數據模擬,或許你的下一個BOSS是機器人也不一定。

總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在於數的排列組合,在於大數據。

北京城

這裡是北京

2013年底,在這占地僅僅1.6萬平方公里的地方,北京常住人口2114.8萬人,其中,常住外來人口為802.7萬人,占比38%。在人口分布上,朝陽區海淀區常住人口最多,均在300萬人以上;門頭溝區人最少,只有30.3萬人。

與日俱增的人口壓力下,人們的衣,食,住,行,讓這座城市慢慢的變得厚重起來。

微軟亞洲研究院主管研究員鄭宇博士在做客2014WGDC地理信息開發者大會時提到,在城市中,從社交媒體到道路結構,到氣象條件,產生了各種各樣的大數據,如果使用得當的話可以利用這些數據發現這個城市的問題,並且自動解決這些問題。基於這樣的願景微軟提出了城市計算的框檻,包括城市感知、城市服務提供和數據挖掘,形成一個環路不斷的自動的改進這各城市。“簡單來說就是用大數據解決大城市大挑戰。最後做到人、城市運轉效率和自然環境三贏的系統。”

關於人們的“衣食”

人們的生活以及消費方式已經發生了驚天的轉變。不光是北京,自淘寶創立以來,大眾的消費方式越發多元化,O2O、B2B等方式越來越豐富人們的日常生活。

大數據以及地圖的基礎套用,已經對人們的生活產生了很大的影響。現今類似的網站套用有很多都與數據以及地理信息相關,作為其代表之一,大眾點評正是數據與地理信息的相互結合的優質結晶。

關於人們的“住”

對於住來說,有幾個決定因素:區位、人口、環境。人口數據對於城市的商業數據來說是至關重要的。

超精細格網化人口數據根據國家統計局2010年人口普查數據,結合遙感、地理信息等數十種背景信息數據,通過定量空間模型製作而成的超精細(160米左右)格網化人口分布數據,涵蓋全國328個城市(包括其所轄的所有縣、縣級市、區和街道)格網總數約3億個,數據項包括總人口數、不同性別人口數、兒童人口數、成人人口數、老年人人口數、格線的經緯度等數據項。人口格網化是目前人口空間分布研究的熱點,超精細格網化人口數據根據國家統計局2010年人口普查數據,結合遙感、地理信息等數十種背景信息數據產成。

關於人們的“行”

對於人們出行來說,人們的出行組成了大數據,同時大數據可以實時反應交通狀況,因此大數據與交通的辯證關係一直為社會所重視;近年來交通所帶來的能耗問題被逐漸重視起來,這不光是對個人資金的節省,更是對自己所在這個環境的一種責任。

鄭宇認為通過導航軟體所用的感測器來感知每個路段的流量和速度,利用環境學經典公式即可算出該汽車的排放量,具體做法是:利用已有GPS數據算出有限道路上的速度,按照單位時間通過車的流量的速度,最終得出某一行車路段的污染指數。可以算出這個城市裡每一個區域,每一個時間、每一種污染物的成分和比例。隨著時間的變化,各個地方污染程度。

大數據情懷

大數據北京,我們可以看到幾個焦點,文化底蘊,科技創新,還有為了夢想前進的現代化人們。有個詞叫物是人非,時代變了,主角變了,但是古蹟還在,我們正在創造歷史,書寫歷史,這亦是一個城市的延續。故宮的歷史對於現如今的我們來說已經永遠沉睡在北京的正中心,對於故宮我們只是過客,對於歷史,我們也是一個過客。

變革之路

國務院發布的《促進大數據發展行動綱要》(以下簡稱“綱要”)將大數據發展確立為國家戰略。黨的十八屆五中全會明確提出,實施“網際網路+”行動計畫,發展分享經濟,實施國家大數據戰略。大力發展工業大數據和新興產業大數據,利用大數據推動信息化和工業化深度融合,從而推動製造業網路化和智慧型化,正成為工業領域的發展熱點。明確工業是大數據的主體,工業大數據的價值正是在於其為產業鏈提供了有價值的服務,提升了工業生產的附加值。工業大數據的最終作用是為工業的發展、為工業企業的轉型升級提供有價值的服務。要順利實現中國製造2025的目標,中國工業企業必須做好兩件事:“頂天”,掌握高端裝備行業的工業數據,在高端製造領域完全實現中國智造;“立地”,掌握中國製造行業的工業大數據,通過運用工業大數據,提升中國製造企業的效益,實現節能降耗,進一步提升中國製造產品質量。為了確保“頂天立地”目標的實現,必須狠抓人才、知識、工具三方面工作。目前,美國在信息物理系統方面尚缺乏大約19萬名工程師,而中國的人才缺口更大;此外,大數據知識開放和工具升級也很迫切。

相關詞條

相關搜尋

其它詞條