隨著大數(shù)據(jù)的火熱,越來(lái)越多的小伙伴開(kāi)始對(duì)大數(shù)據(jù)產(chǎn)生了興趣。但是大數(shù)據(jù)到底是什么?我們?yōu)榇蠹沂占砹宋鍌€(gè)常見(jiàn)的大數(shù)據(jù)問(wèn)題,以幫助大
1什么是大數(shù)據(jù)?
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》 中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。
大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
根據(jù)維基百科的定義,大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
2大數(shù)據(jù)時(shí)代是什么意思?
大數(shù)據(jù)時(shí)代就是說(shuō),在未來(lái),我們認(rèn)為會(huì)存在這樣一個(gè)時(shí)代。那個(gè)時(shí)代里,幾乎我們每一個(gè)舉動(dòng),都會(huì)被記錄,并變成數(shù)據(jù)被存儲(chǔ)起來(lái),無(wú)數(shù)的數(shù)據(jù)就組合成了你本人的一個(gè)信息庫(kù)。通過(guò)這個(gè)信息庫(kù),你的一言一行,你的思想都變得可預(yù)測(cè)。
大數(shù)據(jù)作為云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術(shù)革命。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問(wèn)的場(chǎng)所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息、互聯(lián)網(wǎng)世界中的商品物流信息,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何盤(pán)活這些數(shù)據(jù)資產(chǎn),使其為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向。
3大數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別
大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘的區(qū)別是,大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘更多是針對(duì)內(nèi)部企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘,數(shù)據(jù)分析就是進(jìn)行做出針對(duì)性的分析和診斷,大數(shù)據(jù)需要分析的是趨勢(shì)和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問(wèn)題和診斷:
1大數(shù)據(jù)(big data):
指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn);
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》 中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)Veracity(真實(shí)性) 。
2數(shù)據(jù)分析:
是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。
數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。
3數(shù)據(jù)挖掘(Data mining):
又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
簡(jiǎn)而言之:
大數(shù)據(jù)是范圍比較廣的數(shù)據(jù)分析和數(shù)據(jù)挖掘。
按照數(shù)據(jù)分析的流程來(lái)說(shuō),數(shù)據(jù)挖掘工作較數(shù)據(jù)分析工作靠前些,二者又有重合的地方,數(shù)據(jù)挖掘側(cè)重?cái)?shù)據(jù)的清洗和梳理。
數(shù)據(jù)分析處于數(shù)據(jù)處理的最末端,是最后階段。
數(shù)據(jù)分析和數(shù)據(jù)挖掘的分界、概念比較模糊,模糊的意思是二者很難區(qū)分。
大數(shù)據(jù)概念更為廣泛,是把創(chuàng)新的思維、信息技術(shù)、統(tǒng)計(jì)學(xué)等等技術(shù)的綜合體,每個(gè)人限于學(xué)術(shù)背景、技術(shù)背景,概述的都不一樣。
4大數(shù)據(jù)可以做什么?
1對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)
移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)。通過(guò)對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。
大數(shù)據(jù)具有催生社會(huì)變革的能量。但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見(jiàn)的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長(zhǎng))。
2大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎
面向大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對(duì)芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場(chǎng)。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。
3大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素,各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”
在高校來(lái)說(shuō),對(duì)大數(shù)據(jù)的分析可以幫助制定更加精準(zhǔn)有效的管理策略提供決策支持;可以為在校師生提供更加及時(shí)和個(gè)性化的服務(wù),大大促進(jìn)學(xué)校綜合管理水平的提升。
4大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變
例如,抽樣調(diào)查是社會(huì)科學(xué)的基本研究方法。在大數(shù)據(jù)時(shí)代,可通過(guò)實(shí)時(shí)監(jiān)測(cè)、跟蹤研究對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對(duì)策。
5大數(shù)據(jù)的商業(yè)價(jià)值
1對(duì)顧客群體細(xì)分
“大數(shù)據(jù)”可以對(duì)顧客群體細(xì)分,然后對(duì)每個(gè)群體量體裁衣般的采取獨(dú)特的行動(dòng)。瞄準(zhǔn)特定的顧客群體來(lái)進(jìn)行營(yíng)銷(xiāo)和服務(wù)是商家一直以來(lái)的追求。云存儲(chǔ)的海量數(shù)據(jù)和“大數(shù)據(jù)”的分析技術(shù)使得對(duì)消費(fèi)者的實(shí)時(shí)和極端的細(xì)分有了成本效率極高的可能。
2模擬實(shí)境
運(yùn)用“大數(shù)據(jù)”模擬實(shí)境,發(fā)掘新的需求和提高投入的回報(bào)率?,F(xiàn)在越來(lái)越多的產(chǎn)品中都裝有傳感器,汽車(chē)和智能手機(jī)的普及使得可收集數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)。微博等社交網(wǎng)絡(luò)也在產(chǎn)生著海量的數(shù)據(jù)。
云計(jì)算和“大數(shù)據(jù)”分析技術(shù)使得商家可以在成本效率較高的情況下,實(shí)時(shí)地把這些數(shù)據(jù)連同交易行為的數(shù)據(jù)進(jìn)行儲(chǔ)存和分析。交易過(guò)程、產(chǎn)品使用和人類(lèi)行為都可以數(shù)據(jù)化。“大數(shù)據(jù)”技術(shù)可以把這些數(shù)據(jù)整合起來(lái)進(jìn)行數(shù)據(jù)挖掘,從而在某些情況下通過(guò)模型模擬來(lái)判斷不同變量(比如不同地區(qū)不同促銷(xiāo)方案)的情況下何種方案投入回報(bào)最高。
3提高投入回報(bào)率
提高“大數(shù)據(jù)”成果在各相關(guān)部門(mén)的分享程度,提高整個(gè)管理鏈條和產(chǎn)業(yè)鏈條的投入回報(bào)率。“大數(shù)據(jù)”能力強(qiáng)的部門(mén)可以通過(guò)云計(jì)算、互聯(lián)網(wǎng)和內(nèi)部搜索引擎把”大數(shù)據(jù)”成果和“大數(shù)據(jù)”能力比較薄弱的部門(mén)分享,幫助他們利用“大數(shù)據(jù)”創(chuàng)造商業(yè)價(jià)值。
4數(shù)據(jù)儲(chǔ)存空間出租
企業(yè)和個(gè)人有著海量信息存儲(chǔ)的需求,只有將數(shù)據(jù)妥善存儲(chǔ),才有可能進(jìn)一步挖掘其潛在價(jià)值。具體而言,這塊業(yè)務(wù)模式又可以細(xì)分為針對(duì)個(gè)人文件存儲(chǔ)和針對(duì)企業(yè)用戶兩大類(lèi)。主要是通過(guò)易于使用的API,用戶可以方便地將各種數(shù)據(jù)對(duì)象放在云端,然后再像使用水、電一樣按用量收費(fèi)。
5管理客戶關(guān)系
客戶管理應(yīng)用的目的是根據(jù)客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠(chéng)度、降低客戶流失率、提高客戶消費(fèi)等。對(duì)中小客戶來(lái)說(shuō),專(zhuān)門(mén)的CRM顯然大而貴。不少中小商家將聊天軟件作為初級(jí)CRM來(lái)使用。比如把老客戶加到群里,在群朋友圈里發(fā)布新產(chǎn)品預(yù)告、特價(jià)銷(xiāo)售通知,完成售前售后服務(wù)等。
6個(gè)性化精準(zhǔn)推薦
在運(yùn)營(yíng)商內(nèi)部,根據(jù)用戶喜好推薦各類(lèi)業(yè)務(wù)或應(yīng)用是常見(jiàn)的,比如應(yīng)用商店軟件推薦等,而通過(guò)關(guān)聯(lián)算法、文本摘要抽取、情感分析等智能分析算法后,可以將之延伸到商用化服務(wù),利用數(shù)據(jù)挖掘技術(shù)幫助客戶進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),今后盈利可以來(lái)自于客戶增值部分的分成。
以高校日常管理為例,通過(guò)用戶行為數(shù)據(jù)進(jìn)行分析后,可以給需要的人發(fā)送需要的信息,這樣的信息就是有價(jià)值的。在成都大學(xué),在校師生都可以通過(guò)使用手機(jī)門(mén)戶,實(shí)時(shí)收到自己感興趣的消息推送。
7數(shù)據(jù)搜索
數(shù)據(jù)搜索是一個(gè)并不新鮮的應(yīng)用,隨著“大數(shù)據(jù)”時(shí)代的到來(lái),實(shí)時(shí)性、全范圍搜索的需求也就變得越來(lái)越強(qiáng)烈。我們需要能搜索各種社交網(wǎng)絡(luò)、用戶行為等數(shù)據(jù)。其商業(yè)應(yīng)用價(jià)值是將實(shí)時(shí)的數(shù)據(jù)處理與分析和廣告聯(lián)系起來(lái),即實(shí)時(shí)廣告業(yè)務(wù)和應(yīng)用內(nèi)移動(dòng)廣告的社交服務(wù)。
Python交流群
635448130點(diǎn)擊加入群聊UI設(shè)計(jì)交流群
579150876點(diǎn)擊加入群聊Unity交流群
495609038點(diǎn)擊加入群聊HTML5交流群
645591648點(diǎn)擊加入群聊