<dfn id="d7jtv"><b id="d7jtv"><dl id="d7jtv"></dl></b></dfn>

              <meter id="d7jtv"></meter>
              

              <font id="d7jtv"><output id="d7jtv"><noframes id="d7jtv">

              一篇文章看懂:大數據框架、大數據采集平臺、數據產品創建

              2016-02-19 14:02 來源:GrowingIO
              瀏覽量: 收藏:0 分享

              一、數據從哪里來、應去服務誰,看完這個才知道!

                對于大數據,業界有各種各樣的解讀,網上、微信中也流傳有很多“一張圖看懂大數據”的文章,但這些文章大多數都是從技術角度進行解析的。更重要的是,很多“一張圖”看了之后就是一張密密麻麻充滿各種Logo的圖,仍然沒有將大數據說清楚道明白。

                長期在LinkedIn擔任數據科學家、有著多年大數據實踐的張溪夢給出了他自己多年經驗所總結出來的一套大數據框架。張溪夢說,在這種大數據結構里,貫穿始末的不再是技術和業務,而是客戶。

                客戶是大數據的來源也是大數據最終要服務的終點。在這套框架中,數據分析的基本框架向下延伸,最基礎從Customers(用戶)開始,也在用戶結束。

                1. 大數據框架

               

                2.統一的大數據平臺

                “現在最缺乏的,是統一的大數據采集平臺”

                張溪夢說,“大數據、大數據,最重要的就是數據。但數據在哪里呢?這是大數據框架要搞清楚的第一個問題?!币虼?,張溪夢認為,在一個企業的大數據框架中,最重要的部分是大數據的原始數據采集層。

                這基本包括三個層次,最外層是用戶,其次是公司運營中各種會產生數據的業務應用系統(如ERP、CRM、SCM、OA等各種企業應用軟件)、網站、APP、社交網絡、電商平臺等,在此之上是各種數據的采集平臺。

                有人說,大數據是石油,它深埋在地下。企業的大數據采集就相當于發現原油。它在企業中的位置非常重要,它是我們進行大數據分析、洞察的基礎。它就是企業的數據資產!

                張溪夢說,用戶是企業大數據最重要的來源。圍繞用戶的一切數據是企業最為重要的數據。

                現在所謂“互聯網+”,其本質就是要實現與用戶的連接。其實,如何才算與用戶實現了連接呢?將用戶相關的數據將能收集上來,并實現了管理,便是實現連接的重要表現之一。

                因此,數據收集的重要方面就是用戶相關數據的收集。當然,除了用戶數據,與企業運營、管理相關的各種數據,政府、電商平臺、社交網絡等各種第三方的數據也是非常重要的大數據來源。

                不管你信不信,數據就在那兒;不管你用不用,數據就在那兒!張溪夢認為,大數據已布滿在企業的各個地方各個角落,“我們現在最缺乏的,不是數據,是一個統一的數據采集平臺(Data Collection).

                3.從ETL到ELT

                在數據采集上來之后,接下來便要對海量的數據進行所謂的抽取、轉換、加載,即ETL。

                “傳統的數據分析認為,數據收集之后是ETL,但現在變成了ELT,未來有可能只有EL沒有T,甚至到最后全部將EL結合到一起,不再有功能性的劃分?!睆埾獕粽f,這是他們在LinkedIn經過多年實踐與探索之后給出的新思考。

                為什么會有這種變化呢?

                張溪夢介紹說,這主要是因為以前的存儲、計算、傳輸成本都很高,數據處理要用時間來換取空間。

                因此,當時的重點技術是要將原來非結構化的數據進行結構化轉化,把數據壓縮變小、節約存儲空間,從而形成所謂的ETL模式。但很顯然,這種模式存在一個無法避免的問題,即ETL過程是需要花費很多時間的?;ヂ摼W時代是快魚吃慢魚的時代,企業需要實時了解各種數據,需要實時進行響應。費時的ETL模式顯然完全不能適應當前的時代潮流。

                因此,當時LinkedIn的數據科學家們提出,為了實現實時響應,可將加載和轉化的順序對調,即變成ELT。

                這能大幅節約數據處理時間。據張溪夢介紹,三四年前,美國已經完全做到ELT了,中國目前才剛剛開始進入這種轉變。更進一步,張溪夢認為,變成ELT之后依然有可提升空間,即不用轉換,只有EL,甚至EL都將合二為一,即最終實現功能整合。

                在ELT之后,便是我們經常見的DW(數據倉庫)了,包括各種EDW和ODS等。大數據要在這兒完成結構化的存儲、處理和分析引擎等服務。

                4. 是先BI后分析,還是先分析后BI?

                數據倉庫之上,便到了我們經常所說的BI了。

                張溪夢說,BI其實包括兩個層次,即Analysis(分析)和BI,其中分析主要為對數據進行高維度分析,BI則主要提供數據透視和展現?!霸诖髷祿r代,這兩個層次也有一個巨大的變化。是先BI再分析,還是先分析再BI呢?這是一個問題?!?/p>

                以往的做法基本上是先BI,而后在其上進行Analysis(分析)。

                目前國內絕大部分企業就是這么做的。大部分企業把BI與數據倉庫中存儲的數據相結合,用于報表分析、報表制作等。更重要的是,這類工作一般交由IT部門負責,使得BI變成了技術性工作。因此,現在很多企業中有大量的IT研發人員在開發報表。這種做法帶來了“先BI再分析”的最大問題,即用數據的人不是做數據的人,做數據的人不是用數據的人。

                張溪夢說,很多人認為報表就是分析結果,但其實不是這樣的。報表越多未必就是價值越多。IT人員優勢在于技術而非業務,當報表交由他們負責時,他們會側重于做出越來越多的報表,而不管這些有什么用、誰來用。

                事實上,由于報表和分析的人不懂業務,很多數據在形成報表甚至做完分析之后,卻并不能滿足業務人員的需求,甚至有的數據經過層層審核提交到決策者之后發現是錯的!然后需要再次打回進行返工,于是乎整個的分析周期都被拖慢。

                現在的先進做法是,將BI與分析進行對調,即先分析再BI,并且分析工作要由熟悉業務的數據科學家來承擔。

                張溪夢認為,把數據倉庫的數據和分析直接結合,通過相關的分析技術和工具,直接挑選出具有商業價值的數據,之后通過BI迅速將其商業價值擴大化。這帶來的好處是,用數據的人在分析數據,并且迅速地讓全公司的相關人員都能夠實時看到分析結果,及時進行決策。

                做了這種對調之后,報表的制作量將大大減少。這樣,IT人員可以不用花費大量時間研發報表,可以大大提高數據分析部門工作效率,滿足當今數據分析需求的激增。

                5. “輸出洞察、輸出決策、輸出價值”

                在分析、BI之后,便到了如何將數據價值發揮出來的環節。張溪夢認為,這主要包括DM(數據挖掘)、AI(人工智能)、洞察、決策、行動、價值等幾個階段。

                Data Mining、AI是通過高超的技術手段,實現自動化的機器學習,從而達到在大數據分析處理之后,能夠自動化地給企業的管理者、相關員工輸出具有洞察力的發現,并且根據這些洞察和發現給出決策建議、行動建議,最終幫助企業實現價值,滿足客戶需求。

                張溪夢認為,大數據框架,最終應該著眼于幫助企業為自己的客戶提供價值。不能僅局限于技術本身,只有很好地實現了洞察、決策、行動,最終才能真正實現大數據的價值,達到通過大數據提升公司效率和業務增長的目的。

                6. “底層頻次高價值低,頂層頻次低價值高”

                從客戶、業務系統、數據采集、數據倉庫、分析、BI、DM、AI、洞察、決策、行為、價值,再最終回到客戶,這構成了張溪夢眼中的不一樣的大數據框架。

                張溪夢說,他在實踐中還發現,在這個大數據分析框架中,越貼近底層占用時間越多,而框架頂端的決策耗時卻很短;從價值頻率來講,頂端低頻次,高價值,底層是高頻次,低價值。

                因此,大數據技術的一個重要發展方向是,效率低的部分實現全方位自動化,并且實現一站式的大數據服務!

                這正是張溪夢歸國創辦GrowingIO的重要方向。張溪夢希望,GrowingIO能成為他在大數據領域創新的載體,將國外大數據領域的最新理念、最新技術引入到中國。

              二、連采集都不會,怎能開始數據應用第一步???

                在詳細介紹了不一樣的大數據框架圖之后,張溪夢和我們詳細探討了大數據采集平臺。我們討論所形成的一個重要觀點是:在數字經濟時代,未來每個企業都是數字企業。數字企業都必須有自己的大數據處理體系。而今天我們介紹的,便是張溪夢眼中每個企業大數據處理體系中最基礎和最根本的部分——大數據采集平臺。

                1. 這才是企業大數據體系的核心

                根據張溪夢介紹的不一樣的大數據框架,我們總體上可以將企業大數據的體系分成“3+1”,即采集與存儲平臺、分析與挖掘平臺、洞察與決策平臺,以及覆蓋全局的數據安全平臺。

                采集與存儲平臺的主要職責是對企業的相關大數據進行收集,并將采集到的數據存儲起來。這是企業的數據資產。它也是未來數字企業的最重要資產之一。

                分析與挖掘平臺的主要職責是對企業采集到的大數據進行專門的分析、BI等,以及在此基礎上進一步的數據挖掘、人工智能等。

                洞察與決策平臺的主要職責是利用大數據分析的結果產生對商業的洞察、決策,以及與之對應的行動等。

                數據安全平臺的主要職責是負責確保數據的安全性,保證企業的數據資產不受到損害,例如數據不丟失、不損壞、不被竊、不被改等。

                一般而言,企業可以不用自己擁有專門的大數據分析與挖掘平臺,可以租用第三方的專業工具;但企業必須自己要有相應的商業洞察、決策與行動能力;同時,企業也必須擁有自己的數據,必須有數據的所有權。

                也即是說,企業必須有數據采集與存儲平臺,這樣才能擁有自己的大數據資產。這是未來數字企業的核心!如果數據不在自己手中,或者自己沒有數據,則一切的所謂大數據都將變成空中樓閣。在虛擬的數字世界,同樣存在“巧婦難為無米之炊”??!

                大數據的三個層次

                資料來源:海比研究,2016

                2. 大數據的采集平臺也有三個層次

                在未來的數字企業中,大數據采集與存儲平臺將占據非常重要的位置。將來自各種數據源的原始大數據采集回來、存儲起來,這便相當于企業的大數據原油。如果一個國家沒有原油,就只有全部采用進口了。這就相當于把命脈交給了別人、被別人把控。

                一般而言,大數據采集與存儲平臺一般也可以分為三個層次,即數據采集層、預處理層和存儲層。同時,大數據采集平臺還需要一個覆蓋全局的數據安全體系。

                采集層負責采集企業各種來源的大數據;預處理層負責對采集回來的數據進行一些規范化的處理;存儲層則是將預處理后的大數據進行存儲,將企業大數據資產用一種方式保存起來。數據安全體系和上文所提到的數據安全平臺一樣。

                值得注意的是,當存儲技術足夠好、存儲設備成本足夠低容量足夠大時,或許就可以不用預處理層了。

                大數據采集和處理平臺框架

                資料來源:海比研究,2016

                3. 大數據采集技術難題不少

                張溪夢認為,大數據時代的數據采集和以前會很不一樣。

                大數據采集是一個很復雜的工程。

                其復雜性主要有三點,第一,數據源非常復雜;第二,實時化比較難;第三,存儲和管理、保證安全比較難。有大數據專家認為,這些復雜性使大數據采集有四類典型技術難題。

                第一,各種智能設備中的運行數據是企業大數據的一個重要來源。在這種大數據采集中,很重要的一部分是大數據的智能感知,它能實現大數據源的智能識別、感知、信號轉換、適配、傳輸、載入等技術。尤其是智能設備的數據中,還會涉及結構化、半結構化、非結構化等各種數據,這與以前的純粹結構化數據采集會有巨大不同,也因此而存在許多需要克服的技術難題。在智能制造、可穿戴設備等產業數字化、物聯網越來越發普及的今天,智能設備的數據采集變得非常重要。

                第二,社交網絡、電商或官方網站、APP應用是企業大數據的另一個重要來源。在這種大數據采集中,高速高可靠數據爬取或采集技術、高速大數據預處理技術、視頻語音等流數據的實時采集技術是當前需要重點突破的技術方向。同時,采用哪種方法采集,例如埋點或無埋點方法,也是當前非常重要的突破方向。

                第三,存儲也將越來越成為大數據的關鍵問題。隨著一切產品與物質的智能化、數字化,數據量正以前所未有的速度迅猛擴大。如果沒有一套成熟的數據存儲和管理方案,我們也終究無法利用這些巨量的數據。大數據專家們一致認為,大數據的索引技術,以及大數據的移動、備份、復制等技術是當前技術難點。

                第四,隱私與安全是大數據采集中面臨的另一道難關。對于隱私,目前采集的界限就很難界定。一些數據一旦采集了便涉及到隱私,不采集又會損失很多重要信息;數據如何利用算是侵犯隱私,怎樣才算是合法利用……這些問題,看上去是屬于道德或法律范疇,但其實也是和技術實現手段息息相關。另外,如何保證數據不受損、不被修改、不被偷窺、不被偷竊,則是當前大數據采集所要重點解決的安全問題。這會涉及隱私保護和推理控制、數據真偽識別和取證、數據持有完整性驗證等技術。

                4. 數據采集制度規范的重要性

                值得注意的,大數據的采集還有一件事情非常重要,即整個企業要有一套完整、規范的數據管理體系。這個數據管理體系包括數據采集流程,以及數據管理制度。

                張溪夢說,國內大數據的技術服務公司正在飛速成長,其產品技術和美國的差距也正在迅速縮小。但對于數據管理體系,國內很多企業在這方面的理念、水平及完整性都和美國企業有不少差距。這是一個軟實力,企業只有在這方面也強大了,才能真正將大數據的價值準確、持續地發揮出來。

              三、如何創建神一樣的數據產品?

                1、神一樣的大數據產品

                這是當我和坐在眼前的真正的前LinkedIn數據科學家張溪夢一起交流的時候,我自己的深切感受。我驚人地發現我自己更加喜歡數據科學家的魅力!我的心告訴我,我有這個直覺,有從一些看似無關卻可能發現新大陸的數據敏感性!在與他交流的過程中,我完全能感受到,數據產品非?!吧瘛?,而數據科學家、數據產品經理要更神。

                張溪夢舉了一個他們在LinkedIn工作時的大數據分析與產品例子。這很讓我腦洞大開,也不由對此有種“飛蛾撲火”般的吸引力與特別想試一下的沖動。

                據他介紹,他們當時做了一個非常有趣的分析,他們用三個非常簡單的數據構建了一個評估公司價值的分析模型,即這個公司的每名員工是從哪個公司進入的、哪年進入的、哪年離開的。

                他們用這個大數據分析模型對美國的一些知名IT公司的價值進行評估排名,結果發現是驚人的準確!他說,當時從他們這個神一樣的數據模型分析出來的結論是,LinkedIn排名非??壳?。

                這在幾年前的發展狀況來看,有點不太符合當時人們的認知。但經過一段時間的發展,現在這個排名看起來完全正確。

                我驚訝的不是結論的預見性,而是該數據分析模型的構建。居然想到從這個視角、從這樣三個簡單的數據,便反映出一個看似很難做到的預測!我喜歡這個!

                其實,這兩天還有一個數據產品讓所有人都很Happy,也很感慨:2016微信公開課PRO版。這就是一個神一樣的數據產品!只要點擊鏈接,它就能給你回放你在微信這個星球里的運行軌跡。

                我自己用了一下,它告訴我:我是在2012年11月7日注冊微信,我的第一個微信好友是紛享銷客羅旭。多么神奇,又多么溫暖!實際上,另一個互聯網巨頭阿里巴巴以前也曾推出過類似的神來之筆——淘寶時光機。

                說不準,微信的這個產品也受到過淘寶時光機的啟發呢。(不過,從數據產品經理的角度看,淘寶時光機顯然是更勝一籌。時光機,太有感覺了?。?/p>

                2、如何規劃數據產品

                “數據產品應該怎么規劃?”我問張溪夢。

                有一些國內做得較好的數據產品經理對此做了一些介紹。例如,可以從數據產品的類型進行規劃,如要有數據型產品、洞察型產品、決策型產品、智能型產品等;也可以按使用對象進行規劃,如內部使用的數據產品、外部使用的數據產品;類似的規劃思路還有很多。

                張溪夢認為,這些都是不錯的規劃方法。不過,除了規劃,“好的數據產品也是創意、是想象力、是靈光乍現?!眲e人看似平淡、看似發瘋的數據,但在神一樣的數據科學家、數據產品經理的眼里,就可能會產生一個具有極大意義的數據產品。

                在大數據的深海世界里,有著無窮無盡的可能性與創造力。生辰八字、梅花易數、易經、奇門遁甲、看相算命、風水,這些流傳幾千年、看似毫無科學道理的迷信手段,如果用大數據的眼光來看,他們其實也是一種數據產品。從這個角度來看,綿延五千年的中華民族是非常適合設計大數據產品的。天生就有這樣的基因!

                在張溪夢看來,數據產品最重要的要素有兩個,第一是創意,第二是數據分析算法和分析模型。

                因此,張溪夢認為,規劃數據產品,最重要的是找到優秀的充滿創意的人才,規劃和搭建好整個大數據分析的團隊。其次,便是將基礎數據及相關分析工具準備好;最后,要將交互界面(UI)設計好。只要有這三點,就不愁開發不出讓人眼前一亮的數據產品!

                3、如何創建數據公司

                最后,我還想說一個非常有意思的觀點:未來會有海量的數據產品誕生,會有海量的數據產品創業公司!

                自己沒有數據能做數據產品嗎?自己沒有數據分析工具能做數據產品嗎?我的結論都是肯定的:能!你唯一要有的,就是擁有創意擁有想象力!這是最適合個人創業的全新領域!

                其實,你沒有大數據嗎?錯!

                你擁有眾多的大數據,有很多免費或低成本的大數據可以供我們每一個人使用,例如政府部門的相關數據、各大電商社交網絡的海量數據等。所以,我們每個人都有大數據。

                你沒有數據分析工具嗎?錯!

                你擁有眾多免費或非常便宜的大數據分析和洞察工具。市場上這樣的數據分析提供商非常多,你可以低成本地隨意使用。

                有了數據、有了工具,再加上你的創意你的想象力,你就能設計出讓人意想不到的數據產品!一個好的數據產品,可能會給社會帶來變革帶來進步,也可能會成就你的一生!


              標簽:

              責任編輯:admin
              在線客服
              中文字幕乱妇无码Av在线

                <dfn id="d7jtv"><b id="d7jtv"><dl id="d7jtv"></dl></b></dfn>

                          <meter id="d7jtv"></meter>
                          

                          <font id="d7jtv"><output id="d7jtv"><noframes id="d7jtv">