
國內首個指導區域數據資源化的知識型產品“政務邏輯數據模型(GLDM)”
- 發布來源:華傲大數據
前言
隨著信息技術與經濟社會的交匯融合,引發了數據迅猛增長,數據已成為國家基礎性戰略資源。大數據正日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響。當前,運用大數據推動經濟轉型升級、完善社會治理、提升政府服務和管理能力已成為趨勢。
2015年,國務院印發《促進大數據發展行動綱要》,文件精神要求,加強頂層設計和統籌協調,大力推動政府信息系統和公共數據互聯開放共享,加快政府信息平臺整合,消除信息孤島,推進數據資源向社會開放。通過促進大數據發展,加快建設數據強國,釋放技術紅利、制度紅利和創新紅利,提升政府治理能力,推動經濟轉型升級。隨后,各省市紛紛出臺了相關促進大數據大數據發展的政策文件。其中,貴州省更是在2014年就前瞻性地發布了《貴州省大數據產業發展規劃綱要(2014-2020年)》。這些發展計劃的落地實施,宣告了一個全新的政府大數據時代的到來。
“十五”以來,我國戰略布局建設國家基礎信息資源體系。明確到2018年,跨部門共享校核的國家人口基礎信息庫、法人單位信息資源庫、自然資源和空間地理基礎信息庫等國家基礎信息資源體系基本建成,實現與各領域信息資源的匯聚整合和關聯應用。在加快建設完善這些基礎信息資源庫的過程當中,由于缺乏科學統一的頂層設計與建設標準,各地普遍面臨著數據匯聚交換不暢、開放共享不足、應用落地不易的問題。
基于此,我們亟需一套理念先進、落地實用、具有高可擴展性的數據模型(LDM),來指導城市數據資源庫的建設。
在世界范圍,雖然以天睿(TeraData)、IBM和Oracle為代表的跨國公司在數據倉庫領域壟斷了金融、電信等行業的數據模型(LDM),并由此在包括中國的國際市場上獲取了超額利潤,但是,在政府領域跨地域、跨部門、跨業務的融合數據資源模型研究成果方面,目前在國際上還是一個空白。當前國內的大規模數據共享、整合、集中、開放建設,為研究跨地域、跨部門、跨業務的數據資源模型提供了非常好的創新土壤和實踐機會。
在貴州,率先遭遇了數據跨地域、跨部門、跨業務清洗融合的挑戰,為應對挑戰,貴州提出了“塊數據”的創新概念與理念體系,過去一年多來,貴州省公共大數據重點實驗室圍繞塊數據與區域治理,聯合貴州大學、華傲數據管理研究團隊、北京航空航天大學、復旦大學、中山大學、東北大學的學者,展開了深入研究,正在基于塊數據的創新理念和已經建立好的概念模型,總結貴州塊數據實踐,逐步建立塊數據與區域治理的理論體系。
借鑒國際上其他行業的LDM(邏輯數據模型)研發經驗,基于塊數據逐步建立起來的理論體系,由英國蘇格蘭皇家院士樊文飛教授、國家千人計劃特聘專家賈西貝博士、曾獲國際數據庫領域頂級會議SIGMOD和VLDB最佳論文獎、從Facebook歸國的于文淵博士、曾被牛津大學??瘓蟮赖男炖诓┦考皣鴥冉鹑?、政府領域數據倉庫資深專家組成的華傲數據管理研究團隊,聯合貴州省公共大數據重點實驗室、提升政府治理能力大數據應用技術國家工程實驗室,總結過去五年包括貴州在內的國內主要省市區數據資源共享整合與集中的實踐經驗,推出了知識型產品——跨層級、跨地域、跨系統、跨部門、跨業務的“政務邏輯數據模型(GLDM,Government Logical Data Model)”,用以指導與規范城市數據資源庫(數據湖)的建設與數據應用的落地,促進數據經濟發展、完善社會治理體系、提升政府服務能力。
克強總理在全國推進簡政放權電視電話會議上提到,“我國信息數據資源80%以上掌握在各級政府部門手里,但‘深藏閨中’造成了極大浪費?!?2016年10月中共中央政治局第三十六次集體學習,習近平主席指出“以數據集中和共享為途徑,建設全國一體化的國家大數據中心,推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務?!?/p>
跨層級、跨地域、跨系統、跨部門、跨業務的政務邏輯數據模型(GLDM)是銜接塊數據理論體系和目前各省市區大規模開展的數據采集、共享、整合、集中、開放等實踐的工程指南,也是省市區數據資源庫(數據湖)建設的方法論,涵蓋以ER模型表達的邏輯數據模型(LDM)及相應的概念數據模型和物理數據模型的指導建議、數據資源庫建設與數據元表達的標準與規范、數據建模、建庫、整合、清洗的開發環境與工具集、數據資源庫建設與管理的最佳實踐。
這一模型與相應規范、工具集和方法論體系,將會應用于跨層級、跨地域、跨系統、跨部門、跨業務的數據共享、整合與集中,以數據融合引領業務融合,助力將掌握在各級政府部門手里的我們國家80%的碎片化數據資源整合成高質量、高價值的數據資產。
1.產品概述
1.1.關于本產品
LDM是邏輯數據模型Logic Data Model的簡稱。通過數據和關系反映業務的一個過程,是進行數據管理、分析和交流的重要手段,也是IT和業務人員溝通的橋梁。
在金融、保險和證券行業,天睿(TeraData)公司的數據模型FS-LDM(Financial Services Logical Data Model)已經成為了事實上的行業標準;在電信行業,IBM和天睿公司的數據模型也占據壟斷市場地位。 基本上,在傳統數據行業,數據模型和標準都是被國外公司所壟斷的,國內大數據廠商在實施項目的過程中要么是直接套用國外模型來實施,要么模仿國外模型出一個本地化的定制版本,但在模型的可復制能力上嚴重不足。
然而,在政府領域,截至目前,并沒有能滿足跨層級、跨地域、跨系統、跨部門、跨業務的統一政務數據模型來指導城市數據基礎資源庫的構建和開發。而導致這一現狀的原因,主要有以下三個:
1)國外政府還沒有大規??鐚蛹?、跨地域、跨系統、跨部門、跨業務數據整合與集中的實踐。首先,國外政府受社會條件、法律法規、輿論環境的限制,還沒有大規模建設實現多種跨度的的數據資源庫。其次,國外政府掌握的數據量只占了全社會數據的一小部分,不像我國,通過各類業務系統的沉淀,已經采集并掌握了超過80%的信息資源。沒有數據,就不可能談大數據,沒有大數據,就沒有形成大數據中心庫的客觀條件,也就不可能生成政府行業的邏輯數據模型。
2)我國政府大數據還處于發展的初級階段。自我國2013年進入大數據元年以來,國家相繼發布了系列政策文件,促進我國大數據產業發展,個別地市也陸續走馬上線城市大數據運營管理平臺等項目,啟動建設地方城市數據基礎資源庫,開啟了政府大數據時代。但由于各地發展大數據的基礎條件不一,重點推進應用落地的領域不一,各業務委辦單位數據匯聚共享開放程度不一,數據目錄標準不一等客觀原因,還處于多頭探索、摸著石頭過河的階段,并未形成一套經過驗證的政務邏輯數據模型。
3)學界理論與應用研究缺乏。在此之前,關于多源數據融合、數據清洗、數據質量、塊數據的研究還在進行時,階段性出來的研究成果還沒有來得及應用于實踐。在這方面,我們國家第一個大數據方向的973項目,由哈工大、人民大學、東北大學、香港科大和華傲數據聯合開展的海量數據可用性研究,從2012年開始,歷時五年,在數據的量質融合管理(數量與質量融合管理)方面產生了一批成果,但這個973項目一直到去年才剛剛結題。這些成果應用到實踐中來,需要一些時間,也需要解決很多工程實踐的問題。在數據質量方面,蘇格蘭皇家院士樊文飛院士的研究成果曾于2008年獲得“英國計算機最高獎羅杰尼達姆獎”(新華社報道),這些數據清洗的研究成果雖然已經逐漸介紹進入國內,但還沒有完全應用于實踐。貴州省公共大數據重點實驗室的塊數據研究正在進行時,在此之前,成果尚未和實踐有效對接。提升政府治理能力大數據應用技術國家工程實驗室剛剛成立,這方面的研究正在籌劃與展開。
而今,聯合發布單位利用塊數據理論與區域治理的最新研究成果,結合5年以來國內大數據城市建設成果突出的深圳、沈陽、貴陽等12個省區市不同層級政府的政務數據模型的設計和實施經驗,凝練形成了可以廣泛應用于國內大數據城市建設的政務邏輯數據模型--GLDM(Government Logical Data Model)。
GLDM的誕生,意味著大數據城市數據資源庫的建設有了統一的建設流程,統一的數據標準,統一的數據模型和統一的方法論。它將終結大數據城市數據資源庫數據標準缺失與不統一、缺乏頂層設計、信息處處孤島、數據無法驅動應用等局面。
1.2.產品目標
GLDM產品必須達成以下目標才算成功:
1)、數據覆蓋全。大數據政務數據資源庫不僅僅需要獲取各政府部門,如安全、海關、信用、財政、金融、稅收、農業、統計、進出口、資源環境、產品質量、企業登記監管等領域數據資源,還需要對這些數據資源進行加工、清洗、融合、匯總、標記等處理,產生新的數據。這些新的數據,也是整個數據資源池(“數據湖”)的一部分。
2)、應用支撐給力。除了源數據可以直接支撐應用外,最重要的是經過處理后的數據,可以支撐決策支持、市民服務、政務數據服務平臺、塊數據等。
3)、數據標準豐富。引用國際標準、國內標準、行業標準、地方標準,以及自定義的標準來對數據做統一性規范。
4)、具備高可擴展性。一個可擴展的、動態的模型能夠經得住時間的考驗,當業務改變時,能夠將對數據模型的影響減至最小甚至完全不受影響;
5)、擁有較高可用性。沒有完美的模型,但模型至少能夠滿足當前需求。
1.3.范圍
本產品只是建設大數據城市數據資源庫的方法論,它只是一個知識型產品,并不是一個軟件產品。
本產品也并不是整個大數據城市數據資源庫的全部,它不可能包含某個或某些特定應用場景的描述和約束,但它會從一些應用的共性中提煉一些主題庫出來。
本產品包括產品白皮書、實體關系(ER)模型(包含Powerdesigner ER模型和Excel版本)、概要設計說明書、詳細設計說明書、數據標準文檔、實施指南、推薦開發環境、內置工具集、說明文檔以及自述文件(Readme)。
2.產品特點
GLDM是響應智慧城市、大數據城市治理的需求而設計的數據模型。通過多年的大數據城市項目建設,積累經驗、迭代優化形成的成熟的數據模型。既能滿足傳統的數據分析和數據服務需求,也能動態擴展,適應新的業務變化。
2.1.高度自由的擴展性
GLDM是一個具有高度擴展性的模型,在GLDM模型的原子層(也即針對源數據的接口層)和整合層,嚴格按照三范式設計,保證了數據的無冗余設計。
通過這種嚴格的范式設計,可以保證模型的高擴展性。一旦新增加一個實體,只要將其與其它實體通過關聯關系關聯起來,則可以在不修改原模型的狀態下實現模型擴展。
2.2.豐富的數據標準引用
GLDM收集了豐富的各地域(含國家)、各行各業、各個職能部門的數據標準,總計超過12萬項,其中國家標準3。9萬余項,行業標準4。8萬余項,地方標準1。9萬余項,國際標準1。8萬余項。作為數據一致性的重要參考。按照GLDM模型流程開發的數據, 各行業、各職能部門甚至社會大眾都可以按照標準方便地解讀、利用數據。
GLDM針對人口、法人、證照、安全、海關、信用、財政、金融、稅收、農業、統計、進出口、資源環境、產品質量、企業登記監管等領域,收集、整理并制訂了相關標準,累計670余項,以形成對各類數據元的約束。
2.3.完善的元數據機制
在GLDM產品中,所有的數據元標準、業務描述,以及數據抽取、清洗和轉換規則,全部存放在元數據配置表中。
通過讀取并翻譯數據抽取、清洗和轉換的規則,可以生成數據處理的程序,將這些程序按規則調度起來,就可以處理數據。
同時,開放數據元標準、業務描述,以及數據抽取、清洗和轉換規則的訪問接口,再通過解析這些配置規則,就可以支撐對元數據進行詳情展示、血緣分析和影響分析等應用。
2.4.先進的分層設計理念
GLDM在傳統的數據倉庫架構基礎上,進行了許多創新改進,通過兼容傳統數據倉庫與大數據技術平臺,使得數據倉庫具有較強的先進性;同時采用先進的數據倉庫多層多域的設計理念,特別是其中的原子層,它是針對政務倉庫的特點進行了重點優化設計,使得數據倉庫具有非常好的靈活性,高擴展性,也易于維護。
緩沖層:緩沖區是數據倉庫的數據入口,其數據表模型與源系統完全一致,數據不會做任何處理,但是會加一個時間戳字段,供貼源層抽取數據用,緩沖層只保留一定周期的數據,例如保留一周或者一個月的數據,具體周期根據實際情況決定。
緩沖區的主要作用是:
1)防止后端數據處理出錯時,再次執行時反復重抽會給源系統帶來不必要的沖擊。
2) 防止二次抽取數據時,因為源系統的更新導致丟失當時數據的快照。
貼源層:貼源層的數據保存了源系統數據的所有信息,并且在此基礎上對源頭數據做了歷史歸檔、標準化等處理,該層存儲了較長周期的歷史數據(一般為三年),以保證能做歷史數據分析。
貼源層的主要作用是:
1)歷史數據歸檔,保證數據能做歷史數據分析。
2)標準化數據,保證整個數據倉庫用的是一套完整的數據標準。
原子層: 原子層是數據倉庫中的最具有設計元素的層,也是最核心的層。它以某種形式組織或歸類分散在各個源表中的信息項,并結合了源數據、業務需求,從數據和業務需求兩個方向的考慮來設計,是具有高度抽象性、原子性等特點的層。
原子層的主要作用是:
1)通過具體形式的組織和歸類,有效的避免了數據冗余、數據缺失等情況帶來的數據不一致問題。
2)由于數據具有高度原子性,整個庫的可維護性大大提高,信息能非常方便地溯源,而且集市層就能夠非常靈活的設計寬表。
整合層:整合層是將原子層的多源數據通過一定的規則進行合并,最終整合成唯一的信息。合并規則需要經過反復驗證,只有在若干規則中準確性最高的規則,才會作為最優規則。合并的時候,會衍生出很多標簽或統計信息。如針對某人的電話號碼,就可以衍生出如下指標:最早登記時間,最近登記時間,被多少個來源登記過,曾經被哪些人作為登記聯系方式,在所有人中被最早登記的時間等。
合并層的主要作用是:消除數據的多義性,保證數據具有唯一準確性。
集市層:集市層是應用基礎層,關聯拼接整合區的片段表,將這些信息拼在一起形成各類應用需要的基礎寬表;同時生成一些公共的統計指標表,以減少應用層的重復計算。
集市層的主要作用是:拼接聯合生成基礎寬表信息,為各種應用提供數據支持。
應用層:應用層是面向各類個性化應用的數據服務層,向外提供服務的方式為數據接口,所有的應用,都不允許直接訪問數據。敏感數據都要進行加密、脫敏處理,例如身份證號必須加密。應用接口背后訪問的數據,可能是表,物化視圖,普通視圖,文件或HDFS文件等。同時,數據還可能來自數據庫、文件系統或大數據平臺,因此在封裝數據接口的時候,兼容了不同的存儲介質。
2.5.隨意切取的塊數據
以一個物理空間或行政區域形成的涉及人、事、物的各類數據的總和及組合,其中包括點數據、條數據和面數據,這就是所謂的塊數據概念。
GLDM通過包含行政區域信息在內的標準化的地址,將人口、法人、事件、物品等相關庫的實體全部與標準地址建立關聯關系,這樣,就可以將它們落到市、區(縣)、街道(鄉鎮)、社區(村)、網格(村)、樓棟、房間等單元中,就形成了“塊數據”。
這些數據塊由于對應有市、區(縣)、街道(鄉鎮)、社區(村)、網格(村)、樓棟、房間,這樣就可以按各種這些物理地域的大小進行數據切取和分發。
2.6.全生命周期的歷史數據
在存儲歷史數據時,GLDM的方案是將它們保存在Hadoop大數據庫中,利用Hadoop無限擴展的計算能力和存儲能力,保障歷史數據始終處于“在線”狀態。
針對流水數據,則按時間流水保存,一定周期(如3年內)的數據保存在傳統數據庫,同時,所有的歷史數據均轉存到大數據庫中。均按歷史形成拉鏈數據,并且所有歷史數據轉存到Hadoop大數據庫中。
針對資料類數據,則形成拉鏈數據,將形成的變更歷史軌跡數據全部保存到大數據庫中,并且采用月全量日增量的數據保持同步,這樣,數據可以回溯到前一天前的任何時間點。
這些歷史數據的保存,一方面保證了數據的存儲安全,另一方面,則可以針對歷史數據做變化分析。
2.7.明確規范的命名規則
制訂了完善的表、視圖、模式、程序、索引、序列、字段等對象的命名規則。表和字段的規則,甚至細到每一數據層,比如在緩沖層和貼源層,要求以數據來源的拼音首字母縮寫來作為表前綴,以直觀地標識某個表來源于系統。而原子層和整合層,就可以按數據域作為前綴,以區分各個庫,如人口庫前綴為PPU_,法人庫為LGL_。到集市層,則以DM_加上應用的主題為前綴。
2.8.多平臺的數據庫支持
GLDM產品的設計,即兼容傳統數據庫,如Oracle、PostgreSQL等;也兼容使用不共享(shared-nothing)的大規模并行處理(MPP)架構的數據庫Greenplum,它處理的數據量可達100TB級。另外,還支持使用大數據平臺Hadoop 的Hive或Impala。
2.9.高度集成化的內置工具包
嚴格意義上來說,內置工具包并不是GLDM的內容,但作為一個可落地的產品,必須要有一些內置的工具包來輔助產品高效方便地落地。
內置工具包目前包含如下工具:初始化腳本、標準包、公共程序包、映射規則、通用的解析程序、輔助小工具。
其中,初始化腳本是系統產品落地時的初始化包,它包含的初始化創建表、序列、索引,以及一些系統必要的編碼信息。
標準包主要是一些初始標準化落地的腳本,它負責將相關標準插入相關元數據表中。
公共程序包主要包含一些公共的程序代碼,如身份證檢驗轉換程序,姓名清洗程序,電話號碼檢驗清洗程序等。
映射規則是指從原子層到整合層,集市層(支撐部分預置應用部分)的映射規則,將它們插入相應的元數據表中。
通用的解析程序主要用于解析映射規則的,通過解析這些配置規則,可轉換成一個個ETL轉換程序,再將這些程序通過ETL工具調度起來,就可以做ETL轉換了。
輔助小工具主要是指一些方便開發、實施的效率工具,如利用簡單的的配置生成規則的EXCEL模板工具。
3.資源庫模型
GLDM資源庫模型通過大量的政務數據項目提煉出公共基礎庫,包含政務數據模型中最基本的數據模型,是模型中最基礎的組成?;A數據庫劃分為以下幾個主題域:
人口信息資源庫
法人單位信息資源庫
空間地理信息資源庫
宏觀經濟信息資源庫
文化信息資源庫
基于公共基礎數據庫的挖掘和結合業務數據,擴展出更加豐富的數據模型。滿足基礎數據以上的數據需求,根據普遍的數據需求,擴展出以下主題庫:
電子證照庫
自然人信用庫
企業信用庫
社會關系庫
3.1.公共基礎庫
公共基礎庫作為GLDM的基礎,是政務數據建設的基礎和起點。公共基礎庫經過大量的項目提煉,也經過很多地市的實際使用的驗證,保證了公共基礎庫的可靠性。使用公共基礎庫,使得數據建設無須從零開始,利用現有的成熟設計就可以滿足很多數據需求,大大縮短項目建設周期,減少數據庫建設風險。
3.1.1.人口信息資源庫
人口信息資源庫(簡稱人口庫)包括個人社會活動的方方面面,按照個人生命周期的各個階段進行建模,保證了模型的全面性;不依賴具體的源數據,保證了模型的獨立性。下表作為人口的一部分,展示了最常用的人口相關的數據:
3.1.2.法人單位信息資源庫
法人單位信息資源庫(簡稱法人庫,后文將統一使用簡稱)對政府機關、事業單位、企業、社會組織、民辦非企業等社會機構相關的信息進行建模。包括法人在各個部門的登記信息,日常經營活動相關的信息。
3.1.3.空間地理信息資源庫
自然資源是人類賴以生存發展的基礎,合理利用資源才是可持續發展之道。而了解這些資源才是利用的前提。借助現代化的遙感和測繪技術,目前對自然資源和空間地理的知識都實現了信息化,但是數據分散在各個部門,難以從整體上把握這些信息資源。GLDM的空間地理信息資源庫的設計就是為“上天入地”的數據資源提供一個統一的平臺??臻g地理信息資源庫按照空間概念分為三層:
天上的:大氣,航天衛星
地上的:土地和林業
地下的:海洋和水資源
目前,GLDM對該資料庫的設計主要體現在其子庫房屋資料庫(包含行政區劃)上,后續版本將進一步完善,敬請期待。
3.1.4.宏觀經濟信息資源庫
宏觀經濟是反映經濟狀態的主要數據,對指導經濟政策、調節經濟指標有著至關重要的作用。宏觀經濟從宏觀上理解社會經濟活動的總體情況,依賴于各統計部門的統計數據。 GLDM宏觀經濟庫根據宏觀經濟關注的重點,設計了接口良好的數據模型,方便統計部門快速上報積極數據。GLDM宏觀經濟庫設計如下經濟相關的數據模型:
經濟發展
社會就業
公共事業
科技創新
可持續發展
重大投資項目
目前,該資源庫并不在GLDM 1.0的范圍,它將在后續的版本中提供出來,敬請期待。
3.1.5.文化信息資源庫
一個地區僅僅有繁榮的經濟是不夠的,還要有豐富多彩的文化生活。為了不讓那些散落在民間藝人手里的“技藝”被人淡忘和失傳,也為了讓文化更好的流傳甚至發揚光大。很有必要借助信息化的手段記錄建立全面豐富的非物質文化遺產庫,既是保存,又是傳承。GLDM在文化信息資源庫方面的未來規劃,主要是使用信息技術手段保留關于非物質文化的圖片、音頻、文字、影像等資料,以及利用結構化相關非結構化數據的描述信息,來構建整個庫。
目前,該資源庫并不在GLDM 1。0的范圍,它將在后續的版本中提供出來,敬請期待。
3.2.主題拓展庫
主題拓展庫是在公共基礎庫的基礎上,挖掘拓展出的更加豐富的數據模型。擴展庫強調數據應用,以及利用數據輔助和提升業務。例如為了減少群眾在辦事辦證過程中在多個部門來回跑的現象,利用各部門共享的數據快速審批決斷,因而有了電子證照庫;為了建立居民和企業的信用檔案,為社會大眾提供信用查詢的服務,信用庫應運而生;有了個人和社會的關系網信息,對掌握各類事件的傳播影響非常重要,社會關系庫就是為社會活動對象的關系建立的數據模型。
3.2.1.電子證照庫
電子證照庫實現了證件、證明、公文等官方機構開具的證照的電子化,證照主體——持證人在辦事過程中,無需通過其他部門的證明來說明證照的有效性,只需要通過電子證照庫查詢比對就可以快速作出審批。大大減少群眾辦事流程,真正做到“數據多跑路,群眾少跑腿”,既提升辦事效率,又方便群眾。
證照庫的實體包含證照公共目錄信息、證照照面元信息、證照基本信息、持證自然人主體信息、持證法人主體信息。另外,還有各種證照的照面實體化信息,例如城市排水許可照面信息,民辦非企業單位預先核準通知書照面信息等。
3.2.2.自然人信用庫
“人無信不立”,信用是一個人最好的名片,在眾多的政務數據中,有自然人活動的地方都可能產生一個人的信用記錄。為了挖掘與人相關的信用信息,GLDM設計了自然人信用庫,為個人信用以及信用相關的應用提供基礎數據。而且自然人信用庫還拆分考慮個人非政務系統意外的信用情況,例如檢察系統、行業組織等。自然人信用庫主要分為以下幾個部分:
基本信息,在人口庫的基礎上建立的一類視圖
證照信息,在電子證照庫的基礎上提取與人相關的一類視圖
良好記錄,綜合政府相關部門和行業組織對個人頒發的榮譽類信息
不良記錄,綜合政府相關部門、檢察機關、行業組織產生的關于個人的不良記錄
3.2.3.企業信用庫
信用之于人是“名片”,之于企業則是無形的“品牌價值”,好的門面會吸引更多的消費者,相反壞的門面只會讓消費者遠離。誠信經營的企業會吸引更多的消費者,違法欺詐寸步難行。如何企業的誠信經營傳播更廣,對企業的失信行為公之于眾成為社會大眾和法人組織的共同需求。GLDM企業信用庫就是為企業的“信用招牌”而設計的數據模型,通過挖公共基礎庫的法人庫,結合互聯網信息形成企業信用庫。
企業信用庫主要分為以下幾個部分:
基本信息,在法人庫的基礎上建立的企業登記注冊類信息視圖
經營信息,從法人庫中挖掘的經營活動相關的信息
證照信息,在電子證照庫的基礎上提取與企業相關的一類視圖
良好記錄,綜合政府相關部門和行業組織對企業頒發的榮譽類信息
不良記錄,綜合政府相關部門、檢察機關、行業組織產生的關于企業的不良記錄
3.2.4.社會關系庫
社會關系對于信息傳播十分重要,每個社會成員都不是孤島,相互之間存在著各種各樣的社會關系。不同的成員影響力不同,影響范圍也不同,對信息傳播的速度和覆蓋范圍都有差異。為了掌握社會成員之間關系,利用數據建立社會關系網數據庫,設計形成了GLDM社會關系庫。
GLDM社會關系庫,挖掘共基礎庫的信息,形成了社會成員常見的關系圖庫。下圖展示了基于個公共基礎庫的人口庫、法人庫和房屋數據之間的常見關系圖:
3.3.塊數據庫
3.3.1.概述
嚴格意義上來說,塊數據庫并不是一個實體庫,它只是將各個具有聚合實體的集成在一起的一種方法論。GLDM產品充分考慮了塊數據的設計理念,在模型設計的時候,使用標準地址,以及建立標準地址與各實體的關聯關系,只有達到這兩個條件,才能對數據進行切塊。
3.3.2.塊數據庫架構
塊數據架構圖
數據從各委辦局,應用系統是將更新的數據同步到智慧城市大數據基礎信息庫,經過清洗、轉換和加工,形成以地址庫為紐帶,包含人口庫、法人庫、事件庫和物品庫等庫的庫群。然后通過數據分發、數據訪問權限控制方式,將數據準確地分發給數據使用者(通過應用訪問)。
在中心庫中,地址庫作為最核心的庫,它需要將地址數據標準化,即使地址表達再個性化,只有在標準化后,才能將不同表達的地址指向同一個標準地址,也只有在標準化后,才能將地址落到區、街道、社區、基礎網格這些行政區域上,從而可以按行政區域對數據進行分發。
當地址數據標準化后,還需要將標準地址與人口、法人、事件、物品建立關聯關系,這樣才能將數據塊化。
4.應用場景分析
隨著信息技術與經濟社會的交匯融合,雖然各政府部門中存儲著海量的政務數據,但是各部門間的數據都互不共享,沒有進行統一的管理。如何行之有效地將這些數據應用起來,成為了各政府部門的共同難題。
通過GLDM就能很好的解決數據應用的難題。GLDM結合了先進的大數據技術和傳統的數據倉庫技術,對廣泛分布在各個政府部門觸角的海量零碎的政務數據資源進行收集、整理、清洗、轉換、融合、分析和挖掘,打破各部門間的數據壁壘,實現數據共享,將各類數據充分的應用起來。為政府管理解決了一些實際性的問題:
融合分析各部門數據,為領導決策提供數據支撐;
分析挖掘各部門數據,提供各類市民服務;
融合共享各部門數據,建立智慧政務數據服務平臺;
按地域塊化數據,實現數據的按需安全分發。
4.1. 政務:決策支持(城市數據大腦)
政府領導做出科學有效的決策時,必須要有大量、準確、各部門的數據作為依據,而這些數據通常都是散落在各個部門,因此融合挖掘各部門的各類數據就顯得尤為重要。從2013年開始,某市政府就利用“織網工程”項目解決了數據融合的問題。該項目的核心就是通過GLDM建立一個大型的政務類數據倉庫,在這個倉庫的基礎上可以分析挖掘各類政務信息。截止到2017年5月該項目梳理、清洗了29個局委辦,476張表,約100億條數據(包含了從2013年到2016年底所有數據,即所有當前數據、歷史數據以及支持各應用系統的應用數據),為政府領導作出科學的施政決策提供了有力的數據支持。
如下是通過GLDM建立的數據倉庫可提供的部分決策支持數據示意圖:
4.2.民生:市民服務(莫讓數據誤民生)
相信很多普通民眾在生活中都遇到過“辦事排隊長”、“辦理流程到處問”、“資料準備來回跑”、“各種信息反復填”、“政府平臺遍地找”、“各種奇葩證明”等問題。這些問題的出現,大多數都是因為各部門信息化程度不夠高、信息資源共享缺失導致,很多情況下,各部門之間的信息都是互不共享,未形成統一的信息資源,信息共享存在很高的壁壘。
針對以上問題,某市政府就專門打造了一款城市惠民服務APP,這是一款集成該市居民各類生活信息的城市級公共服務移動應用軟件。是由華傲數據技術有限公司打造的一款城市級惠民智能服務平臺。以“智慧城市”建設為基礎,以“信息惠民”為宗旨,以廣大市民能夠足不出戶、隨時隨地的享受優質服務和便利生活為目標,讓百姓真正體驗互聯網帶來的便利,整合政府相關部門和公共事業單位的相關服務資源和權威信息,為該市市民精心打造的一款本地化生活服務手機軟件,為市民個性提供本人密切相關信息,以及醫療、交通、旅游、便民、政務等方面的信息服務。
APP的核心是需要融合、共享各類政務數據,將這么多信息數據進行有效的整合,最終形成便民的信息,是非常困難復雜的一個處理過程。而這個過程就是利用了GLDM去進行梳理融合的,真正實現了各類數據的收集、交換、共享、應用。如下是城市惠民服務APP總體示意圖:
4.2.1.信息查詢
目前市民對于自身信息的實時掌握還是很迫切的,雖然很多政務平臺可以實現,但是需要在不同的業務部門獲取,例如社保信息需要到社保局去查看,公積金信息又要到住建局去了解,違章信息又要到公安局去查看,這樣獲取信息就相對繁瑣。如果通過城市惠民服務APP,你就可以隨時隨地查看各類信息,而不需通過不同的業務部門去多次查詢,因為GLDM已幫助城市惠民服務APP融合了各部門的數據了。如下是信息查詢示意圖:
4.2.2.主動服務(數據驅動業務)
通過GLDM融合了各類數據之后,再利用大數據技術進行分析挖掘,可以挖掘出許多有價值的主動服務。例如有些公益組織需要招募志愿者,如果沒有一個統一的平臺發布信息的話,是很難實現。而城市惠民服務APP通過GLDM就可以實現這樣的主動服務功能。首先該社會組織可以在APP上主動發出匹配條件,有意愿并且能匹配上條件的市民就可以報名參與相關招募。除了這種志愿者招募之外,也可以推送“高齡津貼”領取服務、“敬老優待證”領取服務、“少兒醫?!鞭k理服務等等。如下是主動服務示意圖:
4.2.3.預約免排隊
很多市民在各個行政部門辦事情的時候,排隊是必須的,而且可能一個上午就耽誤在排隊上,這樣不僅浪費時間,辦事效率也相當低。很多這樣的事情如果通過一定的技術,是完全可以解決這一難題的。目前我們通過GLDM融合了各類政務數據之后,實現了自動預約功能,為市民節省了寶貴的時間。如下是預約免排隊示意圖:
4.2.4.流程優化(數據支撐流程再造)
目前,許多業務的辦理是存在許多可以優化的地方的,以“計劃生育證明”為例,市民在辦理計劃生育證明過程中需要往社區工作站和街道兩處跑(首先要到社區工作站提交材料,然后去街道驗證原件并打?。?。大部分群眾對準備材料和辦事路程不十分清楚,如果材料準備不足,就可能要往返跑路,費時費力,群眾意見較大。而通過GLDM融合各類數據之后,各類資料都可以網上獲取,不用再費時費力。如下是通過融合數據精簡流程后的示意圖:
4.2.5.自動填表(數據便民提效)
很多市民在不同的部門辦理業務時,需要填寫很多表格,但是很多表格填寫的是相同的基本信息,如此反復填寫相同的內容,就顯得相當繁瑣。為了避免這種資源與時間的浪費,我們可以融合各類政務信息,提煉出這些基本信息,然后統一獲取這些基本信息,就有效地避免了重復填寫。GLDM就很好地解決了這一難題,如下是自動填表示意圖:
4.2.6.關系證明(不用證明我爸是我爸)
新聞上報導的各種奇葩證明屢見不鮮,例如要證明你爸是你爸,要證明你沒結過婚,要證明你沒有要過孩子,這樣那樣的證明,聽起來莫名其妙,辦起來更讓人東奔西跑。如果有一個平臺能給出各種關系的話,那么事情就迎刃而解了,再也不用為這種奇葩證明東奔西跑了。GLDM不僅融合了各類信息,也深入挖掘出了人的各種關系。如下是人口關系證明示意圖:
4.3.產業:數據開放與增值服務
基于GLDM形成的數據資源庫,其中的非隱私、可公開數據,比如交通數據、氣象數據、商事主體數據、政府信息公開數據等,可以通過政府數據開放平臺向全社會開放。通過開放數據支撐創新創業,數據的能量可以在開放過程中層層放大,全國各地的數據開發者往往可以開發出數據收集者和數據擁有者想象不到的應用。
下圖是某市的一個數據開放平臺,它是基于GLDM模型建立的大數據資源庫之上的應用平臺。該平臺通過提供數據服務API接口的方式,向公眾提供非敏感、可公開的政府掌握的數據資源。
其中的隱私數據可以通過引入授權加工商,以數據產品化的形式將數據資源研發成脫敏的數據產品,推出數據上的增值服務。數據資源庫通過數據開放與增值服務這兩類應用,可以促進數據產業,培育數據支撐的創新創業和引進數據企業形成區域大數據生態,本地培育與外地引進并重,發展數據經濟。
4.4.政府內流通:數據共享服務平臺
政府部門間的數據如何共享,這對于一個想建立“智慧城市”的城市來說,是首先要解決的難題?!爸腔踃X政務數據共享服務平臺項目”就是該市轄區為解決該區各部門的數據共享而開發的。該項目是為了支撐智慧城市建設,加強政務信息資源的統籌和共享利用,增強信息資源的采集整合、集成分析、服務應用能力,構建跨部門、跨層級、跨平臺的數據共享和應用格局,最終實現“智慧城市”,提高社會管理能力和公共服務水平。
在該項目中,GLDM得到了重要的應用,GLDM的強大的元數據管理功能,通過數據編目,為數據共享目錄、數據資源編目提供完美支持,通過開放接口和應用,為各部門提供數據資源目錄報送,進行數據跨部門共享。如下是數據共享服務平臺的示意圖:
4.5.數據塊化:塊數據應用
4.5.1.精細的塊級決策分析
通過實現人口、法人、房屋、物件、事件等所有實體的塊化,可以在不同大小的塊上做決策分析,這樣就可以大到一個市,小到一棟樓,都可以對塊內的信息做出準確的數據統計和分析,以支撐更精細化的決策。
4.5.2.實時的塊級事件分發和影響分析
有了數據塊的基礎,就可以找到每個事件相關的所有人口、法人、房屋、物件等,一方面找到每一個事件的處理責任人及相關上級處理責任人,從而實現實時準確的事件分發和監督,另一方面,根據事故蔓延趨勢進行影響范圍分析和區域劃定,從數據庫中提取各類有用信息,方便地進行準確分析。
4.5.3.塊上地理標注(支撐屬地管理)
通過將新產生的信息塊化,并與已有塊數據匹配,找到該信息對應塊的地理標注,從而可以對新產生的信息進行地理標注,或者說對每一項數據打地理標簽。
4.5.4.塊引用:避免數據造假
通過數據塊化,將每一個新產生的數據匹配到合法的“塊”,無法匹配到合法“塊”或者與“塊”內數據有沖突的數據有可能是數據造假,比如,引用了不存在的樓棟,婚姻狀態與已有數據的沖突等??梢詫崿F從源頭上發現并解決問題。
4.5.5.塊服務:主動公共服務
通過數據塊化,可以將服務對象的最新信息推送到相關服務職能人員手上,從而實現主動服務。如某市民剛剛生育一小孩,那么對應社康中心人員或對應網格員就了解到這一信息,從而做出相關的主動基本公共服務。
結束語
GLDM經歷了五年的打磨驗證,已經趨于成熟完善。在五年的實踐中,GLDM經歷住了各種復雜情況的考驗,在完善產品的同時,也為客戶解決很多實際性的問題,得到了客戶的高度認可。
但是,GLDM現在還遠遠稱不上是一個完美的模型產品。目前的GLDM產品既是一個產品的發布,也是一個產品生命周期的第一個里程碑,是持續產品研發迭代的第一個成果。目前的GLDM還處于1。0階段,我們會結合國內各地的大數據實踐,特別是八個國家大數據綜合試驗區的實踐,推出GLDM2。0、3。0版本。
首先,由于各地各級政府關注的應用方向千差萬別,通用模型產品往往不可能囊括所有的應用,即使通過擴展主題庫已經包含了某個應用主題,但是由于本地的個性化需求也要有相應的調整,這個時候,就需要GLDM產品的擴展性來保障這些要求??梢詫LDM產品比作一個Unix內核,在這個內核基礎上,則可以派生出各種Unix主機、各種Linux發行版、蘋果的IOS系統和Google的Andriod等分支體系。當然,一些有一定共性的需求,如決策支持、證照信息、信用檔案等,可以預置在模型產品內,應類似于操作系統中的FTP服務一樣,即使各地有個性化的需求,也可以通過對現有模型的插撥式擴展來實現。
其次,羅馬非一日之功。由于沒有充分的項目驗證,在第一版發布的GLDM產品中,針對“空間地理信息資源庫”只對房屋部分展示設計,而“文化信息資源庫” 和“宏觀經濟庫”則還沒有建立相應的數據模型。即使是已經建設好的“人口庫”和“法人庫”也會隨著時間的推移進行相應的更新和調整。因此,隨著后續版本的推出,現有的模型會隨之有應用的更新,沒有包含的模型也會陸續補充進來。
最后,城市管理者即政府主管部門應該有必要的數據思維,在機制體制創新的背景下,著力推進委辦局之間數據的共享交換,打破本位主義,破除數據孤島,才是政務邏輯數據模型能夠真正發揮作用的重要保障。
GLDM1.0的發布,雖然存在一些不足的地方,但我們有信心在不斷的迭代完善產品,打造一款具有中國特色的數據模型產品,填補國際空白,為中國的“大數據城市”建設貢獻一份我們的力量,為世界的大數據實踐貢獻一份中國力量。