<del id="nnjnj"></del><track id="nnjnj"></track>

<p id="nnjnj"></p>

<address id="nnjnj"></address>

    <pre id="nnjnj"><pre id="nnjnj"></pre></pre>

      <noframes id="nnjnj"><ruby id="nnjnj"><ruby id="nnjnj"></ruby></ruby>

      • 自動秒收錄
      • 軟件:1973
      • 資訊:57811|
      • 收錄網站:279872|

      IT精英團

      數據庫發展史II-數據倉庫

      數據庫發展史II-數據倉庫

      瀏覽次數:
      評論次數:
      編輯: 景同
      信息來源: ITPUB
      更新日期: 2022-09-16 15:33:18
      摘要

      回顧數據倉庫的發展歷程,大致可以將其分為幾個階段:萌芽探索到全企業集成時代、企業數據集成時代、混亂時代--"數據倉庫之父"間的論戰、理論模型確認時代以及數據倉庫產品百家爭鳴時代。數據倉庫理論發展歷程上

      • 正文開始
      • 相關閱讀
      • 推薦作品

      回顧數據倉庫的發展歷程,大致可以分為幾個階段:從萌芽探索到整個企業集成時代、企業數據集成時代、混沌時代——‘數據倉庫之父’之爭、理論模型確認時代、數據倉庫產品百家爭鳴時代。

      數據倉庫理論發展史20世紀70年代,在IBM的E.F.Codd等人提出關系數據庫之后,MIT的研究人員又分別提出了構建分析系統的基礎理論。新理論試圖將業務處理系統和分析系統分開,即將業務處理和分析處理分為不同的層次,根據各自的特點采用不同的架構設計原則。他們認為這兩種信息處理方式差別很大,應該使用不同的架構和設計。但受限于當時的技術能力,這一研究僅停留在理論層面。80年代初,W.H.Inmon開始了“記錄系統”、“原始數據”和“決策支持數據庫”等課題的研究。幾乎與此同時,在數據庫分類的研究中,J. Martin特別提到了一種“用戶驅動的計算環境”,他稱之為“第四種數據庫”。為這種環境提供的信息服務是一種數據庫,具有“搜索和快速信息恢復”的基本特征。這個定義已經很像后來的數據倉庫了。

      1988年,IBM的研究人員創造性地提出了一個新概念——數據倉庫。1991年,數據倉庫之父W.H.Inmon發表了數據倉庫的經典著作——《構建數據庫倉庫》,標志著數據倉庫概念的確立。書中指出,DW是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,并且是用于支持管理決策的數據集合。's書也為數據倉庫的建立提供了指導意見和基本原則。憑借這本書,W.H.Inmon被稱為數據倉庫之父。

      由于傳統的關系數據庫不能滿足構建數據倉庫的需求,1993年,Codd提出了多維數據庫和多維分析的概念,即OLAP(online Analysis Processing)。當時Codd認為OLTP(聯機事務處理)無法滿足最終用戶對數據庫查詢的需求,SQL對大型數據庫的簡單查詢也無法滿足用戶分析的需求。用戶的決策分析需要在關系數據庫上進行大量的計算才能得到結果,但是查詢結果并不能滿足決策者的需求。因此,人們提出了多維數據庫和多維分析的概念,即OLAP。1995年Ralph Kimball發表《數據倉庫工具箱》,數據倉庫行業進入少林武當之爭。Inmon主張自頂向下的方式構建數據倉庫和關系數據庫第三范式設計數據倉庫模型,Kimball主張自底向上的方式推進數據市場建設。數據倉庫領域的兩位大咖就此展開了激烈的爭論,他們的粉絲也站了隊。直到Inmon推出了新的BI架構CIF,其中包括Kimball的數據集市,這一爭論才得以解決。

      早期MPP時代的幾個倉庫

      IBM DB2 Teradata是早期倉庫理論的實踐者和市場領導者。Teradata是MPP倉庫最成功的商業產品,幾乎是行業的天花板。Teradata公司誕生于20世紀70年代末,名字來源于Tera Bytes。TB數據的存儲也顯示了哪個時代創業者的野心。最后,在1992年,華爾街出現了第一個結核病數據庫。1999年,客戶擁有130TB的數據,分布在176個節點上。短短7年,Teradata客戶的數據規模增長了176倍。

      但進入新千年后,數據庫巨頭間的競爭進入白熱化階段,以Oracle Exadata為代表的一體機很快嶄露頭角。之后在Postgres基礎上演變而來的Greenplum構建了開源的MPP架構數倉,也在市場中有很高的影響力。但真正讓數倉煥然一新的是云計算時代的云原生數倉Snowflake。

      一體機時代的數倉

      新千年后,數倉進

      入一體機的快速發展時代,典型代表是Netezza、SAP HANA和Oracle Exadata。Netezza率先推出,后來被IBM收購。而Oracle Exadata為代表的一體機依然是今天Oracle公司的核心業務。2008年,Exadata V1誕生,由Oracle提供軟件惠普提供硬件,這一代產品僅支持數據倉庫和商務智能等OLAP工作。到了2009年9月,Exadata V2發布,采用了SUN的(此后MySQL也屬于了Oracle),次年Oracle完成了SUN的收購。在V2版本中,Exadata存儲節點中首次采用了Flash卡,從而可以同時支持OLAP和OLTP類型的負載。有了高性能產品的同時也有了極其昂貴的價格。著名的Conor O'Mahony(DB2的市場經理)羅列了使用一臺全機架系統(full-rack)Exdata V2所需的費用列表:
      1. $1,150,000 硬件價格

      2. $1,680,000 存儲服務器的軟件價格

      3. $369,600 存儲服務器軟件支持和維護費用(以22%計)

      4. $1,520,000 Oracle企業版軟件價格($47.5k*8 servers*8 cores*0.5 Intel core factor)

      5. $736,000 Oracle RAC軟件價格($23k*8 servers*8 cores*0.5 Intel core factor)

      6. $368,000 Oracle分區特性價格 ($11.5k*8 servers*8 cores*0.5 Intel core factor)

      7. $368,000 Oracle高級壓縮(Advanced Compression) ($11.5k*8 servers*8 cores*0.5 Intel core factor)

      8. $160,000 Oracle企業管理器診斷包(推薦安裝)

      9. $160,000 Oracle企業管理器調優包(推薦安裝)

      10. $728,640 以上除去存儲服務器軟件的第一年軟件維護支持價格(以22%計)

      Oracle Exadata 一體機

      如此昂貴的價格,對于一般企業顯然無法接受。人們相信全新一代的數倉技術一定會在一個萬眾囑目的情況下出現,像蓋世英雄身披金甲圣衣,腳踏七彩祥云而來。

      云計算時代的數倉

      隨著移動互聯網、物聯網的蓬勃發展,率先掀起數據庫革命的是Google公司,他的三篇論文開啟了大數據時代,之后言數倉、大數據必稱Hadoop。但它的弊病也頗為明顯,昂貴、不方便使用、難維護等問題始終無法很好的解決。直到計算機行業七彩祥云--云計算出現,為整個行業和人類生活帶來巨大變化。而此時的數據倉庫在變更的前夜顯得異常安靜,古語言:三年不鳴一鳴驚人,Snowflake 就是三年不飛一飛沖天的云計算時代云原生數倉產品。

      2012年,在Oracle公司工作十多年的2位程序員決心在云上建立一個數據倉庫,于是誕生了Snowflake公司。它誕生的第一天,就有云計算的特點:存儲與計算分離、按量付費、云中立。作為第一個基于云原生的數據倉庫,Snowflake 敏銳的抓住從本地到上云的時代趨勢,充分利用公有云強大基礎設施能力,讓用戶更加輕松實現跨云平臺、跨區域的方式移動數據。這種基于云原生、云中立、跨多云平臺的云原生數據服務,為客戶提供巨大數據價值的同時,極大降低了客戶使用、維護、價格成本。

      Snowflake產品上的成功同時也取得資本市場的巨大成功。2020年9月16日,在紐交所成功IPO,股神巴菲特斥幾億美元入股,交易首日股價翻倍市值達到704億美元,成為史上規模最大的軟件IPO,之后市值一度最高突破1200億美元,儼然成為資本市場的寵兒。

      數據倉庫和數據庫關系

      廣義的數據倉庫并不是一項技術,也不是一個產品,而是一種數據處理過程。數據倉庫的數據來源有多種,業務系統、日志、互聯網、系統運行參數等等,這些數據可以在數據倉庫中進行匯合,然后通過統一的建模,加工成服務與數據分析的數據模型,最終輔助企業分析決策。那如何構建數據倉庫呢?常見的是使用OLAP數據庫(如近年流行Clickhouse)存儲數據,通過數據建模、ETL、數據可視化等一系列操作,這一過程被稱為構建數據倉庫。由于數據倉庫基于OLAP產品,是做在線分析處理,這是與數據庫的本質區別。另外,既然是數據倉庫就要加工數據,加工數據會耗時間,所以加工數據在實際的應用中又分為批處理和實時處理。而傳統的數據庫是為了解決事務存在的,他們的區別如下。

      總結和展望

      數據倉庫是80~90年代提出的概念,互聯網企業為了解決更大數據量的管理問題,掀起了大數據技術新浪潮,大數據已經跳出了數倉定義領域,未來再專題闡述。隨著2020年云原生數倉Snowflake上市并取得巨大的成功,大家開始趨向把數據倉庫、大數據、數據湖、云存儲的技術全面融合,全世界掀起了云原生數據倉庫和湖倉一體的熱潮,國際上Databricks、Clickhouse已經正面PK,國內有SequoiaDB、MaxCompute,AnalyticDB,GaussDB(DWS),OuShuDB、StarRocks、SelectDB、HashData等不下數十款產品,還有很多類似HTAP新品在路上,未來必將迎來百倉大戰的腥風血雨。

      數據倉庫發展史


      i.MX8MQ自制背板無PCIe問題詳解
      ? 上一篇 2022-09-16
      圖系列中推薦算法的召回與粗排實踐
      下一篇 ? 2022-09-16
      • 如何在Ubuntu中保留文件系統并備份當前開發板鏡像
        0閱讀 0條評論 個贊
        在Ubuntu保留文件系統或者說備份當前開發板鏡像的需求在不斷增加。比如Ubuntu文件系統需要安裝庫文件的話直接使用apt-get工具就可以下載,但由于需要下載的核心板較多,比較費時間,這時需要將安……
      • 國產核心板全志T507助力消防系統升級
        0閱讀 0條評論 個贊
        9月16日下午,位于湖南長沙市區內的中國電信大樓發生火災,建筑高度218米,現場濃煙滾滾,數十層樓體燃燒劇烈。消防救援人員趕到現場后很快將火勢控制住,目前大樓火勢已被撲滅,所幸未發現人員傷亡。湖南電信……
      • 教大家如何處理Spring Boot易流中的用戶和群體!
        0閱讀 0條評論 個贊
        1.準備工作2.用戶操作2.1添加用戶2.2修改用戶2.3刪除用戶2.4查詢用戶3.組操作3.1添加組3.2修改組3.3刪除組3.4查詢組4.查看表詳情雖然說我們在實際開發中,……
      • 從PG15開始WAL壓縮優化
        0閱讀 0條評論 個贊
        PG15傳聞中的超級令人激動的功能大多數跳票了,年初我也寫過一個關于PG15新功能跳票的文章。PG15BETA已經發出幾個月了,似乎PG15里令人激動人心的功能不多,不過從長長的新功能列表里,……
      • 深入了解美團葉子發射器開源方案
        0閱讀 0條評論 個贊
        大家好,我是樹哥。之前我們有聊過「如何設計一個分布式ID發號器」,其中有講過4種解決方案,分別是:UUID類雪花算法數據庫自增主鍵Redis原子自增美團以第2、3種解決方案為基礎,開發出……
      發表評論 共有條評論
      用戶名: 密碼:
      驗證碼: 匿名發表
      • Java開發學習(29)——Maven依賴轉移、可選依賴和排除依賴分析
        0閱讀 0條評論 個贊
        現在的項目一般是拆分成一個個獨立的模塊,當在其他項目中想要使用獨立出來的這些模塊,只需要在其pom.xml使用標簽來進行jar包的引入即可。其實就是依賴……
      • :自古以來 特工程序就是兵家必敗之地
        0閱讀 0條評論 個贊
        正向代理的血案前幾天打算使用golang做一個代理程序,golang標準庫net/http/httputil已經提供了這樣的能力。一把梭之后發現必然返回403Forbidden,我直接在targe……
      • 當老板讓我從Java8升級到Java11時
        4閱讀 0條評論 個贊
        老板讓我把一個項目從Java8遷移到Java11,我該怎么辦呢?最簡單的辦法,當然是直接強行升級,遇到一個錯就改一個錯,別看它low,但是對于一個小型且非核心的項目來說,已經足夠了。當然,……
      • 記錄在線超時的分析和故障排除過程
        0閱讀 0條評論 個贊
        .css-1yuhvjn{margin-top:16px;}.css-3jt6os.FileLinkCard{-webkit-align-items:center;-webkit-box-align……
      • Java核心知識系統4: AOP原理和部分應用
        0閱讀 0條評論 個贊
        1概述我們所說的Aop(即面向切面編程),即面向接口,也面向方法,在基于IOC的基礎上實現。Aop最大的特點是對指定的方法進行攔截并增強,這種增強的方式不需要業務代碼進行調整,無需侵入到業務代碼中,……
      • k8s網絡持久存儲的StorageClass(如何一步步實現動態持久存儲)
        0閱讀 0條評論 個贊
        StorageClass的作用:創建pv時,先要創建各種固定大小的PV,而這些PV都是手動創建的,當業務量上來時,需要創建很多的PV,過程非常麻煩。而且開發人員在申請PVC資源時,還不一定有匹配條件的……
      • 數據庫發展史1-傳統數據庫
        0閱讀 0條評論 個贊
        1946年,美國賓夕法尼亞大學誕生了人類第一臺電子計算機--ENIAC(ElectronicNumericalIntegratorAndComputer,即電子數字積分計算機),這個占地170……
      • 從PG15開始WAL壓縮優化
        0閱讀 0條評論 個贊
        PG15傳聞中的超級令人激動的功能大多數跳票了,年初我也寫過一個關于PG15新功能跳票的文章。PG15BETA已經發出幾個月了,似乎PG15里令人激動人心的功能不多,不過從長長的新功能列表里,……
      • SpringMVC 03: 請求和響應的亂碼解決 + SpringMVC響應Ajax請求
        1閱讀 0條評論 個贊
        請求或響應的中文亂碼問題tomcat9解決了get請求和響應的中文亂碼問題,但是沒有解決post請求或響應的中文亂碼問題tomcat10解決了get和post請求以及響應的中文亂碼問題考慮到實際項目中……
      • 圖解架構| SaaS、PaaS、IaaS
        0閱讀 0條評論 個贊
        這是悟空的第164篇原創文章官網:www.passjava.cn你好,我是悟空哥。上次聊到了架構圖如何畫,其中涉及到了云服務的架構圖,里面提到了很重要的三個概念PaaS、IaaS、SaaS,很有必要……
      • 如何不寫YAML來管理Kubernetes應用程序?
        2閱讀 0條評論 個贊
        Kubernetes將自身邊界內的事物都抽象為資源。其中的主要部分,是以Deployment、StatefulSet為代表的workload工作負載控制器,其他各類資源都圍繞這些主要的資源工……
      • 基于ASP.NET核心6.0的簡潔架構
        0閱讀 0條評論 個贊
        背景最近嘗試錄制了一個系列視頻:《ASP.NETCore6.0+Vue.js3實戰開發》,本節是視頻內部整潔架構的理論和實戰的文字稿。因為在錄制之前,我通常會編寫完整的文字內容作為視頻文案,這……
      • 我們能從AlloyDb的架構中學到什么
        0閱讀 0條評論 個贊
        前些天我發了一篇解讀信通所分布式數據庫發展報告內容的文章,有些朋友對我把Aurora、AlloyDB、PolarDB等也歸類于分布式數據庫感到有些不解。實際上這是信通所在報告里的歸類,和國際上的常見歸……
      • python入門系列(十)學習Python文件處理
        0閱讀 0條評論 個贊
        文件處理在Python中處理文件的關鍵函數是open()函數。有四種不同的方法(模式)來打開一個文件"r"-讀取-默認值。打開一個文件進行讀取,如果文件不存在則出錯。"a"-Append……
      • SQL Server動態生成分區腳本
        0閱讀 0條評論 個贊
        一、前言前段時間使用表分區比較多,雖然已經寫了SQLServer合并(刪除)分區解惑、SQLServer2005分區模板與實例,但是在實踐中一直感覺修改SQL腳本的時間比較多,一直想抽個時間來把……
      • 構建docker鏡像庫(1):用注冊表構建本地鏡像庫
        0閱讀 0條評論 個贊
        目錄一.系統環境二.前言三.使用registry搭建私有鏡像倉庫3.1環境介紹3.2k8smaster節點配置鏡像倉庫3.3k8sworker1節點配置從私有倉庫上傳和拉取鏡像3.3.1上傳鏡……
      • smile——Java機器學習引擎
        2閱讀 0條評論 個贊
        資源https://haifengl.github.io/https://github.com/haifengl/smile介紹Smile(統計機器智能和學習引擎)是一個基于Java和Scala的快速……
      • 數字人技術在直播場景中的應用
        0閱讀 0條評論 個贊
        作者|薄志浩導讀introduction本文介紹了在數字人AI技術發展迅猛,整體AI數字人市場呈現高速增長的趨勢下,與強調高實時性互動的直播業務場景的結合與應用,通過數字人渲染技術、強大的AI全棧能……
      • Java線程面試題前50名
        0閱讀 0條評論 個贊
        .css-1yuhvjn{margin-top:16px;}.css-3jt6os.FileLinkCard{-webkit-align-items:center;-webkit-box-align……
      • 公司排班系統遇到瓶頸?我自己造一個!
        10閱讀 0條評論 個贊
        本期名人堂我們有幸邀請到了白鯨開源的聯合創始人代立冬先生。代立冬先生與我們分享了自己社區開源的經歷,詳細介紹了一個開源項目是如何加入Apache孵化器,如何在導師的輔導下慢慢孵化、成長的過程,以及自己……
      最近發布資訊
      更多
      警花高潮嗷嗷叫
      <del id="nnjnj"></del><track id="nnjnj"></track>

      <p id="nnjnj"></p>

      <address id="nnjnj"></address>

        <pre id="nnjnj"><pre id="nnjnj"></pre></pre>

          <noframes id="nnjnj"><ruby id="nnjnj"><ruby id="nnjnj"></ruby></ruby>