資料中間平台選型必讀 (7)解讀資料服務四大關鍵技術

發布時間:2024-05-06 閱讀:1865

在上一篇文章中,我們介紹了“資料服務”對“資料中間平台”的重要性,並解釋了資料服務解決的問題及其核心功能,在本系列的最後一部分,我們將討論資料服務的四大關鍵技術,然後總結資料服務架構的三個關鍵點, 希望對您有所幫助。

為了使資料中臺能夠快速響應前端業務需求,主流資料中臺採用雲原生技術構建資料服務層,實現資料服務的快速發展和有序實施。

雲原生是一種構建和執行應用的方法,它是一套技術體系和方法,所以雲原生的具體架構在此不再贅述。 我們專注於資料中間平台領域基於雲原生的關鍵技術應用。

在資料中臺領域,應用雲原生的核心優勢是每個服務至少有兩個副本,實現了服務的高可用。 同時,可以根據訪問次數動態調整服務的副本數,可以實現對客戶端透明的彈性伸縮。 服務之間的資源隔離基於容器,避免了服務之間的相互影響。 這些功能非常適合提供高併發、低延遲和資料查詢的資料服務。

以下是具體的技術應用場景。

首先,配置就是開發。

平台使用者分為兩類角色:資料服務生產者和資料服務呼叫者。 資料服務生產者只需要配置,配置就是開發。 配置包括:

資料來源。 資料加速的地方。

介面形式和訪問方式。

用於訪問隔離測試資料的測試環境。

配置完成後,資料服務平台根據配置列表完成介面的自動生產和部署。 生產部署完成後,呼叫方在平台上申請呼叫服務許可權。 通過自動化生產,配置的目的是開發,大大提高了效率。

二是多式聯運服務形式。

資料服務有多種形式,包括:

KV API:簡單的點搜尋,可以支援百萬級QPS和毫秒級延遲。 這種API是通過模板自動化建立的,支援單次查詢和批量查詢等介面,返回的結果是乙個Protobuf(PB)結構,這樣結果自動做成ORM,對主基調更友好。 典型場景包括基於IP位址查詢地理位置資訊,以及基於使用者ID的使用者標籤畫像資訊。

SQL API:基於 OLAP OLTP 儲存引擎的複雜而靈活的查詢。 通過 Fluent API 介面,使用者可以自由組合匹配乙個或多個巢狀查詢條件,查詢多個簡單欄位或聚合字段,並按頁面或完整檢索資料。 典型方案包括:使用者選擇(組合多個使用者標籤以過濾出一組使用者)。

Union API:融合 API,可以自由組合多個原子 API,包括序列和並行模式。 呼叫方不再需要呼叫多個原子API,而是呼叫融合API,通過伺服器訪問多個子查詢,可以大大降低訪問延遲。

第三,高效的資料加速。

企業的資料資產通常存在於低速儲存引擎中,無法支撐線上業務的高訪問流量。 因此,資料加速需要系統化地進行。 目前有兩種加速方法:

全資料加速。 從多個資料來源(如Kafka、MySQL、線上訪問日誌)中提取原始資料,並對其進行處理和建模,從而獲得資料資產。 資料資產通過獨立的資料同步服務同步到其他高速儲存引擎,如Redis、HBase、Druid等。 資料同步支援從Hive到其他儲存的一次性或週期性(每小時、每天、每週等)資料同步,資料同步本身基於分布式排程系統,核心基於DataX進行資料同步。 大資料服務平台單日同步資料量達1200億,資料量達20TB。

多級快取(部分資料加速)。 基於大資料服務的平台使用 Redis、HBase、Druid 和 ClickHouse 來儲存所有資料,但某些儲存(如 HBase)可能速度較慢,需要使用額外的熱點快取來快取熱資料。 熱點快取是乙個多級快取,對於每個API介面,使用者可以自由混合組合多級快取,靈活設定快取策略。 此外,對於資料量大的API,也可以配置資料壓縮,通過多種壓縮方式(如zstd、snappy、gzip等)可以顯著減少資料量(部分API甚至可以減少90%的資料量)。

第四,資源隔離。

資源隔離是可用性保證的常用方法之一,可減少意外故障和其他情況的影響。 無論是微服務還是儲存,都需要按照業務+優先順序(高、中、低)的粒度進行隔離部署,並獨立保障,做到服務互不影響,業務內部不同層次互不影響。 同一業務線中可能存在多個不同的資料服務,可以通過混合部署提高資源利用率。

綜上所述,我們可以梳理一下資料服務的核心框架。

圖中,每個已經發布的 API 介面對應乙個 Kubernates 服務,每個服務由 Pod 的多個副本組成,每個 API 介面訪問後端儲存引擎執行在 Pod 對應的容器中,並且可以通過 API 介面呼叫的變化動態建立和銷毀 Pod。

Envoy 是乙個服務閘道器,可以在服務的多個 Pod 之間對 HTTP 請求進行負載均衡。 入口控制器可以在 kubernates 中檢視每個服務的 Pod 變化,並將 Pod ip 動態寫回 envoy,實現動態服務發現。 業務系統的前端APP、Web或伺服器端通過四層負載均衡LB連線到Envoy。

基於雲原生設計,解決了資料服務不同介面之間的資源隔離問題,可實現基於請求數量的動態橫向擴充套件,同時借助Envoy實現限速、斷路等功能。

最後,我們總結了資料服務架構的要點,主要有以下三點:

支援豐富的資料來源,包括大表和寬表、文字檔案和機器學習模型(也是資料資產),以構建完整的資料服務。

支援多種資料檢索方式:除了同步快速的資料檢索外,還支援非同步查詢資料檢索、推送結果、定時任務等多種方式,滿足各種業務場景的需求。

構建統一的API閘道器:集許可權控制、限速降級、流量管理於一體,不僅平台建立的服務可以註冊到API閘道器中,使用者開發的API也可以註冊到API閘道器中,從而享受現有的閘道器基礎能力,為業務提供資料服務能力。

BI工具在大資料分析中的比較

在我們的日常工作中,我們經常使用報表進行資料分析,但很多人都知道,中文式報表最大的特點是格式複雜,資訊量大。報表資訊量很大,而報表往往包含大量的資料,如詳細資料 彙總資料等,因此如何快速生成報表並選擇合適的報表是很多資料分析師最頭疼的問題。從使用者的角度來看,最好提供方便高效的工具,但是,BI工具恰...

如何在 Excel 中篩選資料?

以Microsoft Excel 為例,方法,第一步 先開啟要檢視的Excel 第二步 選擇資料區域,點選開始工具欄中的 排序和過濾 然後點選 過濾 或者直接按快捷鍵組合Ctrl Shift L,第三步 第一行會出現下拉三角形,然後點選三角形選項過濾該列的資料,比如在搜尋框中輸入 我 然後,包括 我...

資料在業務中的作用

資料在業務中的作用 資料將在三個核心領域對企業產生深遠影響 改進決策 提高運營效率和資料貨幣化。首先,大資料可以讓企業收集更多高質量的市場和客戶資訊。隨著資料量的不斷增長,企業可以更多地了解客戶的需求 他們正在使用什麼 他們如何購買以及他們如何看待這些商品和服務。這些資訊可用於改進各個領域的決策,從...

從中電金鑫智慧型測試平台,我們可以看到“中間平台”快速發展的原因。

全球TMT,年月日 隨著年中泰概念在中國的誕生,中泰得到了迅速的發展。企業管理 技術架構 產品模型等領域已經開始引入 中間平台 的概念,企業中間平台 業務中間平台 資料中間平台.近年來,中颱已成為業內的流行做法。為什麼 中間平台 能發展得這麼快?中電金鑫認為,這背後的邏輯是中間平台對共性能力的提取 ...

盛威智慧型製造 孫繼濤 在資料中尋找“資料模型” 嘉子引力

在艱難的一年裡,中小企業在逆境中倖存下來。作者 范文靜.對於智慧型製造來說,今年也是艱難的一年。上半年長三角疫情,迫使汽車行業穩步發展停擺。盛威智慧型製造CEO孫繼濤觀察到,從傳統企業頭部開始崛起的智慧型製造,今年已經停滯不前。例如,盛威最初與該國最大的水泥生產商之一合作。.最大的鞋類製造商之一因疫...