首頁 » 2024 年資料工程現狀

2024 年資料工程現狀

自 2021 年以來,我們一直在發布年度資料工程狀況報告,該報告匯集了對資料工程基礎設施有直接影響的所有相關類別。

到 2024 年,我們看到影響本報告所涵蓋類別的 3 個主要趨勢。

要存取此報告的 PDF 版本,其中包含

公司連結和所有類別的清單視圖,您也可以 按一下此處 (請注意,我們將需要一些聯絡資訊)。要簡單地放大圖像,請立即單擊它
趨:GenAI 對軟體基礎設施的影響
正如《2023 年資料工程狀況報告》中所預測的那樣,2024 年版本深受生成式 AI 興起的影響。在 2024 年的報告中,我們將討論這種對儲存、運算引擎、MLOps 和可觀測性工具的影響,但您也可以在幾乎每個類別的功能中找到它的足跡。由於我們不討論硬件,因此您只會看到 Nvidia 被提及一次,即 GPU 超出了本報告的範圍。

趨勢:產品種類的擴展

2023年報告的另一個面向是經濟衰退對企業成長的影響。雖然市場指數正在上漲,但這是由於少數公司在硬體和基礎模型方面引領了 GenAI 革命。對於市場的其他部分來說,鬥爭仍在繼續,這使得數據領域的科技公司更難發展,因此我們繼續看到公司競相發展並將其產品擴展到相鄰領域,以努力增加收入。

趨勢開放的表格格式及其目錄創建封閉的花園

開放表格式及其目錄正在資料湖中掀起波瀾,並可能成為間巨大戰爭的中心。目錄正在成為一種將開放環境變成封閉花園的技術,而 Databricks 和 AWS 似乎正在朝這個方向努力。二月份的 Apache Iceberg 社群呼籲圍繞 荷蘭 WhatsApp 號碼數據 著從程式碼庫中排除除一個目錄之外的所有目錄,導致一些有趣的目錄發佈到開源,以對抗 Tabular 似乎接管社群的舉動。噢,戲劇!

既然我們引起了您的好奇,讓我們深入了解細節。

食入
此層包括串流技術和 SaaS 服務,提供從作業系統到資料儲存的管道。

由於 Kafka 是標準,它已經成為一種協議。其他試圖滲透到這裡的玩家正在使用相同的介面和自己的創新技術,例如和Apache Pulsar。請在此處閱讀有關此觀察的更多資訊。

資料湖

WhatsApp數據

此層包括用作資料湖的物件儲存技術。

深度學習的興起對儲存和架構提出了要求。資料檢索必須快速,以幫助盡可能減少模型訓練的時間,從而降低成本。儲存效能變得 提供無限的電子郵件地址和網域 至關重要。資料湖類別、物件儲存提供者迎接了挑戰。 始終關注性能並擁有可證明其性能的基準。 Amazon 發布了 S3 Express One Zone,這是一種新的儲存層,顯示出資料檢索效能的數量級。海量資料發布了Vast Platform,這是一款針對AI用例的產品,可提供深度學習所需的效能。

由於需要讓資料更接近運算,因此發布了

多個允許本地掛載儲存資料的開源工具,例如於 6 月初推出自己的掛載功能。

元資料管理
開放表格式 (OTF)
這個類別及其三個參與者都 最後的資料庫 是在一個基金會下完全開源的,並且有商業公司將其作為其核心業務策略的一部分進行維護。

去年,Apache 宣佈在這一類別中取

得勝利從市場轉向基於 Apache Iceberg 的環境的趨勢來看,這一點很可能不會改變。 Snowflake 去年宣布支持 也專注於透過其數據產品提供 Iceberg 支持,而Starburst最近也宣布了對 Apache Iceberg 的產品支持,使其產品與從第一天起就基於 Iceberg 構建的Dremio相當。繼續閱讀 Apache Iceberg 接管開放式表格式 (OTF) 的更多面向。

看來Delta Lake現在只是 使用者的選擇。考慮到其不斷增長的市場份額,這可能是輕描淡寫的。

元儲存

此類別包括資料湖的元存儲,允許資料湖的 SQL 介面等。

Iceberg 收購的直接影響是新的、先進的 Iceberg REST 目錄,它們與Tabular、LinkedIn 開源的 以及作為其 OSS 資料平台一部分的Gravitino競爭。雖然 Iceberg 的創作者變得越來越商業化,但為 Apache Iceberg OSS 做出巨大貢獻的企業正在繼續培育 Iceberg 及其周圍的 OSS 生態系統。恕我直言,這場關於 Apache Iceberg 獨立性和開放性的鬥爭才剛開始。

我們也提供了關於元儲存如何成為封閉花園和供應商鎖定的大門的看法。

返回頂端