組織中的某人擁有資料湖或資料湖房子。所有者的頭銜可能會改變,但手頭上的任務保持不變。無論您是 DataOps 團隊、資料工程團隊還是 MLOps 團隊,這種所有權意味著優化儲存成本現在已成為工作的一部分。
您的工作是保持湖泊清潔清澈
同時最大限度地降低儲存成本。幸運的是,如果採取正確的方法,這些目標可以同時實現。
在本文中,我們將回顧骯髒且超大的資料湖(通常稱為資料沼澤)背後的常見原因,以及如何使用正確的技術來避免它。
我的湖變成了沼澤:出了什麼問題?
組織努力充分利用他們的數據。為此,他們鼓勵許多利害關係人訪問並依賴它來滿足自己的需求。
這種資料管理方法稱為資料民主化。在企業中,它將附帶相關治理以確保遵守相關標準,例如GDPR。
雖然這種方法可以最大限度地提高資料的價值,但由於以下原因,它也會對儲存消耗造成影響:
1. 複製隔離數據從業者
希望在管道或模型的開發、實 驗測試過程中對數據進行更改而不影響其他人。在沒有其他工具的情況下,建立資料的副本或樣本是 阿曼 WhatsApp 號碼數據 剩下的兩個選項。這些解決方案創建了許多數據及其樣本的重複,並且是沼澤的主要構建塊。
2. 重複以實現再現性
這是研究和工程領域眾所周知的良好實踐,以確保您可以重現計算結果,從而產生與他人共享的數據見解。在許多垂直行業中,這不僅是一種好的做法,更是七年前所要求的一項法規。在許多情況下,組織透過保存每次交付的資料產品的輸入和輸出來解決這個問題。如果沒有正確的工具,這通常意味著多次保存相同的數據,因為相同的數據集可能在多個數據產品的見解中發揮作用。
保留政策資料保留策略是組織整體
資料管理策略的組成部分。由於數據可能會快速積累,因此企業採取措施確定必須保留某些數據的時間至關重要。
組織應該只根據需要保留數據,無論是五個月還是七年。保留資料的時間超過必要的時間會消耗額外的儲存空間並增加費用。管理安全資料 如何在 時間軸上出售你的腳照? 保留策略並不是一件容易的事,關於「我如何刪除生產資料」的多個故事暗示了它所需的防火演習。良好的保留策略能夠準確地反映業務需求,並且很容易從中得出。以最低的成本以所需的效能存取所需的資料。如果處理不當,缺乏適當的保留會加劇沼澤的形成。
儲存層的次優使用
良好的保留策略包括使用儲存層。主要雲端供應商允許不同的儲存層,其成本根據使用頻率而變化。以最佳方式使用分層是 最後的資料庫 儲存成本的關鍵方面。
在某些情況下,使用雲端自動化進行分層可能是最佳選擇,在其他情況下,最好根據您的業務邏輯使用您自己的最佳化。
透過使用資料版本控制降低資料儲存成本
隔離工作
建置和維護多個 ETL 需要團隊定期開發和測試新的和現有的管道。
為了在整個資料湖上正確測試 ETL 管道,大多數資料工程師會建立整個資料湖的本機副本並對其進行測試。如果定期進行,這種做法可能會導致資料儲存的使用成倍增加,而這是完全不必要的。
解決方案是使用提供分支功能的資
料版本控制工具,從而無需複製資料本身即可建立開發和測試環境。
透過消除複製、維護和擺脫多個資料湖克隆的需要,這樣的解決方案可以幫助顯著降低資料儲存成本並提高資料工程效率。
LakeFS是一個開源解決方案,可在資料湖上提供類似 Git 的操作。使用lakeFS,資料工程團隊可以立即建立開發和測試環境,而無需複製任何內容,因為lakeFS使用元資料(指向資料的指標)並且不會建立資料本身的副本。