產生數據的大量增加對希望從數據集中釋放價值的組織提出了嚴峻的挑戰。資料從業人員必須應對海量資料帶來的許多後果,包括可管理性和協作。
這就是數據版本控制可以提供幫助的地方。數據版本控制至關重要,因為它可以讓數據團隊更快地工作,同時降低錯誤成本。
數據版本控制對於從事數據科學
研究專案的團隊尤其重要,因為這些專案需要對數據進行多次實驗。讓幾個人單獨試驗資料或輕鬆複製資料和程式碼是當今的關鍵功能。
本文深入探討了一項功能,該功能使團隊能夠使用開源工具 LakeFS 在本地實現資料版本控制:lakectl local。
使用lakeFS在資料科學和研究中的價值
資料版本控制在整合數百個不同資料集的資料科學專案中發揮著至關重要的作用,以及應用程式用於執行任務的資料流程的持續細化。一個很好的例子是機器學習演算法,它可以發現新的資料模式或根據輸入變數預測輸出值。
不斷整合新資料來源和演算法以
快速進行實驗和測試的研究團隊需要資料版本控制。
例如,Enigma使用lakeFS分支來輕鬆解決隔離問題。每個開發人員和研究人員都可以產生一個不同的資料分支,其中包含生產資 波蘭 WhatsApp 號碼數據 料的全面快照(無需額外費用)。他們可以進行更改並評估其對最終數據集的影響,而不必擔心幹擾其他人的工作或污染生產數據。
以下是數據科學和研究團隊的數
據版本控制的三個強大用例。
平行實驗
一些專案(特別是機器學習模型創建)基於動態和迭代過程,涉及測試各種元素:資料版本、轉換、演算法和超參數設定。
為了充分利用這種迭代策略
團隊必須及時、易於追蹤且可重複的方式執行測試。在開發過程中本地化模型資料可以為整個流程帶來好處,透過互動式和離線開發加速流程並減少資料存取延遲。
本地資料可用性對於創建資料版本控制系統與 Git 等來源控制系統的無縫連接非常有用。此連結對於實現模型可重複性至關重要,從而 發表於搜尋引擎優化和數位行銷 實現更有效率、協作的模型開發環境。
資料和程式碼的再現性
數據變化很快,這使得團隊很難準確地記錄不同時間段的當前狀況。
組織通常只保留資料的一種狀態:
目前狀態。向資料公開類似 Git 的介面不僅可以追蹤資料的當前狀態。
可重複性透過讓團隊在不同版本的資料之間進行時間旅行來擴展這一點。您可以在不同時期和不同修改條件下拍攝資料快照。您也可以建立分支並針對相同的輸入資料測試新版本。
最終結果是可重複、原子和 最後的資料庫 版本化的資料湖活動,從而改善資料管理。
LakeFS 中的本地 Lakectl 是什麼?
LakeFS 將類似 Git 的技術引入資料世界,因此描述lakectl local(本地結帳)的最簡單方法是使用 Git 類比。
當您從儲存庫的分支或分支收到拉取請求
您可以在本機合併它以解決合併衝突或在將變更合併回主分支之前測試和驗證變更。
如何在lakeFS中使用lakectl local
LakeFS CLI 的本地命令使lakectl您能夠在本地處理 LakeFS 數據,方法是將 LakeFS 數據傳輸到任何系統上的目錄中、將本地目錄與遠端 LakeFS 位置同步以及將 LakeFS 與 Git 整合。
將 LakeFS 中儲存的資料複製到您
的電腦後,您可以識別正在使用的 Git 版本,並建立可複製的本機工作流程,這些工作流程可擴展且易於使用。
查看我們有關如何在本地使用 LakeFS 資料的文檔。
lakectl使用本地 Git的實際範例
在此範例中,我們將開發一個 ML 模型來預測影像是否為羊駝毛。我們的目標?改進模型的輸入。
模型程式碼使用 Git 進行版本控制,而模型資料集則在 LakeFS 的幫助下進行版本控制。