戴爾提高了旗下數據湖倉的查詢速度,添加并升級了連接器,改進了監控并提升了安全性。
今年三月,戴爾宣布讓旗下AI產品組合中的數據湖倉使用Starburst Presto 查詢引擎、Kubernetes組織的湖倉系統軟件以及基于戴爾ECS、ObjectScale 或 PowerScale存儲產品的橫向擴展S3兼容對象存儲。
Starburst在去年2月推出了Warp Speed 技術,以及Apache Lucene索引和緩存技術,聲稱它可以將基于文本的查詢處理速度提高多達7倍。現在,它攜手更多連接器和其他改進一起進入了戴爾的數據湖倉。
戴爾產品經理 Vrashank Jain 寫道:“Warp Speed是Dell Data Lakehouse中的一項新功能,它可以自主學習查詢模式并識別經常訪問的數據,以創建最佳索引和緩存,同時將不常訪問的數據保留在原地。”
它可以提高查詢性能,“對于前20%的查詢,性能可以提高3到5倍”。
無需數據工程即可自動為數據湖編制索引,并且可以使用查詢加速構建和填充更高性能的面板。自主索引“為每個數據塊創建適當的索引類型(位圖、字典、樹),從而加速聯接、過濾器和搜索等操作。索引存儲在計算節點的 SSD 上,可以快速訪問。”
Jain寫道:“智能緩存是一種專有的SSD列式塊緩存,可根據數據使用頻率優化性能。緩存消除了不必要的表掃描,并在查詢之間提供了更多的數據重用,從而節省了計算成本。”
“借助 Warp Speed,最終用戶無需對查詢進行任何修改,同一集群就可以將數據湖查詢的速度提高 3 到 5 倍。它還可以幫助將集群規模減少多達 40%。”客戶可以在大型集群上運行更多查詢,也可以在較小的集群上運行相同數量的查詢。
Jain表示:“只有Dell S3 兼容存儲上的數據湖支持”該Warp Speed功能。
戴爾還為數據湖倉添加了更多增強功能:
支持通過 Kerberos 連接到現有的Hive Metastore,實現無縫的元數據操作并強化數據治理。
Neo4j 圖形數據庫連接器為公共預覽版,并且有一個改進的 Snowflake 并行連接器,可實現更高效的查詢。
升級連接 Iceberg、Delta Lake、Hive、Db2、Netezza、RedShift、SAP HANA、Snowflake、SQL Server、Synapse 和 Teradata 的連接器。這些速度更快、功能更強大的連接器可執行join下推和數據類型處理等操作。
PowerScale 和 ObjectScale 存儲系統已過全面驗證。
戴爾支持團隊現在可以進行運行狀況檢查,以在安裝或升級之前或之后使用自動運行狀況檢查評估客戶集群的狀態。運行狀況檢查對于確保零宕機時間至關重要。
Data Lakehouse 現在可以直接向戴爾支持團隊發送關鍵系統故障警報,以便主動處理故障狀態或待處理故障情況。
可選的內部組件端到端加密,包括所有計算節點、緩存服務和元存儲。但是,此功能會影響性能,因此在調整集群大小時應考慮此功能以滿足性能SLA。
除了現有的一年期和三年期訂閱外,還提供五年期軟件訂閱選項,這將有助于讓硬件和軟件支持條款時長保持一致,可以簡化采購。
更廣泛的全球可用性,可在歐洲、非洲和亞洲的更多國家/地區供貨。
Warp Speed 包含在現有的 Dell Data Lakehouse 許可證中。計算節點的配置將進行修改,以包括已由戴爾測試和基準測試的SSD,支持Warp Speed索引和緩存。
潛在客戶可以在戴爾演示中心訪問戴爾的Data Lakehouse,很快還可以在客戶解決方案中心訪問戴爾的Data Lakehouse,以進行交互式探索和系統驗證。客戶和合作伙伴可以通過在演示中心創建一個免費帳戶來試用。