冰山的崛起:数据架构的转变

avatar
作者
猴君
阅读量:0

像 Apache Iceberg、Apache Hudi 和 Delta Lake 这样的开放表格式已成为查询处理器的事实标准。然而,最近有消息称 Snowflake 和 Databricks 等查询引擎采用了 Iceberg 的 REST 目录 API,这改变了竞争环境,有利于 Iceberg。

Iceberg的成功不仅源于这些具有新闻价值的公告,还源于它能够解决困扰早期格式的关键问题。例如,Iceberg 为 ACID 事务、模式演变和高效的元数据管理提供了强大的支持,这些功能以前很难大规模实现。在众多令人钦佩的参赛者的竞争环境中,这种崛起类似于 Kubernetes 如何成为 Docker Swarm 的主导容器编排平台,突破了容器化应用程序的可能性界限。

存储的重要性

就像保龄球被扔到水床上一样,冰山的影响在市场的其他领域也产生了类似的变化。通过在开放式表格格式中确定一个明显的赢家,无论喜欢与否,市场也提升了存储的重要性。现在,如果存储解决方案无法支持这些开放表格式,那么在现代数据架构中,它就有可能过时。设备、不是为云构建的存储、性能不佳和操作复杂的存储在这种新的层次结构中没有立足之地。只有性能、规模和云原生存储才能跟上由越来越多地采用开放式现代数据湖所推动的创新。

查询引擎的商品化

在这个新时代,并不是说查询引擎变得不那么普遍,而是它们变得更加商品化。这种商品化将用户从局限于 SQL 或 Python 或任何特定查询引擎中解放出来,使用户能够根据其特性、性能和用例来选择查询引擎。也许最终会导致多个查询引擎出于不同的目的对相同的数据进行操作。因此,我们可以预期数据存储上的计算选项将激增,从而削弱昂贵的专有计算解决方案的主导地位。

为什么这种转变对用户有好处

将用户锁定在特定供应商生态系统中的昂贵专有计算解决方案的终结越来越有可能。用户将能够根据其组织的需求和要求从大量的查询引擎中进行选择。这反过来将迫使计算层进行创新,因为他们寻求与新的特性和能力竞争。

计算层中的更多选项意味着为用户提供更好的选择和更具竞争力的价格。主要供应商会发现保持高计算利润率具有挑战性,从而降低成本和更大的创新。分门别类往往会节省成本。

为什么这种转变对人工智能有好处

在人工智能不断增长的数据需求的推动下,随着数据湖的扩展,可扩展的存储变得至关重要。专注于 AI 的组织需要管理 PB 级的原始数据,因此需要强大且可扩展的存储系统。Iceberg 的架构支持这一需求,可以容纳高级 AI 应用程序所需的大量非结构化和结构化数据。随着资源增强生成(RAG)LLMs变得越来越普遍,交叉引用庞大、多样化的数据集的能力对于在人工智能驱动的问答系统中构建上下文和生成见解至关重要。

冰山的崛起意味着存储量的增加

在这种贪婪的数据吞噬过程中,将对高性能、可扩展和可用存储的需求。这就是冰山正在迎来的美丽新世界。在一个新世界里,对象存储是主要的,查询引擎被商品化了。一个为用户带来更多灵活性和成本效益的世界,并为人工智能应用开辟了新的可能性。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!