上周六,第二十一期「Data Infra 研究社」在线上与大家相见。活动邀请到了西门子数据分析师陈砚林与 Databend 联合创始人王吟,为我们带来了一场关于 Snowflake 和 Databend 的技术探索。Snowflake,这个市值曾超过 700 亿美元的云原生数据仓库巨头,以其独特的存储与计算分离架构,正在改变传统数据仓库的面貌。尽管进入中国比较晚,Snowflake 仍凭借其强大的数据处理能力和弹性扩展性,赢得了市场的青睐。
与此同时,开源的 Databend 以高性能、低成本的优势,成为了 Snowflake 的最具性价比的开源平替。Databend 的存算分离架构和对象存储技术,不仅提供了高弹性的云原生数仓体验,还通过开源社区的力量,不断推动技术创新。
本次活动不仅深入探讨了 Snowflake 在中国的应用现状,还详细介绍了 Databend 如何作为开源替代方案,在云原生数据仓库领域崭露头角。无论是实时数据分析、大规模日志处理,还是数据归档和业务数据链路追踪,Databend 都展现了其卓越的能力。
以下为本期 Data Infra 的相关文字、视频及资料:
视频回顾
Snowflake 是全球领先的云原生数据仓库,于 2020 年上市并创造了超过 700 亿美元的市值。Snowflake 的出现彻底改变了传统数据仓库的架构模式,采用独特的存储与计算分离的技术架构,能够实现弹性扩展与高性能的数据处理。这种按需扩展的能力帮助企业显著降低了 IT 成本,同时提升了数据分析和处理的效率。
Snowflake 的开源平替——新一代云原生数仓 Databend
Databend Labs 联合创始人王吟
Databend 是一个新一代云原生数据仓库产品,基于存算分离架构和对象存储技术,提供高弹性、按需付费的云原生数仓体验。其核心目标是打造一个开源版的 Snowflake,为全球企业提供低成本、高性能的数据仓库解决方案。
Databend 的技术与团队背景
Databend 的技术核心团队汇集了来自全球各大科技公司的专家,包括 Google、阿里云、青云、OceanBase 等顶级云计算厂商和数据库厂商。团队成员不仅具备丰富的数据库和云计算技术经验,还在多个开源项目中做出过重要贡献,如 ClickHouse、TokuDB(Mysql 内核)等。
Databend 的架构设计充分体现了团队的技术实力和创新思维。作为一款完全基于 Rust 语言开发的云原生数仓,Databend 采用存算分离架构,利用对象存储来构建一个高弹性、按需扩展的分布式数据处理平台。这种架构不仅提高了资源利用率,还大幅降低了运营成本。
Databend 从第一天起就是开源的,经过三年多的自然增长,已经在 GitHub 上获得超过 7700 个 stars,拥有 190 多名 contributor,其中约 40% 来自公司外部的社区成员。社区的活跃参与使 Databend 的功能不断完善,用户群体也在持续扩大。
Databend 的核心产品
Databend 目前提供两种主要的产品形式:Databend Cloud 云平台 和 私有化部署方案。
Databend Cloud
Databend Cloud 是一个完全托管的云数据仓库服务,用户可以按需使用并根据实际使用量付费。Databend Cloud 提供了一站式的 SaaS 服务,用户无需关心底层基础设施的维护与运维,只需关注数据的存储和分析。这种模式不仅简化了用户的使用体验,还大幅降低了 IT 部门的运维压力。
Databend Cloud 目前支持国内外多个地区的部署,用户可以选择靠近自己业务的云区域来部署数据仓库,确保数据传输的低延迟和高可靠性。为了满足企业对数据安全和合规性的要求,Databend Cloud 提供了严格的访问控制和权限管理机制,确保数据在传输和存储过程中的安全性。
私有化部署方案
对于一些对数据安全性要求较高的企业用户,Databend 还提供了私有化部署方案。该方案分为 社区版 和 企业版 两个版本:
-
社区版:社区版是完全免费的开源产品,用户可以直接从官网或开源社区下载并自行部署。该版本适合希望灵活定制和完全控制数据仓库的小微企业或开发者。
-
企业版:企业版针对企业级用户,提供了更多的高级功能支持,如用户定义函数(UDF)、历史数据删除功能以及企业级的 7*24 小时专属支持服务。这些功能使企业版成为那些对数据仓库有更高功能需求且需要专业支持的企业的首选。
无论是 Databend Cloud 还是私有化部署方案,Databend 的内核都是完全开源的,用户可以根据需求灵活选择适合自己的部署模式。
构建完整的生态系统
Databend 在产品设计上非常注重生态系统的建设,力求为用户提供一个完整的从数据导入到数据展示的全链条解决方案。在数据导入方面,Databend 支持与多个第三方工具的集成,包括 Airflow、DBT、Flink、Debezium 和 CDC 等 技术,确保用户可以轻松地将数据从各种来源导入到 Databend 数据仓库中。
在数据展示方面,Databend 与多个主流的 BI 工具进行了深度集成,例如 Tableau、Power BI、Superset 等,使得用户可以快速生成图表、报表,并对数据进行深度分析。用户通过这些 BI 工具可以实时获取数据仓库中的分析结果,大大提高了数据的可视化效率。
为了方便开发者和数据工程师的使用,Databend 还提供了一个名为 BendSQL 的命令行工具。这个工具类似于 Snowflake 的 SnowSQL,用户可以通过 BendSQL 与 Databend 数据仓库进行直接的命令行交互,执行查询、数据导入和导出等操作,极大地方便了日常开发和运维任务。
性能对比:Databend VS. Snowflake
在云数据仓库领域,Snowflake 是目前市场上的领军企业之一,其独特的架构设计和产品优势使其得到了广泛应用。Databend 在架构设计上与 Snowflake 有诸多相似之处,二者均采用了存算分离架构和对象存储技术,但 Databend 也在多个方面表现出了明显的差异和优势。
Databend 的架构设计体现了现代云原生数据仓库的最佳实践。其底层基于对象存储,数据的持久化存储与计算分离,这种架构不仅提高了资源的利用效率,还使得系统具备更高的扩展性和弹性。具体而言,Databend 的计算节点是无状态的,这意味着当一个计算节点出现故障时,系统可以快速启动新的节点,确保业务的连续性。