Databend 开源周报第 93 期
Databend Labs5月 15, 2023
英文版移步:https://www.databend.com/blog/2023-05-14-databend-weekly
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新进展,遇到更贴近你心意的 Databend。
改进 Databend 的 Segment Cache 内存使用率
本周 Databend 的 Segment Cache 得到了显著升级,其内存使用量降低到测试场景中先前使用量的 1.5/1000。
本次升级引入名为
CompactSegmentInfo
- 解码后的 min / max 索引和其他统计信息。
- 未解码(且压缩)的 RawBlockMeta。
在对
Segment
RawBlockMeta
RawBlockMeta
如果你想要了解更多信息,请查看下面列出的资源。
Code Corner
一起来探索 Databend 和周边生态中的代码片段或项目。
databend
的 Python 绑定
databend
Databend 现在提供 Python 绑定,为在 Python 中执行 SQL 查询提供了新选择。该绑定内置 Databend,无需部署实例即可使用。
pip install databend
从 databend 导入
SessionContext
from databend import SessionContext
ctx = SessionContext()
接着就可以调用
sql()
df = ctx.sql("select number, number + 1, number::String as number_p_1 from numbers(8)")
结果 DataFrame 可以使用
to_py_arrow()
to_pandas()
df.to_pandas() # Or, df.to_py_arrow()
现在行动起来,将 Databend 集成到你的数据科学工作流中。
亮点
以下是一些值得注意的事件,也许您可以找到感兴趣的内容。
- 阅读 Transform Data During Load 中新增的两篇教程,了解如何在加载过程中执行算术运算以及将数据加载到带有冗余列的表中。
- 阅读 Working with Stages 系列文档以深入了解 Stage 并学习如何有效地管理和使用 Stage。
- 新增函数:、
date_format
和str_to_date
。str_to_timestamp
What's Up Next
我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。
将 open-sharing 二进制文件添加到 Databend 镜像中
Open Sharing 是由 Databend 团队设计的一种用于多云环境的、廉价且安全的数据共享协议。Databend 提供了租户级别的 sharing endpoint 实现,名为
open-sharing
为了方便使用 K8s 或 Docker 部署
open-sharing
Issue #11182 | Feature: added open-sharing binary in the databend-query image
如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review。或者,你可以点击 https://link.databend.com/i-m-feeling-lucky 来挑选一个随机问题,祝好运!
New Contributors
一起认识社区中的新伙伴,Databend 因你们而变得更加美好。
- @Mehrbod2002 添加了对
max_storage_io_requests