轻量级分析利器再升级:解读 DuckDB 1.3.0 新特性
bigegpt 2025-07-24 16:38 8 浏览
DuckDB 团队近日正式发布了最新版本 —— DuckDB 1.3.0,代号 “Ossivalis”。此次版本以金眼鸭的远古祖先 Bucephala Ossivalis 命名,象征项目在演化和成长过程中的又一重要里程碑。
作为一款专注本地分析型查询的嵌入式数据库,DuckDB 一直以快速迭代和出色的性能受到关注。此次 1.3.0 更新引入了诸多关键特性和改进。不过,鉴于更新内容十分丰富,本文仅简要介绍其中的核心亮点。
DuckDB 正在以惊人的速度不断进化,其功能的持续增强正推动它逐步成为现代数据分析工作流中的关键组成部分。
重大变更与弃用通知
弃用旧版 Linux glibc 支持
随着主流 Linux 发行版已全面过渡至 glibc 2.28 或更高版本,DuckDB 官方发布的 Linux 预编译二进制包也随之调整,最低依赖版本提升至 glibc 2.28。
本次版本采用 Python 项目中的 manylinux_2_28 镜像构建,该镜像在保持兼容性的同时,引入了较新的编译器,以便更好地平衡兼容性与性能。
DuckDB 一直高度重视跨平台移植性,因此,仍然可以通过源码编译方式在较旧版本的 glibc 系统上使用 DuckDB。不过,对于希望使用官方预构建包的用户,需确保系统环境符合新的 glibc 要求。
Lambda 函数语法
以前,DuckDB 中的 lambda 函数可以使用单箭头语法指定:x -> x + 1。单箭头运算符也被 JSON 扩展用来通过语法表达JSON 提取->'field'。绑定器将单箭头运算符的两个含义视为相同,因此它们共享相同(低)优先级,因此需要在 JSON 表达式中使用额外的括号进行相等性检查:
这常常引起用户的困惑,因此,新版本弃用了旧的箭头 lambda 语法,并用 Python 风格的 lambda 语法取而代之:
为了使过渡更加顺畅,弃用工作将在明年分几个步骤进行。首先,DuckDB 1.3.0引入了一个用于配置 lambda 语法的新设置:
目前,DEFAULTDuckDB 1.4.0 启用两种语法样式,即旧的单箭头语法和 Python 风格的语法。DuckDB 1.4.0 将是最后一个支持单箭头语法且未明确启用该语法的版本。DuckDB 1.5.0 将默认禁用单箭头语法。DuckDB 1.6.0 将移除该lambda_syntax标志并完全弃用单箭头语法,因此旧的行为将不再可用。
使用转义符序列化列表中的字符串
从新版本开始,DuckDB 会对'嵌套数据结构中序列化的字符串进行转义,以便能够在序列化字符串和嵌套表示之间进行往返转换。例如:
SQL 解析器的细微调整
- AT:由于在 Iceberg 中用于时间旅行语法,AT 现已成为关键字。若希望将其作为标识符(如列名)使用,必须加上引号,例如 "AT"。
- LAMBDA:由于 Lambda 函数语法的更新,LAMBDA 现在被正式列为保留关键字,不能再作为普通标识符使用。
- GRANT:相比之下,GRANT 不再是保留关键字,开发者现在可以将其用作列名或其他标识符。
新特性亮点
在本次 DuckDB 更新中,新增了诸多令人期待的新功能,
外部文件缓存(External File Cache)
DuckDB 广泛用于读取远程文件,如通过 HTTP 或云端对象存储访问的 Parquet 文件。在此前的版本中,每次查询都会重新完整读取文件数据,效率较低。
本次版本引入了 外部文件缓存机制:
- 该缓存遵循 DuckDB 的总体内存限制;
- 若系统内存允许,将自动缓存远程文件中的数据块;
- 这样在重复执行查询时,能显著减少 I/O 访问次数,提高性能。
这一改进对处理远程大数据文件的用户尤其有益,例如反复分析存储在云端的数据集时将能获得明显的速度提升。
我们可以观察到:相同的查询在第二次执行时明显更快(首次执行需要18s,第二次需要1.3s),这得益于外部文件缓存机制的引入。而在之前的版本中,查询耗时是相同的,因为每次都需要完整读取远程文件。
用户还可以通过内置的表函数 duckdb_external_file_cache() 来查询当前的缓存内容。例如:
缓存默认启用,但可以通过以下方式禁用:
SET enable_external_file_cache = false;
TRY 表达式的通用支持
此前,DuckDB 支持 TRY_CAST,即尝试将值转换为指定类型,如果转换失败,不会报错,而是返回 NULL。例如:
本次版本将这一机制扩展至任意可能报错的表达式,新增了通用的 TRY 表达式。例如,计算对数时,log(0) 会抛出异常,提示“无法对零取对数”。使用新的 TRY 语法:
该特性适用于各种可能出错的表达式。不过需要注意,如果大量行的计算都可能出错,性能可能会受到影响。原因是 DuckDB 会切换为逐行执行模式,以准确定位出错的行,这会比批量执行更慢。因此建议在预期错误较少的情况下谨慎使用 TRY。
支持更新 Struct 类型字段的子模式
从本次 DuckDB 新版本开始,用户可以通过 ALTER TABLE 语句对 STRUCT 类型的子字段进行增删改操作。具体支持以下功能:
- 删除字段
- 添加字段
- 重命名字段
动态替换数据库:ATTACH OR REPLACE
DuckDB 新增了 ATTACH OR REPLACE 语句,允许用户在运行时动态替换已附加的数据库,实现“热切换”数据库的功能。示例如下:
这意味着可以先附加一个数据库(如 taxi_v1.duckdb),随后无需先卸载再附加,即可用新版数据库文件(如 taxi_v2.duckdb)替换原数据库,极大提升了灵活性和操作便捷性。
UUID v7 支持
DuckDB 现已支持 UUID v7,这是一种更新的 UUID 版本。UUID v7 结合了 Unix 毫秒时间戳和随机位,既保证了唯一性,也支持按时间排序。这对于按时间排序 UUID 或将常见的 ID 和 TIMESTAMP 两列合并为单列 UUIDv7 非常实用。
新 UUID 可通过标量函数 uuidv7() 生成,例如:
还有一些附加函数可用于确定 UUID 版本 ( uuid_extract_version()) 和提取内部时间戳 ( uuid_extract_timestamp()),例如:
表达式支持CREATE SECRET
DuckDB 拥有一个内部的“secret”管理工具,用于管理 S3 凭证等内容。在此版本中,可以在创建 secret 时使用标量表达式。这使得 secret 内容无需在查询文本中指定,从而更容易避免出现在日志文件等文件中。例如:
BEARER_TOKEN机密中的字段是通过getvariable中的函数设置的CREATE SECRET。在 CLI 中,也可以通过使用 的环境变量getenv()来实现。例如,现在可以这样做:
展开列(Unpacking Columns)功能增强
DuckDB 1.3.0 对广受欢迎的 COLUMNS(*) 表达式进行了进一步优化。此前,用户可以通过在表达式前加星号(*)来将列实体展开成列表,例如:
之前的 COLUMNS() 语法虽然能展开列,但不能与其他表达式(如类型转换)一起使用。例如,下面的写法会报错:
为了解决这个限制,DuckDB 引入了新的关键字 UNPACK。使用 UNPACK 后,以下语句:
等价于:
即可以将表中的所有列先展开,再统一转换为 VARCHAR 类型,极大提升了表达式的灵活性。
空间连接运算符(Spatial JOIN Operator)
DuckDB 在空间扩展中新增了专门的空间连接运算符,大幅提升了基于空间谓词函数(如 ST_Intersects 和 ST_Contains)对两个几何列进行连接查询的效率。
与传统的哈希连接(HASH_JOIN)类似,空间连接(SPATIAL_JOIN)会为连接中较小的一方构建临时的查找数据结构,不过这里用的是 R-Tree 而非哈希表。这意味着用户无需事先创建索引或做任何预处理,空间连接的优化工作完全由连接运算符内部自动完成。
查询优化器会尽力将该运算符应用于 LEFT、OUTER、INNER 和 RIGHT 空间连接中。但目前的限制是连接条件只能有一个,否则优化器会退回使用效率较低的连接策略。
以下示例展示了空间连接运算符如何成为查询计划的一部分。虽然示例查询较小,但在我的机器上,执行速度相比 DuckDB v1.2.2 版本提升了近 100 倍!
内部改进
本次发布还带来了大量内部改动:
- Parquet 读写器重构:DuckDB 几乎完全重新实现了 Parquet 文件的读写功能,大幅提升了 Parquet 文件的性能和稳定性,同时扩展了对一些不常见逻辑类型(如 UNKNOWN 和 FLOAT16)的支持。
- 多文件读取统一处理:针对读取多个文件(例如一个文件夹中的 Parquet 文件),DuckDB 新增了一个名为 MultiFileReader 的统一 API。该机制统一了对多种文件格式(Parquet、CSV、JSON、Avro 等)中多个文件的处理方式,能够更好地应对多文件间的模式差异。
- 新字符串压缩方法 DICT_FSST:以往 DuckDB 支持字符串的字典编码和 FSST(Fast Static Symbol Table,快速静态符号表)两种压缩方法,但这两种方法无法在同一个存储块(默认 265KB)中混合使用。实际应用中,部分数据块适合字典编码,另一部分更适合 FSST。FSST 默认不进行字符串去重。此次更新引入了结合两者优势的新压缩方法——DICT_FSST,先进行字典编码,再用 FSST 压缩字典。同时,字典编码和纯 FSST 编码仍然可用。
- 优化空值有效性掩码存储:许多压缩方法(如新的 DICT_FSST)可以内部处理 NULL 值,从而减少了对独立有效性掩码的需求。这些改进综合起来,显著减少了字符串的存储空间。
- 自动选择压缩策略:DuckDB 会根据实际压缩比自动选择合适的压缩方法,用户无需手动设置。
以上只是一些亮点,但此版本中还有更多功能和改进。自DuckDB发布 v1.2.2 以来,已有超过 75 位贡献者提交了超过 3,000 次提交。完整的发行说明可在 GitHub 上找到。
相关推荐
- 5分钟调色大片的方法(5分钟调色大片的方法有哪些)
-
哈喽大家好。在大家印象中一定觉得ps非常难学非常难。大家不要着急,小编的教学都是针对ps零基础的同学的,而且非常实用哦。只要大家跟着图文练习一两遍,保证大家立马学会~!好了,废话少说,下面开始我们今天...
- 闪白特效原来是这么用的(闪白特效怎么使用)
-
作者|高艳侠订阅|010-86092062闪白特效是影视作品中应用比较多的效果之一,那么具体该在哪些场景使用闪白特效?具体该如何操作?下面就以AdobePremiere(以下简称PR)为例,...
- ppt常用小图标去哪里找?3个矢量素材网站推荐!
-
ppt是一个注重可视化表达的演示载体,除了高清图片,ppt中另一类常用的素材是各种小图标,也叫矢量图标,巧妙运用小图标能提升整体美观度和表现力,那么ppt常用小图标去哪里找呢?为方便各位快速找到合适的...
- 有什么好用的截图录屏工具?试试这9款
-
经常有朋友反馈苦于缺乏截屏和录屏的趁手工具,本期我们分享几个相当好用的截屏和录屏工具,希望能帮到大家。ScreenToGifScreenToGif是一款免费且开源的录屏工具。此款工具最大的特点是可以...
- 配色苦手福音!专业快速色环配色PS插件
-
今天橘子老师给的大家介绍的是一款快速配色的插件,非常强大配色苦手福音来啦!(获取方式见文末)【插件介绍】配色在后期设计中占有主导地位,好的配色能让作品更加抢眼Coolorus这款专业的配色插件,能够...
- 如何用PS抠主体?(ps怎么抠主体)
-
1.主体法抠图-抠花苞和花梗导入一张荷花苞的照片,点击上图中顶部“选择”菜单栏,下拉单击“主体”。可以看到,只有花苞被选中,但是花梗并没有被选中。接下来单击上图中左侧工具栏的“快速选择工具”,上图中顶...
- 2799元的4K电视,有保障吗?(买4k电视机哪个品牌好)
-
在上一期《电脑报》的3·15专题报道中,我们揭露了一款不靠谱的42英寸4K智能电视——TCLD42A561U。这款售价2699元的4K智能电视不仅4K画质方面存在严重问题,而且各种功能和应用体验也不理...
- 苹果电脑的Touch Bar推出一段时间了 这款工具可以帮你开发适用于它的APP
-
距离苹果推出带有TouchBar的MacBookPro已经有一段时间了,除了那些像Adobe、Google和Microsoft大公司在开发适用于TouchBar的应用之外,其实还有很多独立的开...
- 如魔法般吸取颜色的桌灯(如魔法般吸取颜色的桌灯叫什么)
-
色彩为生活带来的感官刺激,逐渐被视为理所当然。一盏桌灯运用它的神奇力量,将隐藏于物件中的颜色逐一释放,成为装点环境的空间魔法师。ColorUp是一款可以改变颜色的吸色台灯,沿用传统灯泡的造型,融入了拾...
- 一篇文章带你用jquery mobile设计颜色拾取器
-
【一、项目背景】现实生活中,我们经常会遇到配色的问题,这个时候去百度一下RGB表。而RGB表只提供相对于的颜色的RGB值而没有可以验证的模块。我们可以通过jquerymobile去设计颜色的拾取器...
- ps拾色器快捷键是什么?(ps2019拾色器快捷键)
-
ps拾色器快捷键是什么?文章末尾有获取方式,按照以下步骤就能自动获得!学会制作PS特效需要一定程度的耐心和毅力。初学者可以从基本的工具和技术开始学习,逐渐提高他们的技能水平。同时,观看更多优秀的特效作...
- 免费开源的 Windows 截图录屏工具,支持 OCR 识别和滚动截图等
-
功能很强大、安装很小巧的免费截图、录屏工具,提供很多使用的工具来帮我么能解决问题,推荐给大家。关于ShareXShareX是一款免费的windows工具,起初是一个小巧的截图工具,经过多年的迭...
- 入门到精通系列PS教程:第13篇 · 拾色器、颜色问题说明及补充
-
入门到精通系列PS教程:第13篇·拾色器、颜色问题说明及补充作者|侯潇问题说明我的第12篇教程里,有个小问题没有说清楚。要说是错误,又不算是错误,只是没有说准确。写完那篇教程后,因为已经到了深...
- PS冷知识:用吸管工具吸取屏幕上的任意颜色
-
今天,我们给大家介绍PS中的一个冷知识:用吸管工具可以吸取屏幕上的任意颜色。其实,操作起来是非常简单的。大多数情况下,我们认为,PS的吸管工具只能吸取PS软件作图区域范围内的颜色,最多加上画布四周的...
- Windows 11 将提供内置颜色选择器工具
-
Windows11内置了颜色选择器,可以扫描并识别屏幕上的颜色并生成颜色代码。此外,微软还利用人工智能技术,让屏幕上的文本扫描和选择变得更加便捷。这两项功能均已在SnippingToolv1...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- vscode使用技巧 (83)
- secure-file-priv (67)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)