百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

PostgreSQL系列(三):字符串类型操作(一)

bigegpt 2024-10-12 05:23 6 浏览

上次关于数值类型的介绍太简短了点,介绍几个有意思的操作

  • 幂(^)

注意:计算出来的结果是一个float8的浮点数,也就是double

  • 平方根(|/)

设计者是一个有趣的灵魂,尽可能地在模拟数学当中的平方根符号

注意:这里得到的也是一个float8的浮点数,也就是double

  • 绝对值(@)

我以为会是|值|来表示,没想到直接一个@符号就解决了

注意:@和数值之间至少要留一个空格

还有几个常用的操作,位运算&、|,以及左移<<和右移>>

好了,就补充这么多吧,还有许多函数后面再研究介绍。

接下来看下字符串和日期

字符串

字符串分3种,前面大致介绍过

  • character

简称char,最大存储1个G的数据,定长

  • character varying

简称varchar,最大存储1个G的数据,长度可变

  • text

跟MYSQL中的text是一样的

举一个示例:

默认情况下,字符串会被存储为text类型,我们可以强制转换成其它字符串类型

这里我们可以看到text和varchar的最大存储长度,2147483647。这个值其实可以存储最大2G(准确地说,还有1个字节才到2G),而一般网上说的都是1G,我的PG版本是14,所以大家在学习和工作过程中要尽量自己亲自实践去了解下具体的情况。当然,正常情况下,我们设计系统,单个值存储不到这么大,如果有这么大,我们首先考虑的是能否从业务和系统设计2方面思考优化。

再看下转char

问题来了,1234567变成了1,再看数据类型变成了bpchar,长度为1。那思考一下,char不指定长度,默认长度就是1,那指定长度呢,再看2个测试:

取5个长度

取9个长度

当字符串长度超过char设定长度时,会自动从开头截取指定长度的字符串存储,当字符串长度小于char设定长度时,会在尾部自动补齐缺少的长度个空格

好,接下来再看下与字符串相关的函数,我们在官网上可以查到PG与字符串相关的操作函数和操作符:

首先放上链接,函数和操作符太多,先有个整体浏览:

https://www.postgresql.org/docs/current/functions-string.html

我们只取其中不太好理解的几个函数试下,未详细介绍的基本上跟Java或者C#这些开发语言中字符串提供的功能类似,类比理解一下即可。

  • text || text → text

输入:2个文本

输出:合并后的文本


  • text || anynonarray → text

输入:1个文本和一个非文本

输出:合并后的文本

和日期做拼接:

日期后面再详细介绍,这里了解一下其输出格式即可


  • btrim ( string text [, characters text ] ) → text

输入:第1个为要进行抽取的字符串,第2个为要从第1个字符串中移除的字符串。注意:字符串只去开头和结尾,如果开头和结尾找不到该字符串,则不会移除任何字符串

输出:移除开头和结尾匹配第2个参数后的字符串


  • text IS [NOT] [form] NORMALIZED → boolean

判断一个字符串是不是已经做了特定编码

输入:一个字符串,后面 is normalized是必须的,可以加上not和form表示的特定的编码格式

输出:如果与指定的编码匹配,则返回true,否则返回false

注意: 这个操作只有在服务器编码为UTF-8的情况下才有用,其它情况下返回值没有任何参考意义

说明:form表示的标准化形式有NFC、NFD、NFKC、NFKD,是Unicode 标准化形式的四种不同形式,便于在比较、搜索和其他文本处理任务中能够准确地识别等价字符串。NFC和NFD是一对,NFKC和NFKD是一对,C表示组合,D表示分解,带K表示兼容,这部分需要详细阐述,有机会可以再单独发一篇记录一下

举几个例子先有个印象:


  • bit_length ( text ) → integer

输入:1个文本

输出:文本中包含的位数,注意是位的个数

abc是3个字符,一个字符用8位表示,因此是24位

张三是中文字符,一个字符在PG里面用unicode表示要用3个字节,也就是3*8=24个字节表示,因此总共占用48个位


  • char_length ( text ) → integer

也叫character_length ( text ) → integer

输入:1个文本

输出:字符的个数,不区分中文和字母

包括特殊符号,如@等,也是当作一个字符处理


  • lpad ( string text, length integer [, fill text ] ) → text

输入:第1个为原始文本,第2个为填充后的文本长度,第3个为要填充的文本

输出:长度为第2个参数表示的长度的文本

情形一:如果长度和第1个原始文本的长度要相等,则不做填充操作

情形二:如果长度比原始文本长度小,则将原始文本从右边开始截取,保留长度为第2个参数的字符串

情形三:如果长度比原始文本长,则用第3个填充字符串填充

填充字符串按从左至右的顺序依次循环填充到原始字符串的开头,直到达到第2个参数指定的长度要求,如果要填充的个数不是填充字符串的整数倍,填充方式是从填充字符串的左边开始取满足长度要求的字符串即可

不太好理解,举个例子就明白了

原始长度为2,填充后长度为3,只需要填充一个字符,因此从填充字符串中从左至右取1个字符填充即可,即在开头加一个n


  • ltrim ( string text [, characters text ] ) → text

输入:第1个表示原始文本,第2个表示要从原始文本中抠除的字符集合

输出:抠除原始文本中出现的第2个文本后得到的文本。注意,这里只抠除原始字符串开头的文本,可以和btrim对比看下


  • normalize ( text [, form ] ) → text、

输入:第1个参数表示原始文本,第2个参数表示4个Unicode标准形式(NFC、NFD、NFKC、NFKD),先不详述,与上面的text IS [NOT] [form] NORMALIZED → boolean是一对

输出:转换后标准形式的字符串编码

同样要注意PG服务器的编码是Unicode这个前提


  • octet_length ( text ) → integer

输入:原始文本

输出:文本包含的字节数。与bit_length对比着看下。2个函数的关系就是octet_length * 8 = bit_length


  • octet_length ( character ) → integer

注意与octet_length ( text )在数据类型上的区别,因为character默认是1个字符,我们也只可以指定长度

输入:转换成char类型的原始文本

输出:转换后的文本长度

这里注意:默认时候转换只保留了1个字符,而转换成5个字符的时候,我们前面说过会在尾部填充直到有5个为止.octet_length会识别文本参数的类型是text还是char来决定调用哪个形参的方法


  • overlay ( string text PLACING newsubstring text FROM start integer [ FOR count integer ] ) → text

输入:第1个参数为原始文本,第2个表示原始文本中要进行替换的起始位置,从1开始计算而不是0,第2个表示从替换的起始位置开始要替换的字符个数,第4个表示进行替换的字符串

输出:从开始位置删除指定长度的字串,用填充串替换后得到的新字符串

看示例:

同样,如果填充的个数不是填充字符串的整数倍,会发生什么情况

所以这里不存在lpad的问题,这个函数意思就是,你告诉我原始文本从哪开始,截几个,我把这段文本删除了,换成填充字符串即可


  • position ( substring text IN string text ) → integer

输入:第1个表示要查找的子串,第2个表示原始文本

输出:子串第一次出现的位置,从1开始,如果找不到,返回值为0


  • rpad ( string text, length integer [, fill text ] ) → text

与lpad类似,这文档组织还可以优化,放到lpad下面,读者会更方便看一点。西方的思维方式确实和东方的不太一样。

输入:第1个参数是原始文本,第2个是填充后的文本长度,第3个是填充字符串,

输出:填充后达到指定长度的新字符串,原理参照lpad,这里只举例子:


  • rtrim ( string text [, characters text ] ) → text

与ltrim类似,只不过这里是从后面开始截取

输入:第1个参数表示原始文本,第2个表示要截取的字符串

输出:截取完后的字符串

直接用官方提供的示例,很直接

好了,今天先写这么多,还有不少函数,难倒不是多难,只不过细节多,这也是做软件工程里面特别要注意的一个方面,往往找不到问题的原因就是漏掉或者不清楚某个细节

相关推荐

得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践

一、摘要在前端可观测分析场景中,需要实时观测并处理多地、多环境的运行情况,以保障Web应用和移动端的可用性与性能。传统方案往往依赖代理Agent→消息队列→流计算引擎→OLAP存储...

warm-flow新春版:网关直连和流程图重构

本期主要解决了网关直连和流程图重构,可以自此之后可支持各种复杂的网关混合、多网关直连使用。-新增Ruoyi-Vue-Plus优秀开源集成案例更新日志[feat]导入、导出和保存等新增json格式支持...

扣子空间体验报告

在数字化时代,智能工具的应用正不断拓展到我们工作和生活的各个角落。从任务规划到项目执行,再到任务管理,作者深入探讨了这款工具在不同场景下的表现和潜力。通过具体的应用实例,文章展示了扣子空间如何帮助用户...

spider-flow:开源的可视化方式定义爬虫方案

spider-flow简介spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。spider-flow特性支持css选择器、正则提取支持JSON/XML格式...

solon-flow 你好世界!

solon-flow是一个基础级的流处理引擎(可用于业务规则、决策处理、计算编排、流程审批等......)。提供有“开放式”驱动定制支持,像jdbc有mysql或pgsql等驱动,可...

新一代开源爬虫平台:SpiderFlow

SpiderFlow:新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。-精选真开源,释放新价值。概览Spider-Flow是一个开源的、面向所有用户的Web端爬虫构建平台,它使用Ja...

通过 SQL 训练机器学习模型的引擎

关注薪资待遇的同学应该知道,机器学习相关的岗位工资普遍偏高啊。同时随着各种通用机器学习框架的出现,机器学习的门槛也在逐渐降低,训练一个简单的机器学习模型变得不那么难。但是不得不承认对于一些数据相关的工...

鼠须管输入法rime for Mac

鼠须管输入法forMac是一款十分新颖的跨平台输入法软件,全名是中州韵输入法引擎,鼠须管输入法mac版不仅仅是一个输入法,而是一个输入法算法框架。Rime的基础架构十分精良,一套算法支持了拼音、...

Go语言 1.20 版本正式发布:新版详细介绍

Go1.20简介最新的Go版本1.20在Go1.19发布六个月后发布。它的大部分更改都在工具链、运行时和库的实现中。一如既往,该版本保持了Go1的兼容性承诺。我们期望几乎所...

iOS 10平台SpriteKit新特性之Tile Maps(上)

简介苹果公司在WWDC2016大会上向人们展示了一大批新的好东西。其中之一就是SpriteKitTileEditor。这款工具易于上手,而且看起来速度特别快。在本教程中,你将了解关于TileE...

程序员简历例句—范例Java、Python、C++模板

个人简介通用简介:有良好的代码风格,通过添加注释提高代码可读性,注重代码质量,研读过XXX,XXX等多个开源项目源码从而学习增强代码的健壮性与扩展性。具备良好的代码编程习惯及文档编写能力,参与多个高...

Telerik UI for iOS Q3 2015正式发布

近日,TelerikUIforiOS正式发布了Q32015。新版本新增对XCode7、Swift2.0和iOS9的支持,同时还新增了对数轴、不连续的日期时间轴等;改进TKDataPoin...

ios使用ijkplayer+nginx进行视频直播

上两节,我们讲到使用nginx和ngixn的rtmp模块搭建直播的服务器,接着我们讲解了在Android使用ijkplayer来作为我们的视频直播播放器,整个过程中,需要注意的就是ijlplayer编...

IOS技术分享|iOS快速生成开发文档(一)

前言对于开发人员而言,文档的作用不言而喻。文档不仅可以提高软件开发效率,还能便于以后的软件开发、使用和维护。本文主要讲述Objective-C快速生成开发文档工具appledoc。简介apple...

macOS下配置VS Code C++开发环境

本文介绍在苹果macOS操作系统下,配置VisualStudioCode的C/C++开发环境的过程,本环境使用Clang/LLVM编译器和调试器。一、前置条件本文默认前置条件是,您的开发设备已...