C++|6种方法分割或分行处理string存储到STL vector
bigegpt 2024-10-30 01:53 28 浏览
我们知道,ASCII编码的13表示回车('\r')、10表示换行('\n'),在一些库的文本框中可能需要两个符号“\r\n“写在一起来表示换行,在C++中,可以只用'\n'来表示换行。
对于字符串按行或按某个字符进行分割,C++标准库里面并没有提供字符分割函数split()(cstring中有strtok()函数,但较底层),需要自行定义。
1 string+vector逐字节处理
在一个多行文本(有多个'\n')中,如果想要分行处理,可以逐个字符分析,将其叠加写入一个临时的string,直到遇到'\n',然后push_back入一vector,再套一个循环即可:
vector<string> split0(string str,char deli) // string+vector逐字节处理
{
vector<string> vec;
string tmp;
string::iterator it=str.begin();
for(; it != str.end();it++)
{
if (*it != deli)
tmp += *it;
else
{
vec.push_back(tmp);
tmp = "";
}
}
return vec;
}
2 利用strtok()分割
先看strtok()的函数原型:
char * strtok ( char * str, const char * delimiters );
对此函数的一系列调用将str拆分为标记(tokens),这些标记是由作为分隔符一部分的任何字符分隔的连续字符序列。
在第一次调用时,函数需要一个C字符串作为str的参数,str的第一个字符用作扫描标记的起始位置。在随后的调用中,函数需要一个空指针,并使用最后一个标记结束后的位置作为新的扫描起始位置。
要确定标记的开始和结束,函数首先从开始位置扫描分隔符中未包含的第一个字符(它将成为标记的开始)。然后从标记的开头开始扫描分隔符中包含的第一个字符,该字符将成为标记的结尾。如果找到终止的空字符,扫描也会停止。
标记的末端替换为空字符,并且该函数返回标记的开头。
一旦在对strtok的调用中找到str的终止空字符,对该函数的所有后续调用(以空指针作为第一个参数)都将返回空指针。
找到最后一个标记的点由下一次调用时使用的函数内部保存(不需要特定的库实现来避免数据竞争)。
请注意的是,第一个参数是要截断的C字符串,因为是址传递,所以存在副作用,这个字符串是通过分成更小的字符串(标记)来修改的。
另外,可以指定空指针,在这种情况下,函数继续扫描先前对函数的成功调用结束的位置。
返回值:
如果找到标记,则指向标记开头的指针。否则,为空指针。
当扫描的字符串到达字符串的末尾(即空字符)时,总是返回空指针。
vector<string> split1(char* src,const char* separator) // 利用strtok()分割 // 分隔符可以指定多个
{
if (strlen(src) == 0)
exit(0);
vector<string> vec;
char *pNext = (char *)strtok(src,separator);
while(pNext != NULL)
{
vec.push_back(pNext);
pNext = (char *)strtok(NULL,separator);
}
return vec;
}
完全用C写更繁琐:
int splitc(char *src,const char *separator,char **dest) // 完全按C代码写
{
char *pNext;
int count = 0;
if (src == NULL || strlen(src) == 0)
return 0;
if (separator == NULL || strlen(separator) == 0)
return 0;
pNext = (char *)strtok(src,separator);
while(pNext != NULL) {
*dest++ = pNext;
++count;
pNext = (char *)strtok(NULL,separator);
}
return count;
}
void Print(char **ppstr, int num)
{
for(int i = 0;i < num; i ++) {
printf("%s\n",ppstr[i]);
}
}
void test()
{
char *buf[3] = {0};
char str2[] = "知善知恶\n为善去恶\n知行合一";
splitc(str2,"\n",buf);
Print(buf,3);
}
3 .find_first_of()+substr()逐段处理
find_first_of()方法的函数原型:
size_t find_first_of (const string& str, size_t pos = 0) const;
size_t find_first_of (const char* s, size_t pos = 0) const;
size_t find_first_of (const char* s, size_t pos, size_t n) const;
size_t find_first_of (char c, size_t pos = 0) const;
用于在字符串中搜索与参数中指定的任何字符匹配的第一个字符。
当指定pos时,搜索仅包括pos位置处或之后的字符,忽略pos之前可能出现的任何字符。
Notice that it is enough for one single character of the sequence to match (not all of them). See string::find for a function that matches entire sequences.
需要注意的是,序列中的一个字符(不是所有字符)就足够匹配了。有关匹配整个序列的函数,请参见string::find。
vector<string> split2(string str, string delis) // .find_first_of()+substr()
{
vector<string> vec;
size_t current;
size_t next = -1;
do{
current = next + 1;
next = str.find_first_of(delis, current);
vec.push_back(str.substr(current, next - current));
}while(next != string::npos);
return vec;
}
4 string+vector逐段处理
可以利用string的find()、substr()、erase()来处理:
vector<string> split3(string str,char del) // string+vector逐段处理
{
vector<string> vec;
string line;
int pos = str.find(del);
while(pos != string::npos)
{
line = str.substr(0,pos);
vec.push_back(line);
str.erase(0,pos+1);
pos = str.find(del);
}
return vec;
}
5 利用getline()函数分割
也可以利用getline()函数,其原型(利用重载有两个版本):
istream& getline ( istream &is , string &str , char delim ); // ①
istream& getline (istream& is, string& str); // ②
从输入流is中逐个提取字符直到分隔符delim出现(上述②为'\n')为止,保存到str,流指针自移动。
每个提取的字符都被追加到字符串str中,就好像它的成员push_back被调用一样。
如果在is中到达文件结尾或在输入操作期间发生其他错误,则提取也将停止。
如果找到分隔符,则提取并丢弃它(即它未被存储,下一个输入操作将在它之后开始,因为输入流指针的自移动)。
需要注意的是,在调用之前str中的任何内容都将被新提取的序列替换。
getline可返回eofbit、failbit、badbit,用于判断字符串提取状态。
上述的输入流可以是cin,如
string str;
while (getline(cin, str, '#'))
cout << str<< endl;
也可以是继承自istream的istringstream、ifstream。
相对于cin,istringstream、ifstream流在内部维护了一个可自移动的输入流指针,用于持续提取及于判断是否到了输入流末端。
5.1 字符串流+string+vector处理
vector<string> split(string str, char deli) // 字符串流+string+vector处理
{
stringstream ss(str);
string tmp;
vector<string> vec;
while(getline(ss, tmp, deli))
vec.push_back(tmp);
return vec;
}
可以写成更规范的模板函数:
struct split
{
enum empties_t { empties_ok, no_empties };
};
template <typename Container>
Container& splitt(
Container& box,
const typename Container::value_type& s,
typename Container::value_type::value_type deli,
split::empties_t empties = split::empties_ok )
{
box.clear();
std::istringstream ss( s );
while (!ss.eof())
{
typename Container::value_type field;
getline(ss, field, deli);
if((empties == split::no_empties) && field.empty())
continue;
box.push_back( field );
}
return box;
}
5.2 fstream+string+vector处理
vector<string> split(string str) // fstream+string+vector处理
{
ofstream ofs("tmp.txt");
ofs<<str.c_str();
ofs.close();
ifstream ifs("tmp.txt");
vector<string> vec;
string tmp;
while(getline(ifs,tmp))
vec.push_back(tmp);
//cout<<ifs.rdbuf();
ifs.close();
return vec;
}
综上:
序列为2的方法(strtok())可以指定多个分隔符;
序列为5.1的方法(istringsteam)处理起来较简洁。
附完整源代码:
#include <iostream>
#include <vector>
#include <sstream>
#include <fstream>
using namespace std;
vector<string> split0(string str,char deli) // string+vector逐字节处理
{
vector<string> vec;
string tmp;
string::iterator it=str.begin();
for(; it != str.end();it++)
{
if (*it != deli)
tmp += *it;
else
{
vec.push_back(tmp);
tmp = "";
}
}
return vec;
}
vector<string> split1(char* src,const char* separator) // strtok(),分隔符可以指定多个
{
if (strlen(src) == 0)
exit(0);
vector<string> vec;
char *pNext = (char *)strtok(src,separator);
while(pNext != NULL)
{
vec.push_back(pNext);
pNext = (char *)strtok(NULL,separator);
}
return vec;
}
vector<string> split2(string str, string delimiters) // .find_first_of()+substr()
{
vector<string> vec;
size_t current;
size_t next = -1;
do
{
current = next + 1;
next = str.find_first_of( delimiters, current );
vec.push_back(str.substr( current, next - current ));
}
while (next != string::npos);
return vec;
}
vector<string> split3(string str,char del) // string+vector逐段处理
{
vector<string> vec;
string line;
int pos = str.find(del);
while(pos != string::npos)
{
line = str.substr(0,pos);
vec.push_back(line);
str.erase(0,pos+1);
pos = str.find(del);
}
return vec;
}
vector<string> split(string str, char del) // 字符串流+string+vector处理
{
stringstream ss(str);
string temp;
vector<string> ret;
while (getline(ss, temp, del))
ret.push_back(temp);
return ret;
}
struct split
{
enum empties_t { empties_ok, no_empties };
};
template <typename Container>
Container& splitt(
Container& result,
const typename Container::value_type& s,
typename Container::value_type::value_type delimiter,
split::empties_t empties = split::empties_ok )
{
result.clear();
std::istringstream ss( s );
while (!ss.eof())
{
typename Container::value_type field;
getline( ss, field, delimiter );
if ((empties == split::no_empties) && field.empty()) continue;
result.push_back( field );
}
return result;
}
vector<string> split(string str) // fstream+string+vector处理
{
ofstream ofs("tmp.txt");
ofs<<str.c_str();
ofs.close();
ifstream ifs("tmp.txt");
vector<string> vec;
string tmp;
while(getline(ifs,tmp))
vec.push_back(tmp);
//cout<<ifs.rdbuf();
ifs.close();
return vec;
}
void vectorPrint(vector<string>& vec)
{
vector<string>::iterator vit=vec.begin();
for(;vit!=vec.end();vit++)
printf("%s\n", (*vit).c_str());
}
int main()
{
string str = "上善若水。\n水善利万物而不争,\n";
str += "处众人之所恶,故几于道。\n";
vector<string> vec = split0(str,'\n');
vectorPrint(vec);
string str1 = "We are the world!\nwe are the one!\n";;
vec = split1(const_cast<char*>(str1.c_str()),"\r\n");
vectorPrint(vec);
vec = split2(str,"\n");
vectorPrint(vec);
vec = split3(str,'\n');
vectorPrint(vec);
vec = split(str,'\n');
vectorPrint(vec);
//splitt(vec,str,'\n');
//vectorPrint(vec);
vec = split(str);
vectorPrint(vec);
cin.get();
return 0;
}
/* output:
上善若水。
水善利万物而不争,
处众人之所恶,故几于道。
We are the world!
we are the one!
上善若水。
水善利万物而不争,
处众人之所恶,故几于道。
上善若水。
水善利万物而不争,
处众人之所恶,故几于道。
上善若水。
水善利万物而不争,
处众人之所恶,故几于道。
上善若水。
水善利万物而不争,
处众人之所恶,故几于道。
https://ask.csdn.net/questions/690685
https://blog.csdn.net/qq_36743440/article/details/91999615
http://www.cplusplus.com/reference/cstring/strtok/
http://www.cplusplus.com/faq/sequences/strings/split/
*/
-End-
相关推荐
- 悠悠万事,吃饭为大(悠悠万事吃饭为大,什么意思)
-
新媒体编辑:杜岷赵蕾初审:程秀娟审核:汤小俊审签:周星...
- 高铁扒门事件升级版!婚宴上‘冲喜’老人团:我们抢的是社会资源
-
凌晨两点改方案时,突然收到婚庆团队发来的视频——胶东某酒店宴会厅,三个穿大红棉袄的中年妇女跟敢死队似的往前冲,眼瞅着就要扑到新娘的高额钻石项链上。要不是门口小伙及时阻拦,这婚礼造型团队熬了三个月的方案...
- 微服务架构实战:商家管理后台与sso设计,SSO客户端设计
-
SSO客户端设计下面通过模块merchant-security对SSO客户端安全认证部分的实现进行封装,以便各个接入SSO的客户端应用进行引用。安全认证的项目管理配置SSO客户端安全认证的项目管理使...
- 还在为 Spring Boot 配置类加载机制困惑?一文为你彻底解惑
-
在当今微服务架构盛行、项目复杂度不断攀升的开发环境下,SpringBoot作为Java后端开发的主流框架,无疑是我们手中的得力武器。然而,当我们在享受其自动配置带来的便捷时,是否曾被配置类加载...
- Seata源码—6.Seata AT模式的数据源代理二
-
大纲1.Seata的Resource资源接口源码2.Seata数据源连接池代理的实现源码3.Client向Server发起注册RM的源码4.Client向Server注册RM时的交互源码5.数据源连接...
- 30分钟了解K8S(30分钟了解微积分)
-
微服务演进方向o面向分布式设计(Distribution):容器、微服务、API驱动的开发;o面向配置设计(Configuration):一个镜像,多个环境配置;o面向韧性设计(Resista...
- SpringBoot条件化配置(@Conditional)全面解析与实战指南
-
一、条件化配置基础概念1.1什么是条件化配置条件化配置是Spring框架提供的一种基于特定条件来决定是否注册Bean或加载配置的机制。在SpringBoot中,这一机制通过@Conditional...
- 一招解决所有依赖冲突(克服依赖)
-
背景介绍最近遇到了这样一个问题,我们有一个jar包common-tool,作为基础工具包,被各个项目在引用。突然某一天发现日志很多报错。一看是NoSuchMethodError,意思是Dis...
- 你读过Mybatis的源码?说说它用到了几种设计模式
-
学习设计模式时,很多人都有类似的困扰——明明概念背得滚瓜烂熟,一到写代码就完全想不起来怎么用。就像学了一堆游泳技巧,却从没下过水实践,很难真正掌握。其实理解一个知识点,就像看立体模型,单角度观察总...
- golang对接阿里云私有Bucket上传图片、授权访问图片
-
1、为什么要设置私有bucket公共读写:互联网上任何用户都可以对该Bucket内的文件进行访问,并且向该Bucket写入数据。这有可能造成您数据的外泄以及费用激增,若被人恶意写入违法信息还可...
- spring中的资源的加载(spring加载原理)
-
最近在网上看到有人问@ContextConfiguration("classpath:/bean.xml")中除了classpath这种还有其他的写法么,看他的意思是想从本地文件...
- Android资源使用(android资源文件)
-
Android资源管理机制在Android的开发中,需要使用到各式各样的资源,这些资源往往是一些静态资源,比如位图,颜色,布局定义,用户界面使用到的字符串,动画等。这些资源统统放在项目的res/独立子...
- 如何深度理解mybatis?(如何深度理解康乐服务质量管理的5个维度)
-
深度自定义mybatis回顾mybatis的操作的核心步骤编写核心类SqlSessionFacotryBuild进行解析配置文件深度分析解析SqlSessionFacotryBuild干的核心工作编写...
- @Autowired与@Resource原理知识点详解
-
springIOCAOP的不多做赘述了,说下IOC:SpringIOC解决的是对象管理和对象依赖的问题,IOC容器可以理解为一个对象工厂,我们都把该对象交给工厂,工厂管理这些对象的创建以及依赖关系...
- java的redis连接工具篇(java redis client)
-
在Java里,有不少用于连接Redis的工具,下面为你介绍一些主流的工具及其特点:JedisJedis是Redis官方推荐的Java连接工具,它提供了全面的Redis命令支持,且...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)