百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Python之文本解析:字符串格式化的逆操作?

bigegpt 2024-12-28 11:23 5 浏览

引言

前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。

关于字符串的操作,其实还有另外一种场景,就是从固定格式的字符串中,解析、提取出我们想要的信息。实际工作中,更常用的是从用户行为日志中提取出相关信息,从而进行行为模式的识别与分析,继而辅助引导后续的运营动作。

关于从字符串中提取出所需要的信息,在老手看来,最容易想到的大概就是使用正则表达式了。

但是,正则表达式对新手不太友好,而且可读性太差,即便是熟练掌握了正则表达式的老手,隔了一段时间,回看自己写的正则表达式,也会有些吃力。

本文我们快速略过正则表达式的用法,然后重点介绍通过好用的第三方模块,来实现常规场景下的字符串内容解析、提取的工作。

用户行为日志

在系统的运营过程中,记录用户在系统中的各种访问行为,通过这些行为日志的提取、分析,学习出用户相关动作背后的特定模式,从而更好地实现产品的运营,留存用户、提高转化率等。

下面我们生成一些用户行为日志的测试数据,作为后续文本内容提取的输入,从而演示文本解析提取的运行效果。


from faker import Faker
import random

fk = Faker('zh_CN')

fp = open('./access_log.txt', 'a')

# 假设主要有以下几种行为:login, search, add2cart, buy
for i in range(100):
    print(f"{fk.future_datetime()}#{fk.user_name()}@{fk.ipv4()}:action={random.choice(['login', 'search', 'add2cart', 'buy'])}", file=fp)

fp.close()

生成的日志内容,如下:


日志的格式为:

{访问时间}#{用户名}@{ip}:action={访问行为}

正则表达式

由于正则表达式比较复杂,暂时不需要用到正则表达式,只有一些特殊复杂的文本解析提取,才可能考虑用正则表达式,这里,简单举个例子,从文本中提取出所有的ip字段:

import re

pattern = r"\d+\.\d+\.\d+\.\d+"
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = re.search(pattern, text)
        if res:
            print(res.group())
        text = fp.readline()

输出结果:



关于正则表达式不再展开,需要用到的时候再行查阅吧。

当然,不通过正则表达式,也可以实现这个需求,只需要做字符串的分割就行了。

with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        print(text.split('@')[1].split(':')[0])
        text = fp.readline()

parse模块

除了正则表达式这个核武器,以及字符串分割的土方法。其实,还有更加灵巧、轻便的解决方案,这就要用到第三方模块parse。

安装

三方模块,使用之前,需要先安装:

pip3 install parse

文档及源码地址

https://github.com/r1chardj0n3s/parse



日志解析

先来把前面的行为日志数据解析一下:

from parse import parse

pattern = '{}#{}@{}:action={}'
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = parse(pattern, text)
        if res:
            dt, username, ip, action = res
            print(dt)
            print(username)
            print(ip)
            print(action)
        text = fp.readline()

也可以通过关键字的形式,进行解析结果的提取:


from parse import parse

# 也可以通过关键字参数,返回的结果为字典形式的
pattern = '{dt}#{username}@{ip}:action={action}'
with open('./access_log.txt', 'r') as fp:
    text = fp.readline()
    while text:
        res = parse(pattern, text)
        if res:
            dt = res['dt']
            username = res['username']
            ip = res['ip']
            action = res['action']
            print(dt)
            print(username)
            print(ip)
            print(action)
        text = fp.readline()

parse模块的其他功能:

前面解析日志中,我们只用到了parse模块中的parse()函数。
我们可以查看parse模块的源码,看下主要的功能:



parse模块的实现,依赖了正则表达式模块。
如同官网描述的一样,当我们通过:

from parse import *

只会导入4个函数:parse()、search()、findall()、with_pattern()。
关于这些函数的使用,感兴趣的可以查看源码自行研究。

其他模块

其实,关于文本数据的解析、提取,除了re、parse外,还有其他模块,分别用于更多的场景中的文本解析、提取。
比如HTML中的内容解析,可以使用lxml、beautifulsoup4,或者类似于jQuery的pyquery模块,也可以用于解析HTML文档。
这些模块在通过爬虫采集相关数据时,会更加便捷。
以后有机会,再进行相关的展开介绍。


相关推荐

了解Linux目录,那你就了解了一半的Linux系统

大到公司或者社群再小到个人要利用Linux来开发产品的人实在是多如牛毛,每个人都用自己的标准来配置文件或者设置目录,那么未来的Linux则就是一团乱麻,也对管理造成许多麻烦。后来,就有所谓的FHS(F...

Linux命令,这些操作要注意!(linux命令?)

刚玩Linux的人总觉得自己在演黑客电影,直到手滑输错命令把公司服务器删库,这才发现命令行根本不是随便乱用的,而是“生死簿”。今天直接上干货,告诉你哪些命令用好了封神!喜欢的一键三连,谢谢观众老爷!!...

Linux 命令速查手册:这 30 个高频指令,拯救 90% 的运维小白!

在Linux系统的世界里,命令行是强大的武器。对于运维小白而言,掌握一些高频使用的Linux命令,能极大提升工作效率,轻松应对各种系统管理任务。今天,就为大家奉上精心整理的30个Linu...

linux必学的60个命令(linux必学的20个命令)

以下是Linux必学的20个基础命令:1.cd:切换目录2.ls:列出文件和目录3.mkdir:创建目录4.rm:删除文件或目录5.cp:复制文件或目录6.mv:移动/重命名文件或目录7....

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf为什么要学习Linux命令?1、因为Li...

15 个实用 Linux 命令(linux命令用法及举例)

Linux命令行是系统管理员、开发者和技术爱好者的强大工具。掌握实用命令不仅能提高效率,还能解锁Linux系统的无限潜力,本文将深入介绍15个实用Linux命令。ls-列出目录内容l...

Linux 常用命令集合(linux常用命令全集)

系统信息arch显示机器的处理器架构(1)uname-m显示机器的处理器架构(2)uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件-(SMBIOS/DM...

Linux的常用命令就是记不住,怎么办?

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux常用文件操作命令(linux常用文件操作命令有哪些)

ls命令在Linux维护工作中,经常使用ls这个命令,这是最基本的命令,来写几条常用的ls命令。先来查看一下使用的ls版本#ls--versionls(GNUcoreutils)8.4...

Linux 常用命令(linux常用命令)

日志排查类操作命令查看日志cat/var/log/messages、tail-fxxx.log搜索关键词grep"error"xxx.log多条件过滤`grep-E&#...

简单粗暴收藏版:Linux常用命令大汇总

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部下午好,我的网工朋友在Linux系统中,命令行界面(CLI)是管理员和开发人员最常用的工具之一。通过命令行,用户可...

「Linux」linux常用基本命令(linux常用基本命令和用法)

Linux中许多常用命令是必须掌握的,这里将我学linux入门时学的一些常用的基本命令分享给大家一下,希望可以帮助你们。总结送免费学习资料(包含视频、技术学习路线图谱、文档等)1、显示日期的指令:d...

Linux的常用命令就是记不住,怎么办?于是推出了这套教程

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux的30个常用命令汇总,运维大神必掌握技能!

以下是Linux系统中最常用的30个命令,精简版覆盖日常操作核心需求,适合快速掌握:一、文件/目录操作1.`ls`-列出目录内容`ls-l`(详细信息)|`ls-a`(显示隐藏文件)...

Linux/Unix 系统中非常常用的命令

Linux/Unix系统中非常常用的命令,它们是进行文件操作、文本处理、权限管理等任务的基础。下面是对这些命令的简要说明:**文件操作类:*****`ls`(list):**列出目录内容,显...