Python 数据处理(一) python数据处理一般用什么工具

bigegpt 2024-10-21 03:49 3 浏览

做生信分析，肯定需要面对各种数据，像最常见的txt，csv，固定分隔符的矩阵类型的数据，也有像json，通过键-值的方式存储数据，或者xml标记语言，以标签的方式存储数据。

data.json

{
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23,
    'books': ['C++', 'Python', 'R']
}

c.xml

<?xml version="1.0"?>
<stop>
    <id>14791</id>
    <nm>Clark & Balmoral</nm>
    <sri>
        <rt>22</rt>
        <d>North Bound</d>
        <dd>North Bound</dd>
    </sri>
    <cr>22</cr>
    <pre>
        <pt>5 MIN</pt>
        <fd>Howard</fd>
        <v>1378</v>
        <rn>22</rn>
    </pre>
    <pre>
        <pt>15 MIN</pt>
        <fd>Howard</fd>
        <v>1867</v>
        <rn>22</rn>
    </pre>
</stop>

txt，csv 太常见了就不用说了。那有了这些文件，又该如何读取呢？

下面，简单介绍下 python 的读写操作。

1、读取txt格式数据

内置函数a.txt

chr2  29449344  29449368  (A)24  0  +
chr2  39573062  39573089  (A)27  0  +
chr2  42553086  42553096  (A)10  0  +
chr2  47641559  47641586  (A)27  0  +

file = 'a.txt'
# 以读的方式打开文件
f = open(file, 'r')
# 一次性读取整个文件为字符串，然后以 \n 分割字符串，循环每次取出一行
for line in f.read().split('\n'):
    # 每行是以 \t 分割， split不加参数默认以一个或多个空白符作为分割
    line = line.split()
    print(line)
# 最后不要忘记关闭文件
f.close()


# [out]:
['chr2', '29449344', '29449368', '(A)24', '0', '+']
['chr2', '39573062', '39573089', '(A)27', '0', '+']
['chr2', '42553086', '42553096', '(A)10', '0', '+']
['chr2', '47641559', '47641586', '(A)27', '0', '+']


# 上下文管理器 with 的方式打开文件，不需要手动关闭文件
with open('a.txt', 'r') as f:
    for line in f.read().split('\n'):
        line = line.split()
        print(line)

2、读取csv格式数据（其实csv与txt的操作基本互通）

内置函数

# 通过 txt 文件构造 csv 格式数据
fc = open('b.csv', 'w')
with open('a.txt', 'r') as f:
    for line in f.read().split('\n'):
        line = line.split()
        fc.write(','.join(line))
        fc.write('\n')
fc.close()

b.csv

csv数据的读取方式和txt类似，只需将split()换成split(',')

csv模块

# employee_birthday.csv
名字,部门,月份
张三,会计,11
李四,IT,3

import csv


with open('employee_birthday.csv') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    line_count = 0
    for row in csv_reader:
        if line_count == 0:
            print(f'列名:\n {", ".join(row)}')
            line_count += 1
        else:
            print(f'\t{row[0]}，{row[1]}部门，{row[2]} 入职。')
            line_count += 1
    print(f'行数 {line_count}。')

字典形式读取

import csv


with open('employee_birthday.csv') as csv_file:
    csv_reader = csv.DictReader(csv_file, delimiter=',')
    line_count = 0
    for row in csv_reader:
        if line_count == 0:
            print(f'列名:\n {", ".join(row)}')
            line_count += 1
        else:
            print(f'\t{row["名字"]}，{row["部门"]}部门，{row["月份"]} 入职。')
            line_count += 1
    print(f'行数 {line_count}。')

写入

import csv


with open('employee_file.csv', mode='w') as employee_file:
    employee_writer = csv.writer(employee_file, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)


    employee_writer.writerow(['John Smith', 'Accounting', 'November'])
    employee_writer.writerow(['Erica Meyers', 'IT', 'March'])

字典形式写入

import csv


with open('employee_file2.csv', mode='w') as csv_file:
    # 表头
    fieldnames = ['emp_name', 'dept', 'birth_month']
    writer = csv.DictWriter(csv_file, fieldnames=fieldnames)


    # 写入表头
    writer.writeheader()
    # 写入字典形式数据，键与表头一致
    writer.writerow({'emp_name': 'John Smith', 'dept': 'Accounting', 'birth_month': 'November'})
    writer.writerow({'emp_name': 'Erica Meyers', 'dept': 'IT', 'birth_month': 'March'})

pandas模块

import pandas as pd


# sep 参数指定分隔符， header=None：表示没有表头，name 可指定表头
txt = pd.read_csv('a.txt', sep='\t', header=None, 
                  names=['chrom', 'start', 'end', 'repeat', 'num', 'orientation'])
csv = pd.read_csv('b.csv', sep=',', header=None)

输出文件

# 默认输出行名，index=False，不输出行名
txt.to_csv(filename, index=False)
csv.to_csv(filename)

3、json数据

使用json模块

# python 字典与 json 数据相互转换
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23,
    'books': ['C++', 'Python', 'R']
}
json_str = json.dumps(data)


# [out]:
'{"name": "ACME", "shares": 100, "price": 542.23, "books": ["C++", "Python", "R"]}'
json.loads(json_str)


# [out]
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23,
    'books': ['C++', 'Python', 'R']
}


# 将字典数据保存成 json 文件
with open('data.json', 'w') as f:
    json.dump(data, f)


# 将json 文件读取成字典
with open('data.json', 'r') as f:
    data = json.load(f)

pandas

df = pd.read_json('data.json')
df

会将 json 文件转换为 DataFrame 格式数据

4、xml数据

xml模块

from xml.etree.ElementTree import parse, Element


doc = parse('c.xml')


for item in doc.iterfind('pre'):
    print(item.findtext('pt'), end='\t')
    print(item.findtext('fd'), end='\t')    
    print(item.findtext('v'), end='\t')
    print(item.findtext('rn'))

from xml.etree.ElementTree import parse, Element


doc = parse('c.xml')
root = doc.getroot()
# 删除两个标签元素
root.remove(root.find('sri'))
root.remove(root.find('cr'))


# 获取 nm 标签所在的位置
idx = root.getchildren().index(root.find('nm'))
# 构造标签元素 <spam> </spam>
e = Element('spam')
e.text = 'This is a spam'
root.insert(idx+1, e)
# 将修改过后的 xml 输出
doc.write('newc.xml', xml_declaration=True)

<--! 输出结果 -->
<?xml version='1.0' encoding='us-ascii'?>
<stop>
    <id>14791</id>
    <nm>Clark & Balmoral</nm>
    <spam>This is a spam</spam>
    <pre>
        <pt>5 MIN</pt>
        <fd>Howard</fd>
        <v>1378</v>
        <rn>22</rn>
    </pre>
    <pre>
        <pt>15 MIN</pt>
        <fd>Howard</fd>
        <v>1867</v>
        <rn>22</rn>
    </pre>
</stop>

pythondumps

上一篇：「json&pickle」dumps,loads,dump,load的区别
下一篇：零基础编程——Python文件、JSON数据存储

Python 数据处理(一) python数据处理一般用什么工具

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程