百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

用Python导入数据方法汇总 python3怎么导入数据

bigegpt 2024-10-06 02:45 5 浏览

Python可以使用各种各样的文件作为数据源:

  • flat files?—?csv, txt, tsv etc.
  • pickled files
  • excel spreadsheets
  • SAS and Stata files
  • HDF5
  • MATLAB
  • SQL databases
  • web pages
  • API

Flat files

平面文件--txt,csv - 很简单,可以使用numpy或pandas导入。

numpy.recfromcsv - 加载存储在逗号分隔文件中的ASCII数据。返回的数组是一个记录数组(如果usemask = False)或masked记录数组(如果usemask = True)。Python示例代码:

data = np.recfromcsv(file)

numpy.loadtxt - 此函数旨在成为简单格式化文件的快速阅读器。该genfromtxt函数提供了更复杂的处理,例如,缺失值的行。

data = np.loadtxt('file.csv', delimiter=',', skiprows=1, usecols=[0,2])

numpy.genfromtxt - 从文本文件加载数据,并按指定处理缺失值。是更复杂的函数,有很多参数来控制你的导入。

data = np.genfromtxt('titanic.csv', delimiter=',', names=True, dtype=None)

使用pandas更容易 - 一行,你准备好DataFrame中的文件。还支持可选地将文件迭代或分解为块。

data = pd.read_csv(file, nrows=5, header=None, sep='\t', comment='#', na_values='Nothing')

Pickle

它用于序列化和反序列化Python对象结构。可以对python中的任何对象进行pickle,以便将其保存在磁盘上。pickle的作用是在将对象写入文件之前先将其“序列化”。Pickling是一种将python对象(list,dict等)转换为字符流的方法。这个想法是这个字符流包含在另一个python脚本中重建对象所需的所有信息。下面的代码将打印一个在某处创建并存储在文件中的字典 - 非常酷,不是吗?

import pickle 
with open('data.pkl', 'rb') as file: 
 d = pickle.load(file)
print(d)

Excel

与pandas.read_excel将Excel表读入panda DataFrame中,并进行了大量的自定义导入数据,这个函数的文档很清楚,你可以用Excel文件做任何你想做的事情。

df = pd.read_excel('file.xlsx', sheet_name='sheet1')

SAS和Stata

SAS代表统计分析软件。SAS数据集包含组织为观察(行)和变量(列)表的数据值。要打开此类文件并从中导入数据,请看下面的Python代码示例:

from sas7bdat import SAS7BDAT
with SAS7BDAT('some_data.sas7bdat') as file: 
 df_sas = file.to_data_frame()

Stata是一款强大的统计软件,可以让用户分析、管理和生成数据的图形化可视化。它主要被经济学、生物医学和政治学领域的研究人员用于研究数据模式。存储在.dta文件中的数据,导入它的最好方法是pandas.read_stata

df = pd.read_stata('file.dta')

HDF5

分层数据格式(HDF)是一组文件格式(HDF4, HDF5),用于存储和组织大量数据。HDF5是一个独特的技术套件,可以管理非常大和复杂的数据集合。HDF5简化了文件结构,只包含两种主要类型的对象:

  • Datasets,是同构类型的多维数组
  • Groups,它是可以容纳数据集和其他组的容器结构

这就产生了一种真正的层次化、文件系统式的数据格式。实际上,HDF5文件中的资源甚至可以使用类似/ path / to / resource访问HDF5文件中的资源。元数据以用户定义的、附加到Groups和Datasets的命名属性的形式存储。然后,可以使用数据集、组和属性构建表示图像和表的更复杂的存储api。

要导入HDF5文件,我们需要h5py库。下面的Python代码示例使我更轻松,完全可以理解。

import h5py 
# Load file: 
data = h5py.File('file.hdf5', 'r') 
# Print the keys of the file 
for key in data.keys(): 
 print(key)
# Now when we know the keys we can get the HDF5 group
group = data['group_name'] 
# Going one level deeper, check out keys of group 
for key in group.keys(): 
 print(key)
# And so on and so on

MATLAB

很多人使用MATLAB并将数据存储在.mat文件中。那些文件是什么?这些文件包含在MATLAB工作空间中分配给它们的变量和对象列表。将它作为字典导入Python并不奇怪,其中键是MATLAB变量和值 - 分配给这些变量的对象。要编写和读取MATLAB文件,请使用scipy.io包。

import scipy.io 
mat = scipy.io.loadmat('some_project.mat')
print(mat.keys())

关系数据库

使用驱动程序连接到数据库,我们可以直接从那里获取数据。通常它意味着:创建连接,连接,运行查询,获取数据,关闭连接。它可以一步一步地完成,但在pandas 中只需要sqlalchemy包创建的连接。下面是连接到sqlite数据库引擎并从中获取数据的示例:

from sqlalchemy import create_engine 
import pandas as pd 
# Create engine 
engine = create_engine('sqlite:///localdb.sqlite')
# Execute query and store records in DataFrame 
df = pd.read_sql_query("select * from table", engine)

来自Web的数据

首先,如果我们有一个文件的URL,我们可以使用标准的pandas.read_csv / pandas.read_excel函数在参数“file =”中指定它

df = pd.read_csv('https://www.example.com/data.csv', sep=';')

除此之外,要从Web获取数据,我们需要使用HTTP协议,特别是GET方法。并且requests 包做了这个令人难以置信的工作。要从requests.get收到的响应中访问文本,我们只需要使用方法.text。

import requests 
r = requests.get('http://www.example.com/some_html_page') 
print(r.text)

r.text将为我们提供一个包含所有html标签的网页 - 不是很有用,不是吗?我们有一个BeautifulSoup包,可以解析HTML并提取我们需要的信息,在本例中是所有超链接(继续前面的例子):

from bs4 import BeautifulSoup
html_doc = r.text 
# Create a BeautifulSoup object from the HTML 
soup = BeautifulSoup(html_doc)
# Find all 'a' tags (which define hyperlinks) 
a_tags = soup.find_all('a') 
# Print the URLs to the shell 
for link in a_tags: 
 print(link.get('href'))

API

在计算机编程中,应用程序编程接口(API)是一组子例程定义,通信协议和用于构建软件的工具。一般而言,它是一组明确定义的各种组件之间的通信方法。有许多不同的API,首先必须做的是检查文档,但事实是几乎所有API都以JSON格式返回数据。requests 包将再次帮助我们。(我们必须发送HTTP GET请求以从API获取数据)。

import requests 
r = requests.get('https://www.example.com/some_endpoint') 
# Decode the JSON data into a dictionary: 
json_data = r.json()
# Print each key-value pair in json_data 
for k in json_data.keys(): 
 print(k + ': ', json_data[k])

我们可以看到,数据无处不在,我们必须知道获取它的所有方法

相关推荐

5分钟调色大片的方法(5分钟调色大片的方法有哪些)

哈喽大家好。在大家印象中一定觉得ps非常难学非常难。大家不要着急,小编的教学都是针对ps零基础的同学的,而且非常实用哦。只要大家跟着图文练习一两遍,保证大家立马学会~!好了,废话少说,下面开始我们今天...

闪白特效原来是这么用的(闪白特效怎么使用)

作者|高艳侠订阅|010-86092062闪白特效是影视作品中应用比较多的效果之一,那么具体该在哪些场景使用闪白特效?具体该如何操作?下面就以AdobePremiere(以下简称PR)为例,...

ppt常用小图标去哪里找?3个矢量素材网站推荐!

ppt是一个注重可视化表达的演示载体,除了高清图片,ppt中另一类常用的素材是各种小图标,也叫矢量图标,巧妙运用小图标能提升整体美观度和表现力,那么ppt常用小图标去哪里找呢?为方便各位快速找到合适的...

有什么好用的截图录屏工具?试试这9款

经常有朋友反馈苦于缺乏截屏和录屏的趁手工具,本期我们分享几个相当好用的截屏和录屏工具,希望能帮到大家。ScreenToGifScreenToGif是一款免费且开源的录屏工具。此款工具最大的特点是可以...

配色苦手福音!专业快速色环配色PS插件

今天橘子老师给的大家介绍的是一款快速配色的插件,非常强大配色苦手福音来啦!(获取方式见文末)【插件介绍】配色在后期设计中占有主导地位,好的配色能让作品更加抢眼Coolorus这款专业的配色插件,能够...

如何用PS抠主体?(ps怎么抠主体)

1.主体法抠图-抠花苞和花梗导入一张荷花苞的照片,点击上图中顶部“选择”菜单栏,下拉单击“主体”。可以看到,只有花苞被选中,但是花梗并没有被选中。接下来单击上图中左侧工具栏的“快速选择工具”,上图中顶...

2799元的4K电视,有保障吗?(买4k电视机哪个品牌好)

在上一期《电脑报》的3·15专题报道中,我们揭露了一款不靠谱的42英寸4K智能电视——TCLD42A561U。这款售价2699元的4K智能电视不仅4K画质方面存在严重问题,而且各种功能和应用体验也不理...

苹果电脑的Touch Bar推出一段时间了 这款工具可以帮你开发适用于它的APP

距离苹果推出带有TouchBar的MacBookPro已经有一段时间了,除了那些像Adobe、Google和Microsoft大公司在开发适用于TouchBar的应用之外,其实还有很多独立的开...

如魔法般吸取颜色的桌灯(如魔法般吸取颜色的桌灯叫什么)

色彩为生活带来的感官刺激,逐渐被视为理所当然。一盏桌灯运用它的神奇力量,将隐藏于物件中的颜色逐一释放,成为装点环境的空间魔法师。ColorUp是一款可以改变颜色的吸色台灯,沿用传统灯泡的造型,融入了拾...

一篇文章带你用jquery mobile设计颜色拾取器

【一、项目背景】现实生活中,我们经常会遇到配色的问题,这个时候去百度一下RGB表。而RGB表只提供相对于的颜色的RGB值而没有可以验证的模块。我们可以通过jquerymobile去设计颜色的拾取器...

ps拾色器快捷键是什么?(ps2019拾色器快捷键)

ps拾色器快捷键是什么?文章末尾有获取方式,按照以下步骤就能自动获得!学会制作PS特效需要一定程度的耐心和毅力。初学者可以从基本的工具和技术开始学习,逐渐提高他们的技能水平。同时,观看更多优秀的特效作...

免费开源的 Windows 截图录屏工具,支持 OCR 识别和滚动截图等

功能很强大、安装很小巧的免费截图、录屏工具,提供很多使用的工具来帮我么能解决问题,推荐给大家。关于ShareXShareX是一款免费的windows工具,起初是一个小巧的截图工具,经过多年的迭...

入门到精通系列PS教程:第13篇 · 拾色器、颜色问题说明及补充

入门到精通系列PS教程:第13篇·拾色器、颜色问题说明及补充作者|侯潇问题说明我的第12篇教程里,有个小问题没有说清楚。要说是错误,又不算是错误,只是没有说准确。写完那篇教程后,因为已经到了深...

PS冷知识:用吸管工具吸取屏幕上的任意颜色

今天,我们给大家介绍PS中的一个冷知识:用吸管工具可以吸取屏幕上的任意颜色。其实,操作起来是非常简单的。大多数情况下,我们认为,PS的吸管工具只能吸取PS软件作图区域范围内的颜色,最多加上画布四周的...

Windows 11 将提供内置颜色选择器工具

Windows11内置了颜色选择器,可以扫描并识别屏幕上的颜色并生成颜色代码。此外,微软还利用人工智能技术,让屏幕上的文本扫描和选择变得更加便捷。这两项功能均已在SnippingToolv1...