数据加载,存储与文件格式
2021-8-6
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property

 
 
 
pandas 提供了一些用于将表格型数据读取为DataFrame对象的函数
notion image

读写文本格式文件

pandas.read_csvpandas.read_table常用的选项
notion image
notion image
 
 
 
 
 
 
 
 
 
 
 
 
 

分块读取大文件

 
 

JSON数据

 
 

二进制数据格式

实现数据的高效二进制格式存储最简单的办法之一是使用 Python 内置的 pickle 序列化。pandas 对象都有一个用于将数据以 pickle 格式保存到磁盘上的to_pickle方法:
 
pandas 内置支持两个二进制数据格式:HDF5 和 MessagePack。pandas 或 NumPy 数据的其它存储格式有:
  • bcolz:一种可压缩的列存储二进制格式,基于 Blosc 压缩库。
  • Feather:我与 R 语言社区的 Hadley Wickham 设计的一种跨语言的列存储文件格式。Feather 使用了 Apache Arrow 的列式内存格式。

HDF5格式

HDF5 是一种存储大规模科学数组数据的非常好的文件格式。它可以被作为 C 标准库,带有许多语言的接口,如 Java、Python 和 MATLAB 等。HDF5 中的 HDF 指的是层次型数据格式(hierarchical data format)。每个 HDF5 文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5 支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5 就是不错的选择,因为它可以高效地分块读写。
虽然可以用 PyTables 或 H5Py 库直接访问 HDF5 文件,pandas 提供了更为高级的接口,可以简化存储SeriesDataFrame对象。HDFStore 类可以像字典一样,处理低级的细节:
 
 

Web APls交互

 
 

数据库交互

  • Pandas
  • 统计计算和描述数据规整
    目录