type
status
date
slug
summary
tags
category
icon
password
Property
pandas 提供了一些用于将表格型数据读取为
DataFrame
对象的函数读写文本格式文件
pandas.read_csv
和pandas.read_table
常用的选项分块读取大文件
JSON数据
二进制数据格式
实现数据的高效二进制格式存储最简单的办法之一是使用 Python 内置的 pickle 序列化。pandas 对象都有一个用于将数据以 pickle 格式保存到磁盘上的
to_pickle
方法:pandas 内置支持两个二进制数据格式:HDF5 和 MessagePack。pandas 或 NumPy 数据的其它存储格式有:
- bcolz:一种可压缩的列存储二进制格式,基于 Blosc 压缩库。
- Feather:我与 R 语言社区的 Hadley Wickham 设计的一种跨语言的列存储文件格式。Feather 使用了 Apache Arrow 的列式内存格式。
HDF5格式
HDF5 是一种存储大规模科学数组数据的非常好的文件格式。它可以被作为 C 标准库,带有许多语言的接口,如 Java、Python 和 MATLAB 等。HDF5 中的 HDF 指的是层次型数据格式(hierarchical data format)。每个 HDF5 文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5 支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5 就是不错的选择,因为它可以高效地分块读写。
虽然可以用 PyTables 或 H5Py 库直接访问 HDF5 文件,pandas 提供了更为高级的接口,可以简化存储
Series
和DataFrame
对象。HDFStore 类可以像字典一样,处理低级的细节: