type
status
date
slug
summary
tags
category
icon
password
Property
目录
时间序列(time series)数据是一种重要的结构化数据形式,在多个时间点观察或测量到的任何时间都可以形成一段时间序列。很多时间, 时间序列是固定频率的, 也就是说, 数据点是根据某种规律定期出现的(比如每15秒);时间序列也可以是不定期的。
时间序列数据的意义取决于具体的应用场景,主要由以下几种:
- 时间戳(timestamp),特定的时刻
- 固定时期(period),如2007年1月或2010年全年
- 时间间隔(interval),由起始和结束时间戳表示,时期(period)可以被看做间隔(interval)的特例
时间和日期数据类型及其工具
Python标准库包含用于日期(date)和时间(time)数据的数据类型,而且还有日历方面的功能。主要会用到
datetime
、time
以及calendar
模块。datetime.datetime
(也可以简写为datetime
)是用得最多的数据类型:type
status
date
slug
summary
tags
category
icon
password
Property
Matplotlib 是 Python 的绘图库,能轻松地将数据图形化,提供多样化的输出格式,可以用来绘制各种静态,动态,交互式的图表。
可以绘制线图、散点图、等高线图、条形图、柱状图、3D 图形、甚至是图形动画等等
源代码:
matplotlib
matplotlib • Updated Jun 19, 2024
type
status
date
slug
summary
tags
category
icon
password
Property
plot()
用于画图它可以绘制点和线,语法格式如下:参数说明:
- x, y:点或线的节点,x 为 x 轴数据,y 为 y 轴数据,数据可以列表或数组
- fmt:可选,定义基本格式(如颜色、标记和线条样式)
- *kwargs:可选,用在二维平面图上,设置指定属性,如标签,线的宽度等
plt.plot
的x和y参数不能够作为关键字参数来传递,只能作为位置参数来传plt.plot
函数官方文档:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plottype
status
date
slug
summary
tags
category
icon
password
Property
目录
条形图的绘制方式跟折线图非常的类似,只不过是换成了
plt.bar
方法,plt.bar
方法有以下常用参数:x
:一个数组或者列表,代表需要绘制的条形图的x轴的坐标点
height
:一个数组或者列表,代表需要绘制的条形图y轴的坐标点
width
:每一个条形图的宽度,默认是0.8的宽度
bottom
:y
轴的基线,默认是0,也就是距离底部为0
align
:对齐方式,默认是center
,也就是跟指定的x
坐标居中对齐,还有为edge
,靠边对齐,具体靠右边还是靠左边,看width
的正负
color
:条形图的颜色
type
status
date
slug
summary
tags
category
icon
password
Property
目录
直方图
直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的条纹表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。这些值通常被指定为连续的,不重叠的变量间隔。间隔必须相邻,并且通常是(但不是必须的)相等的大小。
直方图的绘制方法,使用的是
plt.hist
方法来实现,这个方法的参数以及返回值如下:参数:
x
:数组或者可以循环的序列。直方图将会从这组数据中进行分组
bins
:数字或者序列(数组/列表等)。如果是数字,代表的是要分成多少组。如果是序列,那么就会按照序列中指定的值进行分组。比如[1,2,3,4]
,那么分组的时候会按照三个区间分成3组,分别是[1,2)/[2,3)/[3,4]
range
:元组或者None,如果为元组,那么指定x
划分区间的最大值和最小值。如果bins
是一个序列,那么range
没有有没有设置没有任何影响
type
status
date
slug
summary
tags
category
icon
password
Property
目录
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
通过观察散点图上数据点的分布情况,可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。
示例图如下:
绘制散点图
type
status
date
slug
summary
tags
category
icon
password
Property
目录
箱线图
箱线图(Box-plot)又称为盒须图、盒式图或箱型图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的上限值、下限值、中位数(Q2)和下四分位数(Q1)以及上四分位数(Q3);然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
在
matplotlib
中有plt.boxplot
来绘制箱线图,这个方法的相关参数如下:x
:需要绘制的箱线图的数据
notch
:是否展示置信区间,默认是False
。如果设置为True
,那么就会在盒子上展示一个缺口
sym
:代表异常点的符号表示,默认是小圆点