type
status
date
slug
summary
tags
category
icon
password
Property
分布绘图分为单一变量分布,多变量分布,成对绘图
单变量分布
单一变量主要就是通过直方图来绘制。在
seaborn
中直方图的绘制采用的是distplot
,其中dist
是distribution
的简写,不是histogram
的简写。有以下常用参数:
kde(核密度曲线)
:这个代表是否要显示kde
曲线,默认是显示的,如果显示kde
曲线,那么y
轴表示的就是概率,而不是数量。也可以设置为False
关掉。示例代码如下:
2.
bins
:代表这个直方图显示的数量。也可以通过自己设置。示例代码如下:3.
rug
:代表是否需要显示底部的胡须下线,下面的胡须线越密集的地方,说明数据量越多。示例代码如下:二变量分布
多变量分布图可以看出两个变量之间的分布关系。一般都是采用多个图进行表示。多变量分布图采用的函数是
jointplot
散点图
通过设置
kind='reg'
可以设置回归绘图和核密度曲线。示例代码如下:六边形图
对于一些数据量特别大的数据,用散点图不太利于观察,比如查看奥运会中国运动员的身高和体重分布情况,如果用散点图将会是以下的效果:
针对这种数据量比较大的情况,可以采用六边形图来绘制,也就是将之前的散点变成六边形,六边形有一个区间大小,之前这些点落在这个六边形中越多颜色越深。
默认情况,在
x
轴的区间内,可以展示100个六边形,所以默认情况下六边形的尺寸会比较小,如果想要展示得更大一点,那么可以设置减少六边形的个数,通过gridsize
设置。jointplot其他常用参数
x,y,data
:绘制图的数据。
kind
:scatter
、reg
、resid
、kde
、hex
。
color
:绘制元素的颜色。
height
:图的大小,图会是一个正方形。
ratio
:主图和副图的比例,只能为一个整形。
space
:主图和副图的间距。
dropna
:是否需要删除x
或者y
值中出现了NAN
的值。
marginal_kws
:副图的一些属性,比如设置bins
、rug
等
成对绘图(pairplot)
pairplot
可以把某个数据集中某几个字段之间的关系图一次性绘制出来。比如iris
鸢尾花数据,我们想要看到petal_width
、petal_height
、sepal_width
以及sepal_height
之间的关系,那么我们就可以通过pairplot
来绘制。默认情况下,对角线的图(x和y轴的列相同)是直方图,其他地方的图是散点图,如果想要修改这两种图,可以通过
diag_kind
和kind
来实现。其中这两个参数可取的值为:diag_kind
:auto
,hist
,kde
kind
:scatter
,reg