散点图
2021-8-11
| 2023-8-6
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
Property

 
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
通过观察散点图上数据点的分布情况,可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。
notion image
示例图如下:
notion image
 
 

绘制散点图

可以使用 pyplot 中的 scatter() 方法来绘制散点图
参数说明:
  • x,y:长度相同的数组,也就是绘制散点图的数据点,输入数据
  • s:点的大小,默认 20,也可以是个数组,数组每个参数为对应点的大小
  • c:点的颜色,默认蓝色 'b',也可以是个 RGB 或 RGBA 二维行数组
  • marker:点的样式,默认小圆圈 'o'
  • cmap:Colormap,默认 None,标量或者是一个 colormap 的名字,只有 c 是一个浮点数数组的时才使用。如果没有申明就是 image.cmap
  • norm:Normalize,默认 None,数据亮度在 0-1 之间,只有 c 是一个浮点数的数组的时才使用
  • vmin,vmax::亮度设置,在 norm 参数存在时会忽略
  • alpha::透明度设置,0-1 之间,默认 None,即不透明
  • linewidths::标记点的长度
  • edgecolors::颜色或颜色序列,默认为 'face',可选值有 'face', 'none', None
  • plotnonfinite::布尔值,设置是否使用非限定的 c ( inf, -inf 或 nan) 绘制点
  • *kwargs::其他参数
 
notion image
notion image
 
 

绘制回归曲线

有一组数据后,可以对这组数据进行回归分析,回归分析可以帮助我们了解这组数据的大体走向。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
自变量数量
是否线性
回归类型
1个
一元线性回归
多个
多元线性回归
1个
一元非线性回归
多个
多元非线性回归
通过以上运动员散点图的分析,我们总体上可以看出来是满足线性回归的,因此可以在图上绘制一个线性回归的线条。想要绘制线性回归的线条,需要先按照之前的数据计算出线性方程,假如x是自变量,y是因变量,那么线性回归的方程可以用以下几个来表示:
y = 截距+斜率*x+误差
只要把这个方程计算出来了,那么后续就可以根据x的值,大概的估计出y的取值范围,也就是预测。如果针对以上运动员的身高和体重的关系,只要有身高,那么就可以大概的估计出体重的值。回归方程的绘制我们需要借助scikit-learn库,需要使用里面的线性回归类sklearn.liear_regression.LinearRegression
notion image
 
  • Matplotlib
  • 直方图和饼图箱线图和雷达图
    目录