pandas中的describe函数说明
python学习 . 2020/01/21发布 . shanyonggang_web . 我要评论 . 51阅读

简介

describe()函数就是返回这两个核心数据结构的统计变量。其目的在于观察这一系列数据的范围、大小、波动趋势等等,为后面的模型选择打下基础,其官方文档为:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html,其基本代码如下:

DataFrame.describe(percentiles=None, include=None, exclude=None)
# return: Series or DataFrame.  Summary statistics of the Series or Dataframe provided.

使用案例

列表为数字的:

import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s.describe())

结果如下:

解释下25%、50%及75%的计算方法:

# 假设列表a = [1,2,3,4]
1、将数据从小到大排序,计为列表a(1 to n),n代表数据的长度
# 计算25%(第一四分位Q1)
2、确定四分位数的位置:b= 1+(n-1) × 0.25 = 1+(4-1)*0.25 = 1.75;b的整数部分计为c、b的小数部分计为d
计算Q1:Q1=a(c)+[a(c+1)-a(c)]*d=a(1)+[a(2)-a(1)] * 0.25 =1 +(2-1)×0.75 = 1.75
# 计算50%(第二四分位Q2)
3、确定四分位数的位置:b= 1+(n-1) × 0.5 = 1+(4-1)*0.5 = 2.5;b的整数部分计为c、b的小数部分计为d
计算Q2:Q2=a(c)+[a(c+1)-a(c)]*d=a(2)+[a(3)-a(2)] * 0.25 =2 +(3-2)×0.5 = 2.5
# 计算75%(第二四分位Q3)
4、确定四分位数的位置:b= 1+(n-1) × 0.75 = 1+(4-1) * 0.75 = 3.25;b的整数部分计为c、b的小数部分计为d
计算Q3:Q3=a(c)+[a(c+1)-a(c)]*d=a(3)+[a(4)-a(3)] * 0.75 =3 +(4-3)×0.75 = 3.75

列值为非数字的:

a = pd.Series(['a', 'd', 'r', 't'])
print(a.describe())

结果如下:

最终结果说明:

  • count:数量统计,此列共有多少有效值
  • unipue:不同的值有多少个
  • std:标准差
  • min:最小值
  • 25%:四分之一分位数
  • 50%:二分之一分位数
  • 75%:四分之三分位数
  • max:最大值
  • mean:均值
  • top:排序最靠前的
  • freq:排序最靠前出现的次数

  • 有疑问请在下方评论区留言,我会尽快回复。
  • Email私信我: 511248513@qq.com 或添加博主 微信
本文作者:shanyonggang_web
发布时间:2020年1月21日 14:03
许可协议: 署名-非商业性使用 4.0 国际许可协议
知识共享许可协议     转载请保留原文链接及作者
正在加载今日诗词....
您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的


登录 后回复

当前暂无评论,点击登录来做第一个吃螃蟹的人吧!