暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

Pandas使用总结(四):数据分析计算

一叶扁舟 2020-06-28
1444

image.png

本节总结Pandas在数据计算分析上的应用,主要包括:描述统计计算、时间计算、分组聚合、数据标准化。

一、基本统计量

image.png

# 按行求和
df['row_sum'] = df.apply(lambda x: x.sum(), axis=1)
# 按列求和
df.loc['col_sum'] = df.apply(lambda x: x.sum())

二、时间计算

  • 生成时间
# 生成时间序列(period「生成个数」,freq「10天一个值, 与end不共存」)
pd.date_range(start='2020-03-01', end='2020-12-03', periods=10, freq='10D')
  • 重采样
# 重采样
df = df.set_index('time', drop=True) # 要先把时间列设为索引列
df = df.resample('M').sum() # 将一个月的聚合在一起

  • 时间的计算
# 时间偏移计算
from datetime import timedelta
df['time'] = df['time'] + timedelta(days=10) # 往后推10天

# 计算时间差(dt用来抽取时间)
df['date_cha'] = (datetime.now() - data['time']).dt.days

三、分组聚合

image.png

  • 范围分组演示
    image.png
    • 另外cut,还可以不指定分组范围列表,直接指定分组数
      image.png
    • 离散的分类
      image.png

image.png

附加:数据标准化

# 公式
x* = (x - min) / (max - min)
# 实现
df = (df - df.min()) / (df.max() - df.min())

最后修改时间:2020-07-08 18:36:42
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论