本节总结Pandas在数据计算分析上的应用,主要包括:描述统计计算、时间计算、分组聚合、数据标准化。
一、基本统计量
# 按行求和
df['row_sum'] = df.apply(lambda x: x.sum(), axis=1)
# 按列求和
df.loc['col_sum'] = df.apply(lambda x: x.sum())
二、时间计算
- 生成时间
# 生成时间序列(period「生成个数」,freq「10天一个值, 与end不共存」)
pd.date_range(start='2020-03-01', end='2020-12-03', periods=10, freq='10D')
- 重采样
# 重采样
df = df.set_index('time', drop=True) # 要先把时间列设为索引列
df = df.resample('M').sum() # 将一个月的聚合在一起
- 时间的计算
# 时间偏移计算
from datetime import timedelta
df['time'] = df['time'] + timedelta(days=10) # 往后推10天
# 计算时间差(dt用来抽取时间)
df['date_cha'] = (datetime.now() - data['time']).dt.days
三、分组聚合
- 范围分组演示
- 另外cut,还可以不指定分组范围列表,直接指定分组数
- 离散的分类
- 另外cut,还可以不指定分组范围列表,直接指定分组数
附加:数据标准化
# 公式
x* = (x - min) / (max - min)
# 实现
df = (df - df.min()) / (df.max() - df.min())
最后修改时间:2020-07-08 18:36:42
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。