data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c'], 'col3': [4, 5, 6]}
df = pd.DataFrame(data)
# 使用 df.drop()函数删除列,axis=1 表示操作的是列(axis=0 表示行),inplace=True 表示直接在原
DataFrame 上修改,若为 False 则返回一个修改后的新 DataFrame 副本
df.drop(columns=['col3'], axis=1, inplace=True)
print(df)
在上述代码中,columns 参数指定了要删除的列名列表,我们可以根据实际需求填入想要删除的列名,
从而轻松实现删除指定列的操作,让数据更加精简,便于后续处理。
重命名列在数据处理中也有着重要意义,比如原始数据库中的列名可能是一些缩写或者不够直观清晰的
命名,当我们要进行数据分析或者展示时,将列名修改为更易理解的名称会方便很多。在 Python 里,
利用 df.rename() 函数就可以进行列重命名操作。示例代码如下:
import pandas as pd
# 同样模拟一个简单的 DataFrame 示例
data = {'old_col1': [1, 2, 3], 'old_col2': ['a', 'b', 'c']}
df = pd.DataFrame(data)
# 使用 df.rename()函数进行列重命名,columns 参数传入一个字典,键为原列名,值为新列名
new_column_names = {'old_col1': 'new_col1', 'old_col2': 'new_col2'}
df.rename(columns=new_column_names, inplace=True)
print(df)
通过这样的方式,我们可以按照业务需求灵活地更改列名,使得数据结构在后续的处理和分析中更加清
晰明了。
(二)重复值、缺失值处理
在很多业务场景中,比如人员信息录入时可能因为误操作、系统故障等原因会出现重复记录人员数据的
情况,像重复录入同一个员工的多条相同基本信息等。这时就需要对重复值进行处理。在 Python 中,
我们可以使用 df.drop_duplicates() 函数来去除重复值。以下是示例代码:
import pandas as pd
# 模拟含有重复值的人员信息 DataFrame 示例,这里假设有姓名、年龄、部门三列,其中有重复的人员
记录
data = {'name': ['张三', '李四', '张三', '王五'], 'age': [25, 30, 25, 35], 'department': ['研发', '市场', '研发', '财务']}
df = pd.DataFrame(data)
# 使用 df.drop_duplicates()函数去除重复行,默认会根据所有列来判断重复,可通过 subset 参数指定依据
某些列判断重复
df.drop_duplicates(inplace=True)
print(df)
需要注意的是,使用这个函数时,如果指定了 subset 参数,它会按照指定的列来判断重复情况,并且
默认保留第一次出现的行,删除后面重复的行。根据实际的数据情况合理设置参数,就能准确地去除重
复值了。
数据库中的人员信息数据可能由于各种原因产生缺失值,比如部分信息未填写完整、数据传输过程中出
现丢失等,而这些缺失值如果不处理,可能会影响后续的数据分析结果准确性,像在计算平均年龄等统
计指标时会出现偏差。在 Python 中,我们可以使用 df.fillna() 等函数来填充缺失值。示例代码如下:
import pandas as pd
# 模拟含有缺失值的人员信息 DataFrame 示例,比如年龄列有部分缺失
data = {'name': ['张三', '李四', '王五'], 'age': [25, None, 35], 'department': ['研发', '市场', '财务']}
df = pd.DataFrame(data)
# 使用 df.fillna()函数填充缺失值,这里以填充固定值为例,将年龄列的缺失值填充为 0,可根据实际情
文档被以下合辑收录
相关文档
评论