import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv') # 写入Excel文件 df.to_excel('output.xlsx', index=False)
2. 数据清洗Pandas 提供了处理缺失值(dropna(), fillna())、删除重复项(drop_duplicates())等函数# 删除含有缺失值的行 df_clean = df.dropna() # 用0填充缺失值 df_filled = df.fillna(0) # 删除重复行 df_unique = df.drop_duplicates()
3. 数据转换Pandas 允许你使用 .apply() 方法、映射(map())以及类型转换(astype())等功能来转换数据# 应用自定义函数到每列 df['new_column'] = df['existing_column'].apply(lambda x: x2) # 映射字典到某列 df['column_name'].map({'old_value': 'new_value'}) # 转换数据类型 df['column_name'] = df['column_name'].astype(int)
4. 数据分析Pandas 提供了丰富的统计函数(如 mean(), sum(), median() 等)以及分组聚合(groupby())和窗口函数(rolling(), expanding())# 计算某列的平均值 mean_value = df['column_name'].mean() # 分组聚合 grouped = df.groupby('group_column')['value_column'].sum() # 滚动窗口计算 rolling_mean = df['column_name'].rolling(window=3).mean()
5. 数据可视化Pandas 可以与其他可视化库(如 Matplotlib 和 Seaborn)结合使用,以生成各种图表import matplotlib.pyplot as plt # 绘制柱状图 df['column_name'].plot(kind='bar') plt.show() # 绘制散点图 df.plot(kind='scatter', x='column1', y='column2') plt.show()
应用示例假设我们有一个CSV文件 sales_data.csv,其中包含了一个店铺的销售数据,包括日期、销售额和商品类别date,sales,category 2023-01-01,1000,A 2023-01-02,1200,B 2023-01-03,800,A ...
以下是如何使用Pandas来分析这个销售数据:import pandas as pd # 读取数据 df = pd.read_csv('sales_data.csv') # 数据清洗:将日期列转换为日期类型 df['date'] = pd.to_datetime(df['date']) # 数据分析:计算每日销售额的总和 daily_sales = df.groupby('date')['sales'].sum() # 数据分析:计算每个商品类别的总销售额 category_sales = df.groupby('category')['sales'].sum() # 数据可视化:绘制每日销售额的折线图 daily_sales.plot(kind='line') plt.title('Daily Sales') plt.xlabel('Date') plt.ylabel('Sales') plt.show() # 数据可视化:绘制商品类别销售额的饼图 category_sales.plot(kind='pie', autopct='%1.1f%%', legend=False) plt.title('Sales by Category') plt.show()
上述代码首先读取了CSV文件,然后对日期列进行了清洗和转换接着,通过分组聚合计算了每日销售额和每个商品类别的总销售额最后,使用Matplotlib库绘制了每日销售额的折线图和商品类别销售额的饼图这只是Pandas功能的冰山一角,Pandas还提供了更多高级功能,如合并数据集、处理时间序列数据、执行复杂的统计分析等对于数据分析师和数据科学家来说,熟练掌握Pandas将大大提高数据处理和分析的效率(图片来源网络,侵删)
0 评论