MST
星途 面试题库

面试题:Python中Pandas数据可视化基础问题

假设你有一个包含销售数据的DataFrame,其中有‘产品名称’‘销售额’‘销售数量’等列。请使用Pandas和Matplotlib(或Seaborn)绘制一个柱状图,展示不同产品的销售额对比。阐述一下在Python中使用Pandas进行数据预处理,以便更好地可视化的一般步骤。
44.4万 热度难度
编程语言Python

知识考点

AI 面试

面试题答案

一键面试

1. 绘制柱状图代码示例

import pandas as pd
import matplotlib.pyplot as plt

# 假设已有销售数据的DataFrame
data = {
    '产品名称': ['产品A', '产品B', '产品C'],
    '销售额': [100, 200, 150],
    '销售数量': [50, 100, 75]
}
df = pd.DataFrame(data)

# 绘制柱状图
plt.bar(df['产品名称'], df['销售额'])
plt.xlabel('产品名称')
plt.ylabel('销售额')
plt.title('不同产品销售额对比')
plt.show()

2. 使用Pandas进行数据预处理以便更好可视化的一般步骤

  1. 数据导入:使用pd.read_csv()pd.read_excel()等方法将数据从文件(如CSV、Excel等)导入为DataFrame。例如:df = pd.read_csv('sales_data.csv')
  2. 数据检查
    • 使用df.head()查看前几行数据,了解数据结构。
    • 使用df.info()查看数据类型、缺失值等信息。
    • 使用df.describe()获取数值列的统计摘要。
  3. 缺失值处理
    • 使用df.isnull().sum()查看每列缺失值数量。
    • 对于数值列,可使用df.fillna(df.mean())用均值填充缺失值;对于非数值列,可使用df.fillna('unknown')填充特定值。
  4. 数据类型转换:若数据类型不合适,如日期列被识别为对象类型,可使用pd.to_datetime()将其转换为日期类型。例如:df['日期列'] = pd.to_datetime(df['日期列'])
  5. 数据筛选与清洗
    • 根据条件筛选数据,如df = df[df['销售额'] > 0]筛选出销售额大于0的数据。
    • 去除重复数据,使用df.drop_duplicates()
  6. 数据分组与聚合:根据某列(如产品名称)进行分组,并对销售额进行聚合(如求和)。例如:grouped = df.groupby('产品名称')['销售额'].sum().reset_index(),以便绘制不同产品销售额对比图。