pandas读取数据集的实现示例_Python

pandas 作为 python 数据分析的核心库，其数据读取功能（如 read_csv、read_excel、read_sql 等）支撑着从数据接入到价值产出的全流程。以下是其典型应用场景及实例：

一、数据加载与初步探索

场景：接入各类数据源并快速预览数据结构

实例：

import pandas as pd
df = pd.read_csv("sales_data.csv")  # 读取csv文件
print(df.head())  # 查看前5行数据
print(df.info())  # 获取数据类型、缺失值等元信息

二、数据清洗与预处理

场景：处理缺失值、异常值、重复数据

实例：

df = pd.read_excel("user_data.xlsx")
df.drop_duplicates(inplace=true)  # 删除重复行
df.fillna({"age": df["age"].mean()}, inplace=true)  # 用均值填充缺失年龄

三、结构化数据分析

场景：统计分析、聚合计算、交叉表生成

实例：

df = pd.read_sql("select * from orders", conn)  # 从数据库读取订单数据
monthly_sales = df.groupby(df["order_date"].dt.to_period("m"))["amount"].sum()  # 按月汇总销售额

四、时间序列分析

场景：金融数据、传感器数据等时序数据处理

实例：

df = pd.read_csv("stock_prices.csv", parse_dates=["date"], index_col="date")  # 解析日期并设为索引
df["rolling_mean"] = df["close"].rolling(window=30).mean()  # 计算30天移动平均

五、机器学习数据准备

场景：特征工程、数据拆分、格式转换

实例：

df = pd.read_csv("titanic.csv")
x = df[["pclass", "age", "fare"]]  # 提取特征
y = df["survived"]  # 提取标签
x = pd.get_dummies(x, columns=["pclass"])  # 独热编码分类特征

六、报表自动化与数据导出

场景：生成动态报告、数据格式化输出

实例：

df = pd.read_json("api_response.json")  # 读取api返回的json数据
summary = df.describe().t  # 生成统计摘要
summary.to_excel("analysis_report.xlsx")  # 导出为excel报表

七、多源数据集成

场景：合并不同格式/来源的数据集

实例：

df1 = pd.read_csv("sales_2023.csv")
df2 = pd.read_excel("sales_2024.xlsx")
combined_df = pd.concat([df1, df2], ignore_index=true)  # 纵向合并两年销售数据

八、日志与非结构化数据处理

场景：解析半结构化日志数据

实例：

df = pd.read_csv("server_logs.csv", sep="|", header=none)  # 自定义分隔符读取日志
df.columns = ["timestamp", "level", "message"]  # 手动指定列名

九、教育与科研

场景：学术数据处理、论文图表数据准备

实例：

df = pd.read_csv("experimental_results.csv")
correlation = df[["temperature", "yield"]].corr()  # 计算温度与产量的相关性

十、商业智能（bi）支撑

场景：为tableau、power bi等工具提供预处理数据

实例：

df = pd.read_parquet("large_dataset.parquet")  # 高效读取大数据文件
df_filtered = df[df["region"] == "north"]  # 按区域筛选数据
df_filtered.to_csv("north_region_data.csv")  # 输出给bi工具