Pandas、NumPy、Matplotlib。从数据清洗到可视化呈现,用数据讲故事。
理解数据分析的定义、流程与应用场景。学习 CRISP-DM 标准流程,了解数据分析师的核心技能树,认识数据分析在商业决策、科学研究和社会治理中的重要作用。
快速回顾 Python 核心语法,包括列表推导式、字典操作、文件读写、异常处理和函数定义。重点掌握面向数据分析的 Python 编程技巧和最佳实践。
深入学习 NumPy 数组的创建、索引、切片与变形。掌握向量化运算、广播机制、线性代数运算和随机数生成,理解 NumPy 在大规模数据计算中的性能优势。
系统学习 Series 与 DataFrame 的核心操作。掌握数据读取(CSV、Excel、SQL)、数据筛选、排序、合并、透视表等技能,构建扎实的数据处理基础。
处理缺失值、异常值和重复数据。学习数据类型转换、字符串清洗、日期时间处理、特征编码和数据标准化方法,建立规范的数据预处理工作流。
精通 groupby 分组聚合、多级索引、窗口函数和时间序列重采样。学习 apply、transform、agg 等高级聚合方法,掌握复杂数据的汇总统计技巧。
从基础折线图、柱状图、散点图到复杂的子图布局。学习 Matplotlib 的面向对象 API,掌握图表美化、标注、配色和多图组合,制作专业级静态图表。
使用 Seaborn 进行统计可视化,包括热力图、箱线图、小提琴图和成对关系图。引入 Plotly 创建交互式图表,学习地图可视化和动态数据展示。
掌握 EDA 的系统方法论:单变量分析、双变量分析、多变量分析。学习使用 profile 报告自动生成数据概览,培养从数据中发现模式和洞察的直觉。
学习描述性统计、概率分布、假设检验、相关分析和回归分析的基础知识。理解 p 值、置信区间和效应量的含义,能够正确解读统计结果。
基于真实电商销售数据,完成从数据导入、清洗、探索到可视化报告的完整流程。分析销售趋势、产品表现和客户分群,生成可落地的业务洞察。
分析网站用户行为日志,构建用户画像和行为路径。运用漏斗分析、留存分析和 RFM 模型,输出完整的用户行为分析报告和可视化仪表盘。