数据科学

数据分析与可视化

Pandas、NumPy、Matplotlib。从数据清洗到可视化呈现,用数据讲故事。

📚 72 课时 ⏱ 35 小时 📊 数据驱动
课程章节

72 课时,成为数据分析专家

01

数据分析概述

理解数据分析的定义、流程与应用场景。学习 CRISP-DM 标准流程,了解数据分析师的核心技能树,认识数据分析在商业决策、科学研究和社会治理中的重要作用。

4 课时
1.1数据分析定义与价值什么是数据分析、为什么数据分析重要、行业应用场景
1.2CRISP-DM 标准流程业务理解→数据理解→数据建模→评估→部署
1.3分析师技能树SQL/Python/统计学/可视化/业务思维能力模型
1.4Python 数据科学生态NumPy/Pandas/Matplotlib/Scikit-learn 工具链
02

Python 基础回顾

快速回顾 Python 核心语法,包括列表推导式、字典操作、文件读写、异常处理和函数定义。重点掌握面向数据分析的 Python 编程技巧和最佳实践。

4 课时
2.1数据类型与结构列表/字典/集合/元组、类型转换、序列操作
2.2函数与模块def 定义、lambda、模块导入、常用标准库
2.3列表推导式单层/嵌套推导式、条件过滤、性能对比
2.4文件操作与异常with 语句、CSV/JSON 读写、try/except
03

NumPy 数值计算

深入学习 NumPy 数组的创建、索引、切片与变形。掌握向量化运算、广播机制、线性代数运算和随机数生成,理解 NumPy 在大规模数据计算中的性能优势。

6 课时
3.1数组创建与属性np.array/zeros/ones/eye、shape/dtype/ndim
3.2索引与切片一维/多维索引、布尔索引、花式索引、reshape
3.3向量化运算数组算术、比较运算、ufunc 函数、性能优势
3.4广播机制不同形状数组运算、广播规则、实际应用
3.5线性代数函数np.dot/linalg.inv/linalg.eig、矩阵运算
3.6随机数生成np.random 模块、正态/均匀/随机采样
04

Pandas 数据处理

系统学习 Series 与 DataFrame 的核心操作。掌握数据读取(CSV、Excel、SQL)、数据筛选、排序、合并、透视表等技能,构建扎实的数据处理基础。

8 课时
4.1Series 与 DataFrame创建、索引、切片、数据类型、基本统计
4.2数据读取 CSV/Excel/SQLread_csv/read_excel/read_sql、编码与解析
4.3数据筛选与过滤loc/iloc、条件筛选、query 方法
4.4排序与排名sort_values/sort_index/rank、多列排序
4.5合并与连接 merge/joinmerge/join/concat、内/外/左/右连接
4.6透视表与交叉表pivot_table/crosstab、聚合函数应用
4.7分组聚合 groupby分组→应用→合并、agg/apply/transform
4.8数据类型转换astype/to_datetime/to_numeric、类型推断
05

数据清洗与预处理

处理缺失值、异常值和重复数据。学习数据类型转换、字符串清洗、日期时间处理、特征编码和数据标准化方法,建立规范的数据预处理工作流。

6 课时
5.1缺失值检测与处理isna/fillna/dropna、缺失机制 MCAR/MAR/MNAR
5.2异常值检测与处理IQR/Z-score/孤立森林、截断/删除/替换
5.3重复数据处理duplicated/drop_duplicates、去重策略
5.4字符串数据清洗str 访问器、正则提取、标准化与替换
5.5日期时间处理pd.to_datetime、日期组件提取、时间差计算
5.6特征编码 Label/OneHotLabelEncoder/OneHotEncoder/get_dummies
06

数据聚合与分组

精通 groupby 分组聚合、多级索引、窗口函数和时间序列重采样。学习 apply、transform、agg 等高级聚合方法,掌握复杂数据的汇总统计技巧。

4 课时
6.1groupby 高级用法多列分组、自定义聚合、过滤与转换
6.2多级索引 MultiIndex层级索引、stack/unstack、交叉表
6.3窗口函数 rollingrolling/expanding/ewm、滑动统计量
6.4时间序列重采样resample、降采样/升采样、时间聚合
07

数据可视化(Matplotlib)

从基础折线图、柱状图、散点图到复杂的子图布局。学习 Matplotlib 的面向对象 API,掌握图表美化、标注、配色和多图组合,制作专业级静态图表。

8 课时
7.1折线图与多图对比plt.plot、多系列折线、图例与标签
7.2柱状图与堆叠图plt.bar/barh、分组柱状图、堆叠柱状图
7.3散点图与气泡图plt.scatter、颜色映射、气泡大小
7.4饼图与环形图plt.pie、百分比显示、环形图变体
7.5直方图与密度图plt.hist/hist2d、KDE 密度估计
7.6子图布局 subplotsGridSpec、多子图排列、共享坐标轴
7.7样式美化与配色style.use、colormap、字体与颜色配置
7.8标注注释与保存annotate/text、箭头标注、savefig 参数
08

高级可视化(Seaborn/Plotly)

使用 Seaborn 进行统计可视化,包括热力图、箱线图、小提琴图和成对关系图。引入 Plotly 创建交互式图表,学习地图可视化和动态数据展示。

8 课时
8.1Seaborn 热力图heatmap/corrplot、颜色映射、注释显示
8.2箱线图与小提琴图boxplot/violinplot、分布对比、分组展示
8.3成对关系图 pairplot散点矩阵、对角线分布、hue 分组
8.4分类图 catplotstripplot/swarmplot/boxplot 组合、FacetGrid
8.5Plotly 交互图表plotly.express 快速绑定、hover/zoom/select
8.6地理可视化choropleth 地图、散点地图、地理数据处理
8.7动态图表与动画animation_frame、时间序列动画、过渡效果
8.8仪表盘 Dash 入门Dash 布局、回调函数、实时更新仪表盘
09

探索性数据分析(EDA)

掌握 EDA 的系统方法论:单变量分析、双变量分析、多变量分析。学习使用 profile 报告自动生成数据概览,培养从数据中发现模式和洞察的直觉。

6 课时
9.1EDA 系统方法论EDA 目标、流程框架、分析维度设计
9.2单变量分析分布直方图、偏度峰度、异常值识别
9.3双变量分析散点图、相关系数、交叉表、卡方检验
9.4多变量分析相关矩阵、PCA 降维可视化、分组对比
9.5自动化数据报告ydata-profiling/sweetviz、一键生成 EDA 报告
9.6EDA 实战案例真实数据集完整 EDA 流程、洞察总结
10

统计分析基础

学习描述性统计、概率分布、假设检验、相关分析和回归分析的基础知识。理解 p 值、置信区间和效应量的含义,能够正确解读统计结果。

6 课时
10.1描述性统计均值/中位数/众数/标准差/分位数
10.2概率分布应用正态/二项/泊松分布、scipy.stats
10.3假设检验 t 检验单样本/双样本/配对 t 检验、p 值解读
10.4相关分析Pearson/Spearman 相关系数、相关与因果
10.5回归分析基础简单线性回归、残差分析、R² 决定系数
10.6效应量与置信区间Cohen's d、置信区间计算、结果报告规范
11

实战项目:销售数据分析

基于真实电商销售数据,完成从数据导入、清洗、探索到可视化报告的完整流程。分析销售趋势、产品表现和客户分群,生成可落地的业务洞察。

6 课时
11.1数据导入与概览加载数据、基本信息、缺失值概览
11.2数据清洗处理缺失值、异常值、类型转换
11.3销售趋势分析时间序列分析、季节性、同比增长
11.4产品表现分析产品排名、类别对比、长尾分布
11.5客户分群 RFM最近购买/频率/金额分群、客户画像
11.6可视化报告输出Dashboard 制作、洞察总结、业务建议
12

实战项目:用户行为分析

分析网站用户行为日志,构建用户画像和行为路径。运用漏斗分析、留存分析和 RFM 模型,输出完整的用户行为分析报告和可视化仪表盘。

6 课时
12.1日志数据处理日志解析、字段提取、时间戳处理
12.2用户画像构建用户属性统计、活跃度分层、行为标签
12.3行为路径分析页面流分析、桑基图、关键路径识别
12.4漏斗分析转化漏斗构建、转化率计算、流失点定位
12.5留存分析日/周/月留存率、留存队列分析
12.6可视化仪表盘Dash/Streamlit 仪表盘、交互式筛选
在线练习

动手试一试

analysis.py
输出结果
点击 "运行" 查看结果...

用数据讲故事

72 课时系统学习,从数据到洞察

← 返回课程列表