跳转至


程序设计与数据可视化课程总结

最后更新: 2024-06-01
创建日期: 2024-06-01


本学期担任了许嘉蓉老师的程序设计与数据可视化课程的助教,帮助设计了一些代码可的教案,个人感觉还是比较实用的,在这里加以总结。

lab1: 数据预处理与基础可视化#

该节主要以经典的iris数据集为例,讲解了一些最基础的数据预处理方法和可视化方法,主要包括:
1. 数据读入与统计信息描述
2. 数据预处理:缺失值填补、异常点处理、数据标准化
3. 散点图、直方图、箱线图、平行坐标图、热力图的绘制


lab2: 数据降维的应用#

该节主要用一个人脸识别的小例子阐述了数据降维与重构的思想,撰写本文的时候正好准备深度学习考试,感觉这些降维重构的过程很像AE/VAE这类模型的思想,很有意思。内容主要包括:
1. PCA/MDS/LLE/LE/t-SNE等常用降维方法的应用
2. 以PCA为例对图像进行降维后重构,观察变化
3. 手动实现一个PCA(不调包)

lab3: 数据爬取与自然语言处理#

该节我设计的也挺有意思,主要是让同学们自己爬取豆瓣上的一些影评然后通过LDA主题分析对比不同电影的评论。内容主要包括:
1. 通过爬虫爬取自选电影的影评,这里框架是我写好的,可以通过输入豆瓣的电影序号自动爬取影评,得益于豆瓣没什么反爬机制,过程比较顺利
2. 自然语言数据预处理,主要是删除一些停用词以及完成分词
3. 基于sklearn和pyldavis的主题分析,pyldavis是一个lda的可视化包,界面还是比较好看的