课题组日志
小组联盟20241028——数据处理方法分享
作者:罗文泽
发布时间:2024-10-28
2024年10月28日14点,本学期第二次小组联盟分享会在通达馆436会议室线下召开。本次分享会的主题是“数据处理方法分享”,由范昱宏担任主持人,罗文泽担任记录人。
首先,范昱宏同学为我们介绍了数据处理的意义和目的,强调数据处理的重要性。接下来数据处理方法介绍主要围绕数据清洗、数据转换、数据压缩三部分展开。
数据清洗部分,范昱宏同学为我们介绍了重复值处理、缺失值处理、异常值处理三类基本方法。
数据转换部分,范昱宏同学首先介绍数据转换的目的,强调数据转换能为机器学习提供更高质量的数据集,从离散化、标准化、对数变换对数据转换进行系统地讲解。
数据压缩部分,范昱宏同学介绍了数据压缩的目的,具体包括减少数据量大小、提高模型训练与推理速度、提高模型泛化性能三个方面,具体实现则是通过降维转换中的PCA与LDA技术。
最后,师兄使用Jupyter Notebook为我们展示了数据处理中数据清洗以及数据转换两部分实例,通过对代码的逐行讲解,参会人员能更好的了解数据处理具体方法。