新闻网讯(学生通讯员:李旺)2025年12月25日,南湖红帆“领航”读书会第九期顺利举办。本期聚焦数据科学流程的重点环节——数据准备与整合,通过系统讲解tidyverse数据编程范式、多源数据读写与编码处理、以及关系型数据连接方法,引导同学们构建起规范、高效且可复现的数据处理工作流,为后续分析与建模奠定基础。

一、确立数据编程思维:从向量化到声明式管道
读书会首先深入阐释了以tidyverse为核心的现代数据编程思想:将数据框(Data Frame)作为基本计算单元,通过一系列动词化、功能单一的函数,以管道(%>%或|>)为纽带,实现复杂操作的线性组合与清晰表达。同学们通过实践深刻体会到,将任务分解为“筛选、排序、选择、修改、分组、汇总”等基本操作,并利用across()等函数进行批量排列操作,不仅能提升代码的可读性与可维护性,更本质地体现了一种“分解-映射-整合”的数据导向思维模式,是处理任何规模数据分析项目的通用框架。
二、掌握数据读写方案:从多源接口到编码治理
针对科研中常见的数据获取挑战,读书会系统梳理了R语言生态中的多格式读写方案:使用readr处理结构化文本,readxl读取Excel文件,haven对接SPSS、Stata、SAS等专业统计软件数据,以及jsonlite用于JSON等半结构化数据。同时重点攻克中文编码这一常见难题,同学们通过对比GBK、UTF-8等编码原理,掌握了在文件读取与脚本编写中统一编码设置的方法,从根本上避免了乱码问题。此外,还引入了arrow包与Parquet列式存储格式,为处理超出内存限制的大数据集提供了现代、高效的解决方案。
三、精通关系数据连接:从表操作到数据库查询
为应对多源、关联数据的整合需求,本期读书会深入讲解了基于dplyr的数据连接方法体系。同学们系统掌握了以键(Key)为核心的表连接操作,包括left_join、inner_join等六种基本连接类型及其应用场景,并进一步学习了非等值连接、滚动连接等高级技巧。通过join_by()语法,大家能够清晰、灵活地定义复杂的连接规范。最后,课程学习拓展至真实数据库环境,演示了如何通过DBI与dbplyr包,在R中直接使用dplyr语法查询远程数据库(如DuckDB、MySQL),实现了从本地表操作到远程大数据查询的无缝衔接。
本期读书会带领同学们补齐了数据科学能力的重要一环——规范、稳健的数据准备能力。同时大家也认识到,熟练运用“管道+数据动词+连接”的tidyverse工作流,并具备处理多源数据与编码问题的工程素养,是保障分析结果可靠性、提升科研效率的先决条件。这不仅是一次技术能力的积累,更是研究规范性意识的建立。读书会持续引领学子,从扎实的数据工程实践出发,走向更具深度与影响力的科学发现。
编辑:李 旺
审核:薛新东
