中国人民大学党委研究生工作部

前言：

好的选题何处寻？如何进行文献综述？如何实施研究？数据处理有什么要点？论文写作如何下手？为增进学术氛围，提高研究生学术兴趣，拓宽学术视野，让更多的学生懂研究，能研究，做好研究，写好学术论文，党委研究生工作部策划“研学有术”——学术科研经验分享系列推送，邀请在学术研究方面经验丰富的博士研究生撰稿，分享宝贵的学术论文写作经验，助力大家的科研学术之路。

本期“研学有术”邀请到统计学院经济统计系2020级博士研究生王祎帆为大家分享学术研究数据的获取、清洗、分析与解读。

撰稿人介绍：

王祎帆，统计学院经济统计系2020级博士研究生，师从杨翰方教授，研究方向为宏观经济与统计模型。相关研究曾发表于Energy Policy，Environmental and Ecological Statistics，《统计研究》《国际金融研究》《经济学家》《数量经济技术经济研究》等国内外核心期刊，并作为主要译者翻译《R数据可视化手册（第二版）》。主持中国人民大学研究生科学研究基金项目以及“交叉创新研究计划”项目。曾连续3年获得博士生学业一等奖学金、三好学生等荣誉奖励。

正文：

数据就像一个盒子，能够从里面获得什么取决于观察的角度、方式以及深度。数据有时候也可能是潘多拉魔盒，因为你永远不知道里面到底藏着什么，它会随着使用者的不同而产生不同的价值。作为科研工作者，我们首先要学会认识数据、理解数据，但更加重要的是合理地分析数据、客观地解读数据。

（一）数据的获取

在谈分析数据之前，我们首先要获取数据，这也是认识数据、理解数据的重要方式。获取数据的方式有两种，一种是亲自去进行田野调查，收集数据；一种是从现有数据库中下载。对于大多数人的研究，现有数据库里的数据已经十分充足了。由于数据库种类繁多，各个专业常用的数据库也有不同，这里我就介绍一个人大自己的数据库，也就是“中国人民大学中国调查与数据中心”提供的数据库，其本身可以满足很多社科研究的需求。但不管用什么数据，在获取数据的时候，一定要详细阅读数据的说明，包括但不限于数据的收集方式、数据含义、数据缺失情况等等。在确认数据符合自己研究的需求后再进行后续分析工作。

（二）数据的清洗

我们拿到的数据往往还需要再次加工，即进行“清洗”。数据的清洗工作本身其实不难，用R、Stata甚至Excel就可以完成，难点在于如何发现需要清洗的部分。研究中比较常见的部分有：

1. 数据缺失：需要对数据进行删减或者插值；

2. 数据异常：例如有的数据值明显不同于其他数据，且含义明显有误。我们首先需要用画图等方式去识别这些数据，然后进行后续的删减等操作；

3. 数据重复：有的时候数据集中会有重复的数据，并且理论上不应该重复，这也需要我们识别并删减；

4. 数据格式不一致：例如同样是日期变量，有的数据是“2023年1月1日”，有的则是“2023-1-1”，那么在数据分析之前需要将这些数据格式统一化。

其实在数据清洗过程中需要注意的地方还有很多，我这里介绍一个我个人比较常用的方式：画图。这里的画图没有那么复杂，往往一个折线图就能解决，但可以很清晰地看到数据的缺失情况、数据异常值以及很多其他问题。每一份数据都有着不同的特点，我们大可不必拿着一份“清洗清单”去一一核对，而是应该去“play with data”，去用各种描述统计（画图、求各种统计量）的方式来从各个角度观察数据，从而发现有待清洗的部分。

（三）数据的分析

清洗完数据后就需要对数据进行分析，一般人常用的分析方式可以分为两类：画图以及建模。画图的方式更加直观，而建模的方式可以剖析数据的内在情况。作为需要写论文的同学，对模型势必都有一定的了解，但往往在论文中都会“困于模型”。事实上，在数据分析的时候，画图或者说可视化应该是第一步，并且是必不可少的一步。这可以让作者和读者对数据的大概情况有所了解，一幅好的可视化作品有的时候甚至是可以直接得出结论的。大道至简，毕竟人的大脑对图像的接受程度是高于数字的。例如下面这个图展示了地球进化的过程。

我们熟知的建模实际上是对画图的一个补充，或者说进一步验证可视化的结果。建模之后得到的结果也可以用可视化呈现，效果会更好。这里推荐一个B站的系列视频“【TED】统计学：可视化数据”，大家看完这个后或许对可视化会有更深入的理解。对于可视化感兴趣的同学，网上有很多可视化的网站，这里推荐Echarts，在R语言里也有相应的接口，可以画出很好看的交互式图形。

（四）数据的解读

数据分析之后就需要进行数据的解读，有人认为这一步最简单，因为这似乎只需要把数据分析的结果讲出来，例如A对B有显著正向的影响。但这一步实际上是最难的，一方面难在如何合理解读，为什么会有正向影响？会有什么影响机制？这些是论文区别于大作业的核心要素。我们需要在解读的时候对其背后的逻辑进行剖析，并适当地添加更多的可视化/模型结果。另一方面难在客观性，很多时候我们对数据结果有先入为主的观念，或者说“假设”，但往往有价值的发现源于数据分析结果与假设不符的地方，这时就需要我们客观地解读数据，从差异中寻找真理。

（五）潘多拉魔盒

最后，为什么说数据有时候是潘多拉魔盒呢？因为同样一份数据，在经过相同的数据分析过程后，可以通过不同的数据展现方式得到不同的结论。例如左图可以看到Revenue有明显上升，而右图也可以说Revenue比较平稳，然而两张图实际上只是更换了一下纵坐标的尺度。

这仅是潘多拉魔盒的冰山一角，数据的力量是无穷的，也是很容易迷惑人的，看似客观的数据可以融入很多主观的因素。数据可以用来帮助人类进步，也同样可以用来威胁人类，其价值取决于使用者的目的。我们应该了解其“魔力”，不被人所害，也更不要去危害他人。合理分析、客观解读，正确地使用数据，是我们每一个数据分析者的应有之义。

后记：对科研的感悟思考

（一）承认自己的平凡，努力奋斗

相信大部分选择读博士的同学，在最初都会对自己的学术水平或者智力水平有一定程度上的信心。但往往一开始对自己最有信心的那批人反而会面临延毕的风险，因为这些“信心”会刺激他们去挑战看似很近但实则遥不可及的高峰。事实上，在我身边，甚至包括我常听讲座的那些“大佬”们，真正天才的少之又少，绝大多数还是普通人。我认为真正区分“大佬”和其他科研工作者的关键点在于努力。当然我们不能忽略运气以及选择的作用，但也只有努力是我们可以控制的。

（二）走出工位，走出图书馆

相比本科，研究生们在做科研时会长时间待在工位/图书馆中，但我们真正应该做的其实是走出来。一方面是要强健体魄，毕竟身体是革命的本钱；另一方面是要和各种各样的人交流，和同学、老师、业界的前辈们等等，这样可以从多角度加深对研究问题的理解，从而得到更合理、更具实际意义的解决方案。亦或者仅仅是找个人说说话，聊聊天，舒解一下科研压力，这对于情绪管理是相当有帮助的。

（三）做有趣的研究

研究可以分为两种，一种是有意义，另一种是有趣。这两种并不互斥，但如果非要选一个，我认为应该选有趣的研究。因为科研本身是枯燥的，需要不断的试错，此时兴趣就成为了坚持下去的最大动力，并且有趣的研究做扎实了也是可以发到很好的期刊上的。另外，即使当前看起来意义不大的研究，在未来的某个时间可能就是热点，甚至于是推动人类进步的重要研究之一。

上一篇：人大研究生的青春模样！下一篇：时代新人·说丨张健培：将心比心，在基层田野讲好中国故事

研学有术｜关于学术研究数据那些事儿

新闻动态

120余所高校齐聚人大！

中国人民大学2025级研究生新生入学教育系列活动圆满开展

难忘下党，实践基地+1！

“新建”新基地，校地合作再+1