使用OpenRefine清理数据
数据工作流的一部分是为分析准备数据。其中一些涉及数据清理,即识别并纠正数据中的错误或一致地进行格式化。这个步骤必须像分析一样小心和注意重现性。
OpenRefine(原名谷歌Refine)是一个强大的免费开源工具,用于处理混乱的数据:清理它并将其从一种格式转换为另一种格式。
这节课将教会您使用OpenRefine有效地清理和格式化数据,并自动跟踪您所做的任何更改。许多人评论说,这个工具为他们节省了数月的手工编辑工作。
- 重要的是要知道你对你的数据做了什么。此外,期刊、授权机构和其他机构都需要您在处理数据时所采取的步骤的文件。使用OpenRefine,您可以捕获应用于原始数据的所有操作,并将它们作为补充材料与您的出版物共享。
- 在OpenRefine中,所有动作都很容易被逆转。
- 如果您保存您的工作,它将是一个新文件。OpenRefine总是使用您的数据的副本,而不修改您的原始数据集。
- 数据清理步骤通常需要重复多个文件。OpenRefine会跟踪你所有的动作,并允许它们应用到不同的数据集。
OpenRefine下载
OpenRefine安装文档
教训:
需要注册