软件木工:用OpenRefine清理数据

活动地点
房间:
协作学习课堂(LL123)

软件木工:用OpenRefine清理数据

使用OpenRefine清理数据

数据工作流的一部分是为分析准备数据。其中一些涉及数据清理,即识别并纠正数据中的错误或一致地进行格式化。这个步骤必须像分析一样小心和注意重现性。
OpenRefine(原名谷歌Refine)是一个强大的免费开源工具,用于处理混乱的数据:清理它并将其从一种格式转换为另一种格式。
这节课将教会您使用OpenRefine有效地清理和格式化数据,并自动跟踪您所做的任何更改。许多人评论说,这个工具为他们节省了数月的手工编辑工作。

  • 重要的是要知道你对你的数据做了什么。此外,期刊、授权机构和其他机构都需要您在处理数据时所采取的步骤的文件。使用OpenRefine,您可以捕获应用于原始数据的所有操作,并将它们作为补充材料与您的出版物共享。
  • 在OpenRefine中,所有动作都很容易被逆转。
  • 如果您保存您的工作,它将是一个新文件。OpenRefine总是使用您的数据的副本,而不修改您的原始数据集。
  • 数据清理步骤通常需要重复多个文件。OpenRefine会跟踪你所有的动作,并允许它们应用到不同的数据集。

OpenRefine下载

OpenRefine安装文档

教训:

需要注册

页脚的细节