在 https://www.openstreetmap.org 选择任意区域,然后使用python对数据加工(比如针对有效性、准确性、完整性、一致性和均匀性评估数据质量),并使用SQL将数据写入数据库。
为完成项目,我将做如下操作:
- 针对有效性、准确性、完整性、一致性和均匀性来评估数据的质量;
- 解析并且从.json、.xml、.csv、.html等常用文件格式中提取数据;
- 处理来自大量文件和大型文件,并且能够由电子表格程序进行清理的数据;
- 使用SQL存储、查询和聚合数据;
由于从不同数据源获取的数据是无法放在一起使用的,会造成很大的问题,本项目将会处理最复杂的数据整理情形,已熟练掌握获取数据、数据清理和合并数据等技术,方便进行下一步操作,例如进入后期的R探索性分析、或机器学习等过程。
该项目要做的事情如下:
- 选择地图区域,本项目是从https://www.openstreetmap.org 中选择的北京地区的数据,下载一个 XML OSM 数据集;
- 处理数据集,将数据集从XML格式转换为 CSV 格式,并将清理后的 .csv 文档导入到 SQL 数据集中;
- 探索数据库