模块二:数据获取与处理
(一)任务一:数据获取与清洗
1.子任务一:数据获取
根据 distribution.csv 文件统计单条数据缺失字段计数的最大值,将结果输出到控制台,输出格式如下:
- 单条数据缺失字段计数的最大值为***
将控制台输出截图并粘贴到结果文件中。
2.子任务二:HDFS 文件上传下载
本任务需要使用 Hadoop,HDFS 命令,已安装 Hadoop及需要配置前置环境,具体要求如下:
(1)在 master 节点的 hadoop 环境中,使用HDFS命令列出HDFS的文件和目录,将完整命令及结果截图粘贴到对 应答题报告中;
答:hdfs dfs -ls /
(2)使用 HDFS 命令创建一个名为bigdata目录,将完整命令及结果截图粘贴到对应答题报告中;
答:hdfs dfs -mkdir /bigdata
(3)使用 HDFS 命令将/opt/eurasia_mainland.csv 文件上传到 HDFS 文件系统的/bigdata 目录下,将完整命令及 结果截图粘贴到对应答题报告中;
答:hdfs dfs -put /opt/eurasia_mainland.csv /bigdata
(4)使用 HDFS 命令将/bigdata/eurasia_mainland.csv 文件下载到/root 目录下,将完整命令及结果截图粘贴到对应答题报告中;
答:hdfs dfs -get /bigdata/eurasia_mainland.csv /root/
(5)使用 HDFS 令查看/bigdata/eurasia_mainland.csv 文件的数据内容,将完整命令及结果截图粘贴到对应答题报告中。
答:hdfs dfs -cat /bigdata/eurasia_mainland.csv
(二)任务二:数据标注
本任务是使用 Python 对给定的天气数据进行标注,并进行持久化存储。使用 Python 完成此任务,天气数据集具有多个字段,各字段信息如下表所示
具体要求如下:
(1)使用 Python 读取“长春天气信息.xlsx”(2)在末尾新增一列数据为“当日是否解冻”,若当日最高温大于 0,并且风力小于等于2级,打标签为’是’;否则打标签为’否’。标记完成后保存到当前目录,文件命名为“annotation.xlsx”,并将数据截图粘贴到答题报告对应位置。
答:
(三)任务三:数据统计
1.子任务一:处理异常值数据
HDFS 文件系统中/bigdata/eurasia_mainland.csv 文件存储了欧亚大陆各个国家的灾害数据,数据中有以下内容:
编写 MapReduce 程序,实现以下功能:清除年份、国家区域为空的数 据 ,将清理后的数据保存到HDFS中/clean_data 目录下,若目录不存在,请自行创建,使用命令查看该文件的大小,将完整命令及结果截图粘贴到对应答题报告中。
答:
2.子任务二:数据统计
HDFS 文件系统中/bigdata/eurasia_mainland.csv 文件存储了欧亚大陆各个国家的灾害数据,数据中有以下内容:编写 MapReduce 程序,实现以下功能:统计每个国家不同年份基于灾害类型为气候灾害受损经济最高的国家,并在控制台输出打印出气候灾害受损经济最高的 10 个国家,将 输出结果截图粘贴到对应答题报告中。
答: