1. 研究目的与意义
随着近年来城市化、工业化进程的加快,大气温度持续升高,全球冰川融化加速,环境质量越发恶劣,大气污染越来越严重,往日不常见的雾霾已经成为了冬日的常客,空气质量指数即AQI作为大气环境监测的主要指标之一逐渐引起人们的重视。在信息化迅猛发展的今天,人们开始用现代科学技术预测空气质量,为治理大气污染提供前进的方向。对空气污染程度的预测,可以引起民众对空气质量的重视,了解空气质量的影响因素以及发展,唤醒大众对大气环境的保护意识,为决策者制定相关保护政策提供便利以及保护方向,也为企业的未来资源利用指引方向,有污染的资源必将走向落寞,环保资源才是未来主力。
基于时间序列分析模型在研究时间相关问题上的优势,2019年1月至2023年1月空气质量指数数据的稳定,整合移动平均自回归模型ARIMA模型对短期预测的准确性。因此我们有必要采用ARIMA模型对南京的空气质量变化进行预测,研究其空气质量变化趋势、影响因素以及防治对策。
2. 课题关键问题和重难点
本次课题的关键问题是使用python语言构建ARIMA模型,选用平均绝对百分比误差(MAPE)、均方根误差(RMSE)、决定系数(R2)作为模型评价指标以及影响因素分析。
本次课题有以下难点:
(1)利用时序图对空气质量指数进行平稳性检验,图检验法准确性不够可计算单位根进行比较,结果更加精准;
3. 国内外研究现状(文献综述)
近年来,由于电脑技术的飞速发展,人工智能、深度学习研究领域也取得了显著的成绩,很多领域已经开始向该研究领域迈进,将深度学习应用与空气质量研究便是这一技术的创新。在整合移动平均自回归模型ARIMA模型在数据预测上的应用,吴震亚基于ARIMA模型及灰色关联分析模型对疫情下差异化枢纽流量数据进行预测、关联分析,利用预测数据分析枢纽与各交通方式之间的关联度,总结虹桥枢纽客流中心的客流规律及特征,发现误差值越小,该模型的预测结果准确、预测精度较好,对虹桥枢纽客流中心未来的规划设计具有重要意义[5]。萨克塞纳和亚达夫基于2012年4月至2021年11月期间的月度实际历史货运量,采用ARIMA预测模型开发了无COVID-19的情景和测量货运量,采用基于情景的方法评估2019疫情对印度铁路货运量和铁路货运收入的影响。根据分析结果,发现由于疫情流行,铁路货运量和铁路货运报复损失了1.4908亿吨和167126亿卢比。未来的研究可以利用研究中使用的方法来估计铁路货运部门因大流行而造成的损失[3]。
王英子等人提出了一种基于自回归运动平均,ARIMA环境下基于自适应KF(卡尔曼滤波)的车速预测方法 ,解决了高速行驶车速预测问题。采用ARIMA理论对速度时间序列的预测进行建模。用ARIMA模型拟合原始时间序列后,代表原始时间序列的每个系数的贡献率是不同的,因此每个系数必须给予一定的权重。在少镜头数据预处理和交通状态划分的基础上,根据不同的交通状态,进行多源交通数据融合和区间速度预测。预测值更接近现实,提高了滤波器的收敛效果,降低了波动范围,有效克服了过程和测量误差的负面影响,更好地反映了实时效果。[2]乐博昕、刘效峰等人,构建ARIMA季节性模型,探讨新型冠状病毒肺炎疫情对结核病流行特征的影响,预测上海市宝山区结核病流行趋势。发现发病率模型ARIMA(2,0,0)、(0,1,1)12能较为准确地预测宝山区新冠肺炎疫情前后结核病的发病趋势,2019年是几月发病率与预测值变化趋势基本一致,且均在预测值95%可信区间内[1]。刘芳、葛瑞婷通过建立ARIMA模型,运用ARIMA_LM、ARIMA_D等方法来预测山东淄博冬季日最低温的准确性,利用平均绝对误差和准确率来衡量其有效性,准确率可达80%,对冬日农业生产及灾害避险提供便利。目前ARIMA模型空气质量预测已经取得了弥足的进步,对大气污染治理提供了清晰的方向[8]。
鉴于ARIMA模型对短期预测更为有效,运用多种模型进行预测比较更具准确性。赵宇通过建立济南空气质量指数AQI序列的ARIMA预测模型,包括:ARIMA模型、GARCH、ARIMA SVR组合模型,拟合济南空气质量指数的变化趋势。频数统计得到结论:济南AQI的首要污染物PM2.5、PM10之间具有同增同减的波动趋势,质量等级为良的天数所占的比例最大,空气质量达标天数的比例为64.1%,轻度污染占绝多数,空气质量较之前有所改善[6]。王友起构建ARIMA-SVM组合预测模型,将ARIMA模型的预测残差和花生价格影响因素作为SVM的训练集,对ARIMA预测值的残差进行预测,借助Matlab2019软件平台对花生价格数据序列构建ARIMA(1,1,8)预测模型,预测模型的预测值ARIMA(1,1,8)预测值与SVM残差预测值之和,发现组合模型的预测值结果更为准确。为薛艳茹以广州港集团G港务分公司为例,验证了线性模型ARIMA与非线性模型LSTM的适应性及优势。组合模型预测平均相对误差为0.096,远低于三次指数平滑法的0.1819。此外,选取了RMSE、MAE以及误差等级等对预测结果进行评估,验证了组合模型的优越性[7]。
4. 研究方案
1. 设计方案
本课题数据由中国空气质量在线监测分析平台(http://www.aqistudy.cn)下载,选取南京市的空气质量数据和可吸入颗粒物(PM2.5)、可吸入颗粒物(PM10)、一氧化碳(CO)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)六项污染物浓度从2019年1月1日到2023年1月31日共1493条数据作为研究对象,通过ARIMA模型来进行分析,选用平均绝对百分比误差(MAPE)、均方根误差(RMSE)、决定系数(R2)作为模型评价指标,结果显示模型整体预测效果精确、稳定,从理论和实践上证明了其可靠性与便利性。
2. 研制方案
技术路线:
可行性分析:
大学四年学习的专业课知识为课题提供了基础;Python版本及适配的应用库可以满足功能的编写;图书馆可查阅到大量相应的纸质书集和大量数字资源库上的文献 知网可以下载相关文献;有指导老师在理论研究,组织文章逻辑方面的指导;中国空气质量在线监测分析平台免费提供了南京市的空气质量数据,可以实现。以目前的笔记本配置,可行。个人已经开始学习各个软件的使用,在参阅论文学习后能够具备完成的能力,具有可行性。
3. 研究方案
首先进入中国空气质量在线监测分析平台(http://www.aqistudy.cn)南京历史数据,选取南京市的空气质量数据和可吸入颗粒物(PM2.5)、可吸入颗粒物(PM10)、一氧化碳(CO)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)六项污染物浓度从2019年1月1日到2023年1月31日共1493条数据作为研究对象。数据整合后,进行数据预处理,对数据进行基本的分析,将污染物浓度表现为折线图,观察其特征,若折线图出现空缺或异常,则存在空缺值或异常值,对缺失值和异常值进行处理,选择数据所在列的所在月的平均值代替该缺失值或异常值。
1 | 日期 | AQI | 质量等级 | PM2.5 | PM10 | CO | SO2 | NO2 | O3_8h |
2 | 2019/1/1 | 68 | 良 | 49 | 70 | 0.6 | 12 | 38 | 65 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
1493 | 2023/1/31 | 61 | 良 | 41 | 71 | 0.8 | 8 | 47 | 84 |
接着搭建环境,选择python语言,软件PyCharm Community Edition2022,添加matplotlib、pandas、numpy、statsmodels等第三方库。建模之前首先进行平稳性检验以及白噪声检验,测试是否符合建模条件,若为稳定非白噪声检验,则利用acf图和pacf图进行定阶,否则重新处理数据。定阶后,建立整合移动平均自回归模型ARIMA模型,检查残差,模型拟合,模型预测,计算平均绝对百分比误差(MAPE)、均方根误差(RMSE)、决定系数(R2)评价模型,将模型预测结果可视化,分析预测结果,给出建议。
5. 工作计划
2022-2023-1学期:
第15-16周:完成选题,查阅相关中英文资料,进行相关技术的学习;
第17-18周:进行课题总体规划;倒是下发毕业设计(论文)任务书,学生根据导师的要求进行外文翻译,列出开题报告大纲;
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。