1. 研究目的与意义
近些年来,随着人工智能、互联网、云计算、物联网等科技的飞速发展,各种科技产物已经逐渐融入了我们的生活,导致各种信息数据在网络上纷繁复杂,许多大型数据库被用于商务办公、政府管理、科研开发、教育学习等领域。于是,我们从信息匮乏这个问题跳脱到了另一个新的问题上——如何从大量数据中挖掘出有效数据,提高信息利用率,以此来避免资源浪费呢?这个问题十分具有研究意义和经济效益,我们需要在海量数据中提取对我们有用的部分,进而对数据进行一系列处理工作,发现数据背后隐藏的信息及意义,因此在信息爆炸的现代社会,数据挖掘是必不可少的一项工作。
如今21世纪,科技发展迅速,天气变化依然是我们每个人都会关注的,主要是为了预防疾病、加减衣物、决定带不带雨伞等。所以为了我们能够更加方便准确的获取天气情况,避免突然下雨或降温导致生病,我认为对天气进行分析、可视化及预测是十分有必要的。
2. 课题关键问题和重难点
本课题主要是编写一个网络爬虫脚本并对获取的数据进行分析与呈现,人为编写的程序要拥有准确、及时、高效率的效果不是一个简单的问题,想要实现课题需要面对的问题在于以下两个方面:
(1) 由于爬虫占总PV比例较高,浪费服务器资源,并且若是公司可免费查询的资源被批量抓走,公司就有极大可能会丧失竞争力,目前很多网站都会设置反爬虫机制,这就导致我们没那么容易获取准确的信息和数据,或者需要获取的数据是进行了加密处理的。
(2) 天气数据是复杂多样的,在数据进行清洗等操作后我们还需要进行可视化呈现,这就需要我们去筛选对用户来说最直观有效且易懂的呈现方式,最后还要用预测模型预测未来天气的变化,天气预测所需要的数据是大量且多样的,这就对我们之前获取的数据质量要求高。
3. 国内外研究现状(文献综述)
天气预测是指综合使用现代科学技术对某一地区未来一段时间的温度、湿度、风力、风向、天气状况等进行预测[1]。云计算环境下对气象大数据服务应用的系统研究与实现,减少了气象工作人员的工作量,方便客户端操作,提升了气象数据运行效率。近年来,随着新媒体行业的迅猛发展,互联网已经深度融合到每个人工作生活的方方面面,但还存在着信息更新不及时、没有针对性等问题。为了能够及时了解到新兴互联网平台的热点信息内容,利用爬虫技术研发内容分析预测技术是很有必要的,它能第一时间将天气信息采集、分析、推送给用户。在云计算环境下,有效运用数据挖掘等技术,云计算环境下气象数据分析及预测服务应用对于气象事业的快速发展将具有十分重要的意义。
爬虫技术广泛应用于搜索引擎、大数据、人工智能等多种网络应用场景,而 Python 语言在开发网络爬虫中具有明显的优势。Python 语言具有语法简单、可视化、第三方模块丰富以及适合应用于网络环境等优点。云爬虫数据分析平台能够灵活、迅速地抓取网页中大量非结构化的文本、图片、视频等资源信息,并对信息进行智能化分析研判。云爬虫数据分析平台具有爬虫管理、数据仓库、爬虫市场、数据存储、数据分析等功能[2]。爬虫技术经过了20多年的发展,目前技术已经多种多样且日趋成熟。为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统。国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。在国内近些年来说,大部分爬虫是用后台脚本类语言写的,其中python是用的最多最广的,并且诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。
数据可视化是许多科研领域的关键环节。当前有很多可视化工具,如 Origin、Sigmaplot、Matlib 等。这些工具有很多是商业化的软件,并不具备数据统计分析能力。Python 更接近人类的自然语言,易学,并且具有强大的数据爬取、预处理、统计分析、挖掘和可视化功能,在网络爬虫、大数据、云计算、人工智能等众多领域都有广泛应用[3]。Python具有强大的可视化能力,具有众多可视化库,如基础 2D 及 3D 可视化库matplotlib、seaborn和pandas等,交互信息可视化库Bokeh、Plotly和Pyecharts等,地图可视化库 folium、basemap、Geoplotlib、Mapbox、Pyecharts的Map和Geo等,社会网络可视化库 networkx,词云图可视化库wordcloud 和 pyecharts 的 WordCloud等[3]。
4. 研究方案
1. 系统功能结构
系统总体功能结构如图1所示
5. 工作计划
2022-2023-1学期:
第15-16周:完成选题,查阅相关中英文资料,进行相关技术的学习。
第17周:与导师沟通进行课题总体规划。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。