1. 研究目的与意义
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。
什么是爬虫?爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取。
爬虫是采集互联网数据的主要技术手段之一,从开发互联网网站爬取数据具有很有应用需求。
2. 课题关键问题和重难点
网络爬虫要做的就是实现浏览器的功能。
通过指定url,直接返回给用户所需要的数据,而不需要一步步人工去操纵浏览器获取.抓取这一步,你要明确要得到的内容是什么?是HTML源码,还是Json格式的字符串等。
而我们在进行爬虫时,容易遇到以下几点难点:1.网站采取反爬策略网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略根据这一特性,我们用代码模拟实现浏览器访问2.网站模板定期变动标签变动,比如
3. 国内外研究现状(文献综述)
对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。
网络上比较著名的开源爬虫包括nucth,Larbin,Heritrix。
网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。
4. 研究方案
网络爬虫应用宽度搜索技术,对url进行分析、去重。
网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。
网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来新闻等信息。
5. 工作计划
1~2周:查阅资料完成任务书 ,完成开题报告。
3~8周:开题报告会,学习网络爬虫基本机制,学习使用数据库,学习Python,搭建Scrapy环境,学习Laravel与Bootstrap框架。
9~12周:查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成基础代码编写。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。