1. 研究目的与意义
现在市面上广为使用的OCR技术主要是用来将图片中的文字转换成可编辑的文字。OCR技术的处理对象是通过截取相关图片获得的图片资料,并对该图像资料进行分析提取文字信息。在现在OCR技术相当发达的时代背景下,该技术慢慢的向教育行业做出贡献。例如专业的数学公式识别软件MathOCR,能将文献中的各种公式识别并进行公式重构,但只能识别工工整整的印刷体,并不能进行相应的计算;作业帮、爱作业以及小猿搜题等App都是先进行拍照接着经过OCR处理,得到相应的式子然后进行相应的计算。这些产品各具特色,但为了获得更好的使用体验往往价格昂贵。国外虽然对OCR技术的研究起步较早,其中的一些大型的科技公司如Dell戴尔公司、Microsoft微软公司等,他们的技术人员早已深谙OCR技术原理,并在编写的软件中嵌入了OCR功能,但是国外对数学公式以及算式识别并进行计算的相关研究较少,不能满足需求。
事实上,如今的OCR技术发展十分成熟。由本来的OCR软件主体逐渐发展成便于广泛使用的OCR接口。人们不再需要了解的OCR技术的具体内容,而是直接通过服务提供商提供的API接口,由云端进行统一处理然后分发到各个服务端。在这方面获得成功的有“百度AI”、“Google识别”,但是为了盈利只能提供有限制的API调用次数,并且只能做到字符的精确识别而不能进行相应的计算。因此,在数学公式的分割计算方面,相关的OCR技术很少。
近年来,人工识别领域的机器视觉与机器学习发展很快,通过机器视觉与机器学习去分割字符、辨别字符。来自中国中山大学的硕士Roujack使用Python设计的mathAi项目使用机器视觉与机器学习的人工智能方法去研究,对160道测试题进行测试,该系统做对127道题目,正确率为79.38%,得出了良好的效果。但是仔细分析结果发现,该系统对分式等空间结构的计算准确率低,只有65%的正确率[1],不能对分式空间结构做出准确的判断,亟待解决。
2. 研究内容与预期目标
主要研究内容:
本课题为了实现对计算题的自动求解,通过机器视觉与机器学习的人工智能技术进行研究。研究机器视觉与机器学习在对计算题自动求解中的实现机制;通过对图片的预处理,字符的分割,字符的识别,字符的连接与计算揭示机器在处理算式上的逻辑思维,实现处理快,精度高,性能强等特点。主要研究内容如下:
1.运用机器视觉与机器学习的人工智能等关键技术实现对计算题的自动求解。
3. 研究方法与步骤
研究方法:
1.针对图像的预处理,采用OpenCV技术,对图像进行灰度化,二值化,方便后续研究。
2.针对字符的精确分割,采用投影法解决,通过垂直投影与水平投影,获得字符分割的始末位置。
4. 参考文献
[1]AI科技大本营.开源!mathAI手写拍照自动能解高数题,还不快试试?[EB/OL].https://cloud.tencent.com/developer/article/1430213,2019-05-22.
[2]郭艳平,丁万山.基于投影法定位与分割的美元号码识别系统[J].航空计算技术,2007,(5):45-48.
[3]田学东,徐丽娟,李娜.印刷体数学公式重构技术的研究[J].计算机应用与软件,2008,25(5):67-69.
5. 工作计划
(1)2022年02月15日~2022年03月01日:明确设计目的,查阅相关文献,完成英文文献的翻译,对课题进行细分,确立该完成该课题的步骤。
(2)2022年03月01日~2022年03月05日:完成开题报告。
(3)2022年03月05日~2022年04月01日:完成字符的精确分割,完成字符集的训练
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。