1. 研究目的与意义
数据表明,仅在 2015 年,美国就发生了超过 450,000 起高速变道和合并事故,而随着无人驾驶技术的迅猛发展,在公共道路上部署自动驾驶汽车有望提高效率和安全性。它可以了解人类驾驶员的意图并适应他们的驾驶风格。自动驾驶汽车还可以以安全和可预测的方式运行,而无需明确的通信操控。目前,自动驾驶汽车缺乏对人类行为的理解,在交通流中容易造成瓶颈,尤其在高速路口。这种保守行为不仅使自动驾驶汽车容易受到攻击性人类驾驶员的攻击,,而且还可能导致意想不到的反应,使他人感到困惑和危险。在美国加州自动驾驶汽车交通事故的分析中, 57% 的车祸是自动驾驶汽车被人类司机追尾所致 ,其中许多撞车事故的发生是因为自动驾驶汽车的行为方式出乎人类司机预料。为了使自动驾驶汽车与人类驾驶员集成到道路上,它们必须了解人类驾驶员的意图,并以可预测和可解释的方式做出反应。
本文拟将社会心理学理论整合到自动驾驶汽车决策中,以此量化和预测汽车驾驶员的社会行为,并使其以符合社会规则的方式驾驶。拟提出了一个系统框架,将社会心理学工具集成到自动驾驶汽车的控制器设计中。系统的关键在于利用社会价值取向(SVO),量化代理驾驶者的自私或利他程度,以此期望能够更好地预测驾驶员的行为及车辆行驶轨迹。
2. 课题关键问题和重难点
基于SVO理论的多车轨迹自动控制系统通过MPC建模的方式实现符合社会要求的驾驶算法:首先预测高速公路合并中的人类驾驶员行为,然后模拟自动合并和合并场景。本系统根据NGSIM数据集来建立评估人类驾驶员的预测模型,并检查高速公路入口匝道合并为拥堵。接着引入数据集中的总共 92 个唯一合并约束条件,结合 SVO 理论参数建立人类驾驶员轨迹预测系统。对于AV模拟,复制了多种高速场景,并且还呈现了一个不受保护的左右合并。模拟系统将演示如何使用 SVO 首选项帮助 AV 选择安全操作,并添加细微的行为和与多个参数的合并。
本课题的关键:
3. 国内外研究现状(文献综述)
与人类驾驶员互动是自动驾驶的一大挑战。为了在现实世界中运行,自动驾驶汽车(AV)需要应对需要复杂观察和交互的情况,例如高速公路合并和不受保护的左合并,即使对人类驾驶员来说也是挑战。例如,仅在 2015 年,美国就发生了超过 450,000 起变道/合并事故和 140 万起右转/左转事故[1] 。目前,自动驾驶汽车缺乏对人类行为的理解,因此需要保守的行为才能安全运行。保守驾驶会在交通流量中造成瓶颈,尤其是在十字路口。例如,被认为是自动驾驶领导者的Waymo仍然在左转和以可预测的方式行事方面苦苦挣扎[2]。这种保守行为不仅使自动驾驶汽车容易受到攻击性人类驾驶员的攻击,并抑制意图的可解释性,而且还可能导致意想不到的反应,使他人感到困惑和危险。在最近对加州自动驾驶汽车交通事故的分析中,在 57% 的车祸中,自动驾驶汽车被人类司机追尾 [3],其中许多撞车事故的发生是因为自动驾驶汽车的行为方式出乎人类司机没有预料到。为了使自动驾驶汽车与人类驾驶员集成到道路上,它们必须了解人类驾驶员的意图,并以可预测和可解释的方式做出反应。
虽然在空旷的高速道路上规划左转对于自动驾驶汽车来说可能微不足道,但在交通繁忙的情况下仍然很困难。对于人类驾驶员来说,这些不受保护的左转通常发生在迎面而来的驾驶员减速让行时,这是对另一名驾驶员安全的隐含信号。自动驾驶汽车还必须认识到这些自私或合作的社会线索,否则会影响交通网络的整体流量,甚至交通参与者的安全。自动驾驶汽车依赖于明确的通信、状态机或关于驾驶交互的几何推理[4],忽略了社交线索和驾驶员个性。这些方法无法处理复杂的交互,导致保守行为并将自主解决方案限制为简单的道路交互。此外,人类无法直接量化他们的行为和决策并将其传达给自主代理。本系统使用博弈论来捕捉智能体之间的动态交互,在给定所有其他智能体决策的情况下考虑智能体的“最佳响应”。其他使用博弈论公式的方法将代理建模为自私的同质决策[5]。相反,本系统通过结合社交线索对其他驾驶员个性和驾驶风格的估计来扩展自动驾驶汽车推理的能力。这使本系统能够处理依赖于交互的更复杂的导航场景,例如十字路口中的多辆车。本系统提出了一个数学公式,将控制理论方法与心理学文献,行为博弈论和机器学习中的模型和指标相结合。
本系统提出了一个测量、量化并预测人类行为的系统,以更好地为驾驶自治系统提供信息。博弈论公式将驾驶建模为一系列社会困境,以表示驱动因素之间的动态互动。本系统制定最佳响应博弈的直接解决方案,允许快速的在线预测和规划,同时整合环境和规划约束以确保安全。游戏的奖励功能是动态的,取决于车辆的状态和环境。由于本系统从人类驾驶数据中学习奖励函数,本系统希望本系统的方法能够转化为其他交通场景,以及广义上的人机交互,在那里本系统可以得出基于相关数据训练的类似预测。使用社会价值取向(SVO),心理学的常见指标,本系统量化了人类的社会偏好及其相应的合作水平。SVO 衡量个人如何权衡他们的奖励与其他人的奖励,这转化为利他主义、亲社会、利己主义或竞争偏好。本系统根据观察到的运动估计人类驾驶员的 SVO,并根据场景设置 AV 的 SVO。本文的主要贡献如下:将驾驶建模为动态博弈并计算其纳什均衡;从预期的效用最大化预测人类行为;将 SVO 偏好整合到效用最大化框架中;根据观察到的驾驶轨迹在线估计 SVO;模拟新兴的符合社会标准的自动驾驶行为;以及对下一代仿真 (NGSIM)[6]驾驶数据(美国 101号公路的驾驶数据集)的验证。
4. 研究方案
1. 系统功能结构
系统总体功能结构如图1所示
图1 多车轨迹自动控制系统功能结构
1)社会价值信息管理
最佳响应博弈方案管理:基于博弈论公式将驾驶建模为一系列社会困境,以表示驱动因素之间的动态互动。本系统制定最佳响应博弈的直接解决方案,允许快速的在线预测和规划,同时整合环境和规划约束以确保安全。
SVO测算管理:该模块根据观察到的驾驶轨迹在线估计 SVO;
驾驶轨迹管理:将车辆建模保存为保持车道的动态障碍物,之后将模型离散化后的状态空间表达,记录其最终状态矩阵。
车辆代价管理:随着采样时刻的前进反复地在线进行车辆代价计算,反复对每一采样时刻的偏差值进行优化计算,将可及时地校正控制过程中出现的各种复杂情况。
预测控制管理:将预测状态估计的部分称为预测区间,存储一次优化后预测未来输出的时间步的个数。将控制估计的部分称为控制区间,存储得到最优输入之后,控制区间的第一位控制输入。
2)MPC驾驶模型管理
运动学模型管理:个人驾驶建模为一种非合作的动态游戏,其中驾驶代理随着时间的推移最大化其累积奖励或代价。在每个时间点,驾驶代理都会收到奖励,代价由延迟、舒适度、汽车之间的距离、达到目标的进度以及驾驶员的其他优先级等因素定义。
车辆协调管理:该功能协调驾驶车辆们的行动,以实现安全有效的联合机动
合并行为管理:该功能是预测高速公路合并中的人类驾驶员行为并模拟自动合并。
2.核心功能流程图
图2SVO测算管理流程图
图3 驾驶轨迹管理功能流程图
图4 最佳响应博弈功能流程图
3.研究方案
基于svo理论的多车轨迹自动控制系统后台的设计与实现主要分为四个部分
1) 多车高速行驶模型的设计。利用NGSIM数据集,设计好高速模型,动态生成车辆运动学模型。
2) 数据库表设计。
数据库E-R图如图5所示:
图5 E-R图
各实体类描述如下:
总高速记录表(时间,主键自动递增,道路编号,车辆编号,车辆进入时间,车辆离开时间)
车辆信息表(车编号ID,主键自动递增,车辆SVO,车辆轴距,车初始横坐标,车初始纵坐标,车辆初始航向角,车辆类型)
SVO信息表(SVO类型,车编号ID,SVO属性,静态最佳值,估计值,时间)
车辆位置表(时间 ,车辆编号,车辆轴距 ,车辆速度 ,车辆加速度,车辆横坐标 ,车辆纵坐标,车辆航向角,车辆状态)
车辆轨迹记录表(车辆编号,时间,车辆横坐标,车辆纵坐标,轨迹点切线方向,轨迹点曲率)
车辆目标轨迹表(车辆编号,时间,目标点横坐标,目标点纵坐标)
高速拥堵信息表(时间,道路编号,道路横坐标,道路纵坐标,道路宽度,最短车间距)
车辆合并表(车编号ID,时间,SVO属性)
3) SVO算法应用设计。在SVO算法的基础上依据实际情况对算法进行设计与改进,拟使用最大化优化问题表述为多智能体动态博弈,然后推导纳什均衡以求解符合社会的控制策略进行改良,算法流程如图6所示。
4) MPC建模结果展示。可视化高速平面图,效果图如图7所示。
|
|
图6 SVO算法流程 | 图7MPC建模结果 |
5. 工作计划
2022-2023-1学期:
第15-16周:完成选题,查阅相关中英文资料。
第17周:与导师沟通进行课题总体规划。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。