1、 AI 大模型车载软件平台 白皮书 2025 年 12 月 目 录 第 1 章 编制背景 1 1.1 人工智能时代,AI 重新定义智能汽车发展技术路线 1 1.2 主要国家地区出台措施,引导 AI 及智能网联发展 1 1.3 行业需要构建 AI 大模型车载软件平台架构共识 2 第 2 章 AI 大模型现状、趋势及场景应用 3 2.1 基于深度学习的 AI 技术现状
2、及发展趋势 3 2.2 AI 技术在汽车行业的场景演进及需求 4 第 3 章 AI 大模型车载软件平台架构概述 6 3.1 平台概述 6 3.2 平台架构 6 3.3 架构特征 8 第 4 章 异构跨芯片计算硬件层 9 4.1 AI 推理芯片 9 4.2 AI 大模型安全处理单元 12 第 5 章 AI 大模型车载软件平台关键技术 14 5.1 驱动及内核层 14 5.2 框架层 18 I 5.3 基础模型层 24 5.4 服务层 25 第
3、6 章 基于 AI 的车云协同计算 29 6.1 车端数据预处理与上传 29 6.2 云端模型训练 30 6.3 车端模型更新 31 6.4 车云协同 31 6.5 云端计算框架 32 第 7 章 AI 大模型安全体系 34 7.1 车载 AI 大模型安全风险分类 34 7.2 主要技术应对措施 35 第 8 章 车云协同下的 AI 应用场景 37 8.1 智能驾驶应用 37 8.2 智能座舱应用 38 8.3 双智城市及其他应用 39 第 9 章 发展建议 4
4、0 9.1 鼓励技术突破,实现 AI 与智能汽车加速融合 40 9.2 凝聚行业共识,推动 AI 软件平台架构有序迭代 40 II 9.3 健全标准法规,提高 AI 汽车产业链协作效率 41 9.4 加强监督认证,确保 AI 技术应用的安全可信 41 9.5 强化行业协作,打造开放共建的 AI 汽车生态 41 附录 1 缩略语表 43 附录 2 主要参与单位及编写人员 46 III 第 1 章 编制背景 1.1 人工智能时代,AI 重新定义智能汽车发展技术路线 近年来,人工智能(Art
5、ificial Intelligence,以下简称:AI) 领域伴随着 ChatGPT 、GenAI 、AGI 等不断演进,实现了快速突 破,人工智能大模型(以下简称:AI 大模型或大模型)逐渐应 用到汽车领域。例如大语言模型(Large Language Model, LLM) 及其他先进的 GenAI 模型引入,提升了座舱内的交互体验。智 能驾驶一段式或两段式的端到端架构、VLM 等正引领行业前沿 趋势。基于 AI 大模型的地面及环境感知与规划能力,底盘控制 系统实现了“预瞄”、“魔毯”等高阶功能。AI 正逐步成为智能 网联汽车的核心基础技术,基于 AI 的数据
6、驱动已经成为开发范 式,推动汽车从传统交通工具向智能终端转变。 1.2 主要国家地区出台措施,引导 AI 及智能网联发展 智能网联汽车已成为全球汽车产业发展的战略方向,人工 智能技术受到主要国家或组织的高度重视。联合国世界车辆法 规协调论坛(WP29) 自动驾驶车辆工作组(GRVA)协调全球 利益相关者,发布《自动车道保持系统(ALKS)》、《信息安全 与信息安全管理系统》、《软件升级与软件升级管理系统》三项 法规,推动自动驾驶、网联功能相关法规制定工作。 欧盟发布《人工智能大陆行动计划》(AI Continent Action Plan),计划通过扩大AI 计算基础设施、提升高质量
7、数据获取、 加速战略行业 AI 应用(汽车、制造业等)。美国强调技术创新, 1 营造创新发展环境,连续更新发布“自动驾驶汽车规划” (AV1.0~AV4.0)、《智能交通战略》等,加快 RoboTaxi、物流配 送等应用步伐。特斯拉在美国启动推出 FSD v12,将智能驾驶算 法升级为单个端到端神经网络,减少传统分模块架构中的延迟 和误差,实现输入图像、输出转向/刹车/加速等控制信号能力。 日本建立相对完善的自动驾驶法律法规体系,完成首个 L3 级智 能网联汽车型式认证,实现 L3 级智能网联汽车商业应用。 中国加速政策法规制修订,加强智能网联汽车技术研发、 应
8、用和安全的顶层规划。国家发改委等十一部委联合发布《智 能网联汽车创新发展战略》,提出了建设中国标准智能网联汽车 和实现汽车强国的战略目标。工信部印发《关于开展智能网联 汽车准入和上路通行试点工作的通知》,推动智能网联汽车的准 入管理、测试示范,加速技术迭代与产业化发展。有关部门先 后发布《中华人民共和国网络安全法》、《中华人民共和国数据 安全法》、《中华人民共和国个人信息保护法》、《数据出境安全 评估办法》等法律规定, 规范了汽车的数据应用及安全。 1.3 行业需要构建 AI 大模型车载软件平台架构共识 在智能网联汽车加速落地进程中,行业面临“统一软件平 台架构的缺失”等挑战。市场上存在着
9、多种车载软件平台,其 技术架构、接口、数据等各不相同,增加了开发难度和成本, 大幅阻碍了 AI 技术在汽车领域的应用进程。因此,开放可扩展 的车载软件平台架构及共识,成为推动 AI 汽车发展的关键所在。 2 第 2 章 AI 大模型现状、趋势及场景应用 2.1 基于深度学习的AI 技术现状及发展趋势 人工智能概念最早可追溯至 20 世纪。随着计算能力的飞跃 和数据规模的持续增长,神经网络技术发展突飞猛进, 当前深 度学习已成为人工智能演进的核心驱动力。 2012 年,杰弗 里 · 辛顿及其团队使用卷积神经网络,将图像识别的错误率大 幅降低。此后十余年间,深度学习
10、被广泛应用于各个领域。在 生命科学领域,DeepMind 团队提出 AlphaFold,预测了 2 亿余 种蛋白质结构,其精度可与实验方法媲美,成功解决了困扰生 物学界 50 年的蛋白质结构预测难题。鉴于深度学习在蛋白质科 学的革命性贡献,AlphaFold 核心开发者获得 2024 年诺贝尔化 学奖,神经网络奠基人由于“通过人工神经网络实现机器学习 的基础性发现”,获得 2024 年诺贝尔物理学奖。 近年来 AI 大模型兴起,在自然语言处理、多模态理解和自 监督学习方面取得突破。大模型一般是指参数量过亿、使用海 量数据训练的大型神经网络模型。与现有的小模型相比,大模 型具有智能涌现、摆脱
11、标签依赖和跨领域泛化的能力。OpenAI 发布的 GPT 是基于 Transformer 架构的生成式预训练模型,2018 年初代模型为 1.17 亿参数,2020 年的GPT-3 已达 1750 亿参数。 参数规模的持续扩张推动模型性能显著提升。2022 年,通用对 话模型 ChatGPT 在上下文理解、推理逻辑和语义表达等维度实 现突破性进展,掀起了 AI 大模型研究的热潮。国内典型代表如 3 百度的文心一言、阿里的通义千问、智谱清言和深度求索等。 2025 年深度求索发布 DeepSeek-R1,该模型在后训练阶段大规 模使用了强化学习技术,在仅有极少标注数据的情况下
12、极大 提升了模型推理能力,并涌现出了反思的能力。 2.2 AI 技术在汽车行业的场景演进及需求 人工智能技术正在重塑智能网联汽车的发展路径,特别是 智能驾驶和智能座舱领域,不仅显著提升了算法性能和计算效 率,还能够从容应对更复杂的应用场景。 在算法和计算方面,模仿学习方法通过监督学习训练神经 网络模型,模拟人类驾驶员在特定道路环境的控制动作。模仿 学习可以根据原始感知信息直接输出控制动作,但是过于依赖 训练数据的质量和多样性, 可能复刻人类错误的驾驶行为。 DAgger 等方法在算法训练过程引入人类驾驶员进行修正,旨在 缓解数据分布漂移问题,并防止驾驶策略学习到人类错误经验。 为进
13、一步应对上述挑战,强化学习通过与环境进行交互,反复 优化策略的驾驶性能,掌握应对复杂动态环境的决策能力,具 有超越人类驾驶员的潜力。 智能驾驶是 AI 技术在汽车领域最具代表性的应用场景。现 阶段智能驾驶正朝着端到端范式、视觉-语言模型乃至视觉-语 言-动作模型方向发展。其中,多模态感知模型化和预测-决策- 规划模型化的两段式架构是当前量产主流方案; 一段式 One- Model 端到端方案是未来趋势, 已进入量产窗口期。 4 智能座舱是另一个重要场景,AI 大模型技术赋予其更强的 生成能力,包括但不限于语音识别、自然语言处理、情感分析 等功能, 既增强用户体验,还
14、促进个性化发展。例如通过 AI 大 模型技术,智能座舱可以理解用户指令,做出相应反应,提供 更加直观、便捷的交互体验。借助云端强大计算能力和本地设 备实时响应,AI 大模型能够在保障用户隐私的前提下,提供定 制化的娱乐、导航、安全提醒等服务,提升智能驾乘体验。 综上所述,随着人工智能技术在汽车行业的持续应用渗透, AI 大模型技术创新将引领新一轮的产业升级。未来随着法律法 规的不断完善和技术标准的逐步建立,AI 大模型将在更多领域 扩展其影响力,构建出更加智能、更加安全、更加高效的智能 网联生态系统。 5 第 3 章 AI 大模型车载软件平台架构概述 3.1
15、 平台概述 AI 大模型车载软件平台是在《车载智能计算基础平台参考 架构 1.0》、《车载智能计算基础平台参考架构 2.0》的基础上, 对车用操作系统的扩展和 AI 大模型支持增强。平台采用异构跨 芯片计算架构, 旨在为行业提供标准化的大模型集成框架,支 持模型部署与优化,实现 AI 大模型进行高效推理与持续学习, 推动构建面向智能网联的大模型高效开发与应用生态体系。 AI 大模型车载软件平台参考架构采用分层设计,实现软硬 分层解耦,各分层内的融合优化;支持异构智算芯片的大模型 混合并行推理;提供高实时高安全的车端异构芯片计算框架、 车/云/边共享计算框架、AI 大模型计算部署编排框架
16、兼容人 工智能基础大模型和专用大模型;支持智能化工具服务和基础 服务,满足大模型安全体系要求;集成车云协同的跨平台人工 智能统一应用接口。 3.2 平台架构 AI 大模型车载软件平台参考架构包含系统软件层、功能软 件层、车云协同计算层和安全体系(如图 1 所示)。平台向下通 过多模态感知融合接口,实现与各类传感器阵列、通信及控制 系统深度集成; 向上提供面向智能驾驶、智能座舱、智能底盘 和大模型共性功能等高实时高安全计算平台,实现毫秒级任务 响应,为整车全域 AI 化提供核心支撑。 6 图 1 AI 大模型车载软件平台 异构跨芯片计算硬件负责感知各类部署硬件的计
17、算特性, 对 AI 大模型进行自适应切分,支持异构并行化推理,关注车载 AI 大模型芯片或硬件平台的硬件架构和智能计算性能。 AI 大模型车载软件平台采用纵向分层(包含系统软件层和 功能软件层)、横向分区式架构,支撑 AI 大模型智能车载软件 的功能实现和安全可靠运行。 系统软件层纵向分为驱动及内核层、框架层。通过标准的 内核接口(包括大模型智能计算内核、大模型控制单元内核和 大模型安全处理内核等) 向上层提供服务,实现与上层软件的 解耦;通过跨内核驱动框架(包括驱动架构、硬件抽象和核心 接口)实现与硬件平台的解耦,与操作系统内核的解耦。框架 层提供 AI 大模型下的计算新框架,如跨芯片
18、计算、软硬优化、 大模型计算部署等框架。 7 功能软件层纵向分为基础模型和服务层。基础模型层借助 标准的应用软件接口,为上层应用软件的开发与集成提供有力 支持,实现大模型车载软件平台与应用软件解耦。服务层根据 各类智能驾驶、智能座舱及车载智能功能的共性及特性需求, 定义并实现底层的基础服务组件和专用的智能化工具服务。 车云协同计算层提供 AI 大模型下,车载计算与云(或边) 协同计算框架,如支持智能驾驶的快(车端)慢(云端) 的车 云一体、智能座舱大模型的模型端云协同计算等。 大模型安全体系聚焦模型本体安全、数据资产安全、信息 内容安全、运行时安全、供应链安全,采用数据
19、全生命周期加 密与脱敏强化、对抗性攻击主动防御等技术保障安全。 3.3 架构特征 (1)分层解耦。AI 大模型车载软件平台采用分层设计理 念,通过“驱动及内核层-框架层-模型层-服务层-应用层”的解 耦体系,实现全栈模块化开发。 (2)跨域共用。 区别于传统车载软件平台“烟囱式”架构, 该平台通过 AI 大模型的跨模态融合能力,打通动力域、底盘域、 座舱域与智驾域等全域的数据壁垒,实现跨域 AI 大模型平台共 用,支撑智能汽车全域 AI 的发展趋势。 (3)安全可靠。该平台满足车载软件平台对高实时、高可 靠和高安全的要求,构建包含全栈安全产品及全面安全体系, 将 AI 大模型功能
20、安全、信息安全和数据安全等融入框架设计中。 8 第 4 章 异构跨芯片计算硬件层 4.1 AI 推理芯片 AI 大模型相比于传统神经网络模型,参数量和计算量都有 数量级的提升,对车载芯片设计提出了挑战。同时芯片工艺制 程演进放缓,单纯采用先进工艺难以满足 AI 大模型的车载应用 需求,需要从底层微架构到顶层系统设计等多种技术。本章节 从核心内部架构、芯片级架构以及系统级架构三个层次(如图 2 所示),介绍 AI 推理芯片的若干关键技术、及对应软件支撑。 图 2 AI 大模型车载芯片的三个技术层次 4.1.1 核心内部架构 神经网络处理器设计关键,是如
21、何在有限面积、功耗、带 宽限制下提升处理器核心的性能,其依赖的是软硬件协同设计。 模型压缩的核心是在可接受的模型性能损失范围内,降低模型 的表示精度或参数量,从而达到加速模型处理的目的。采用模 型压缩技术,通过特定的模型压缩方式,结合与之适配的硬件 架构,可以大幅提升核心性能。 9 (1)混合精度量化技术 模型量化技术是主流的模型压缩技术之一, 目前已经广泛 应用于各种神经网络处理器中。神经网络算法在训练过程中通 常采用单精度浮点数进行前向推理计算和反向传播优化。模型 部署时,更低精度的浮点数或整数进行计算对模型的计算结果 影响不大。因此硬件可以采用更小规模的缓存
22、和计算单元,从 而在相同的功耗和面积限制下实现更高的性能和能效。如 Deepseek 在其最新的模型中部分采用了该精度进行模型训练和 推理;对于成本、功耗受限的车载平台,定制化的 AI 处理器应 直接支持上述精度以降低芯片的面积和功耗。 采用更低位宽的数值表示必然也会带来更大的量化误差, 通过引入分组量化的概念可以缓解这个问题。最基本的量化方 法中,一层的权重、输入和输出分别被赋予一个统一的量化系 数。先进的量化技术针对不同的模型和数据类型,采用不同的 量化分组方式,定制化架构则可以直接利用量化后的数据计算, 充分发挥量化带来的优势。 (2)模型稀疏化支持 传统的模型剪枝方法主要
23、关注在减少模型参数或计算中间 层的激活值,但是在峰值性能降低的同时,也难以达到和剪枝 比例对等的加速比。结构化剪枝则解决了上述问题, 比如以块 为单位进行剪枝, 以及在固定大小的数据块内采用固定比例的 方式进行剪枝等。考虑到 AI 大模型对内存的高要求,支持细粒 10 度的结构化剪枝预计是未来车载芯片的重要特性。 对于语言类模型,其中的 Attention 计算随着输入token 的长 度成平方复杂度增长,可以通过在算法层面引入静态或动态注 意力机制来降低计算复杂度。其中,动态注意力机制则需要底 层硬件支持排序或 topk 等特殊算子,支持 AI 大模型的车载芯片 需要在
24、底层架构上支持动态稀疏特性。 4.1.2 芯片级架构 随着 AI 大模型引入,以低延时为核心目标的高性能单核心 的设计理念不再适用,分布式的多核心架构由此而生。AI 算法 的多核心并行计算包括 Batch 并行、流水线并行、层内并行等, 在不同的应用场景下需要不同的并行模式。高效的芯片缓存组 织结构和片上网络结构是车载芯片支持 AI 大模型的重要技术演 进方向。 4.1.3 系统级架构 大语言模型以及生成式模型的参数量、单次推理的计算量, 相对于传统模型扩大了 1-2 个数量级,对 AI 推理芯片的算力, 以及芯片整体规格、良品率、成本以及性能有着较高要求。在 面向 AI
25、大模型的车载芯片系统级架构设计中,需要引入多芯粒 等一系列新技术,在实现相同规格的芯片时提高良品率。对于 成本敏感的车载芯片而言,多芯粒技术是支持 AI 大模型的关键。 因此在面向 AI 大模型的车载芯片设计中, 需要引入一系列新技 术。随着单一芯粒的面积扩大,相同尺寸的晶圆上实际可用的 11 面积缩减, 同时芯粒的良品率也会急剧下降。而解决大规模芯 片制造的一项关键技术就是多芯粒技术。多芯粒技术通过芯粒 与芯粒之间短距离的高速互联,使得一颗芯片的封装内可以同 时集成多个芯粒,在实现相同规格的芯片时获得更高的良品率。 而这种高速互联技术也可以从一个颗芯片内部拓展
26、到多个独立 的芯片之间,允许多颗芯片进一步组成更大的系统。对于成本 敏感的车载芯片而言,多芯粒技术是支持 AI 大模型的关键。多 芯粒技术一方面依赖于芯粒内部的高速互联接口,另一方面依 赖于支持高速互联的封装技术。按照封装技术的不同可以划分 为 2D 封装、2.5D 封装以及 3D 封装。 4.2 AI 大模型安全处理单元 构建稳固且高效的车载 AI 芯片安全架构,成为确保车辆安 全运行、保护用户隐私的关键所在。 4.2.1 AI 大模型芯片的功能安全架构 大模型芯片作为 AI 大模型车载软件平台的基座,如果没有 对故障进行有效的监测和控制,会影响到整体系统的功能安全 性。
27、硬件设计的安全机制包括冗余设计、监测电路设计、数据 校验等,也可以采用一些离线安全机制来检测硬件故障。支持 AI 大模型的复杂 SoC,需要相对独立的、高功能安全等级的 MCU 子系统作为“安全岛”。它主要负责全芯片的故障检测机 制的管理和控制、故障的收集和上报以及故障的处理等,如采 取功能降级、重新启动等措施,使系统进入到安全状态。 12 4.2.2 AI 大模型芯片的信息安全架构 来自系统外部的攻击业界归结为信息安全问题, 国际上有 ISO/SAE 21434 标准、UNECE R155 法规等,我国已发布汽车整 车信息安全技术要求 GB 44495 。芯片往往需要
28、具备安全启动、 加密与解密、数字签名、访问控制、物理安全防护等功能。 13 第 5 章 AI 大模型车载软件平台关键技术 5.1 驱动及内核层 5.1.1 大模型车载软件操作系统内核 面对智能网联复杂场景,大模型车载软件操作系统内核体 系通过大模型智能计算内核、控制单元内核和安全处理内核的 协同工作,为车辆提供坚实基础。 (1)大模型智能计算内核。主要负责为大模型在车端运行 提供强大的计算支持,服务于智能驾驶、智能座舱等典型应用 场景。它通过高效的数据处理能力和智能推理能力,使得汽车 能够在复杂的环境中自主决策,提升人机交互体验。 计算能力支撑智能驾驶。车辆需要
29、实时处理摄像头、毫米 波雷达、激光雷达等大量传感器数据, 以实现环境感知、目标 识别。智能计算内核通过深度学习模型与并行计算技术,高效 解析上述数据,为智能驾驶决策提供精准支持。还具备自适应 优化能力, 能够动态调整计算资源,提高推理效率。提升智能 座舱交互体验。 智能计算内核支持多模态数据融合,为语音、 视觉、手势等交互提供更自然体验;处理驾乘人员语音指令, 结合面部表情、眼动追踪、行为习惯等数据,提供个性化服务。 大模型智能计算内核采用先进的计算优化技术, 以提高计 算效率并降低资源消耗: l 并行计算。利用多核处理架构,将计算任务分解并分配 到多个核心执行,提高数据处理速度。
30、 14 l 缓存优化。通过 LLM 内核进行缓存管理,减少重复计 算,加速推理过程。 l 自适应计算调度。根据车载环境动态调整计算任务的优 先级,确保计算性能与能耗之间的平衡。 为了保障计算过程的安全性和可靠性,大模型智能计算内 核集成了智能安全防护机制: l 自主安全检测。利用 AI 监控计算任务,识别潜在的异 常或攻击,并自动调整防御策略。 l 智能故障恢复。 计算出现故障时,系统能够自主诊断问 题并采取相应修复措施。 (2)大模型控制单元内核。专注于对车辆各类控制功能的 管理和执行,确保车辆的稳定运行和精准控制。动力系统中, 大模型控制单元内核根据车辆实时运行
31、数据,分析和优化动力 系统的控制策略。在不同驾驶模式下智能调整动力输出,满足 驾驶员对舒适性或动力性的不同需求。底盘控制系统中,实现 对悬挂、转向、制动等系统的精确控制, 比如实时调整悬挂的 硬度和高度,提高驾驶舒适性;可以根据车速、转向角度、制 动力分配等信息,控制提高转向精准度和安全制动。 (3)大模型安全处理内核。主要负责处理与车辆安全相关 的任务,包括信息安全和功能安全,是保障车辆安全运行的核 心。信息安全方面,大模型安全处理内核采用加密、认证、防 火墙等多种安全技术,保护车辆的通信数据和系统安全。例如 15 对车辆与外部网络之间传输的数据进行加密, 防止数据被窃
32、取 或篡改。功能安全方面,大模型安全处理内核通过风险评估、 冗余设计和故障检测等机制,确保系统在出现故障时仍能安全 运行。还与其他内核紧密协作,共同保障车辆整体安全。例如 智能驾驶场景中, 当大模型智能计算内核做出决策后,大模型 安全处理内核会对决策指令进行安全验证,确保指令的安全性 和可靠性,然后再将其传递给大模型控制单元内核执行。 5.1.2 虚拟化管理 智能网联汽车 AI 具备以下特点: 一是智能业务异构。车载 AI 大模型会覆盖到智能驾驶及控制、智能交互、智能运维等多 种智能化业务,对于实时性、确定性、安全性的要求不一样; 算力也需求不一样,有些是比较恒定的,有些是动态变化的。 如
33、何使这些业务有序部署、控制干扰,最大化 AI 能效比,尤为 重要。二是智能算力异构。不同于云端 AI 的同构算力,当前车 端 AI 是异构算力,不同车型有不同芯片, 同一车型的座舱域、 智驾域等控制器 AI 芯片也不同, 向 AI 大模型部署提出挑战。 AI 虚拟化如单系统 AI 算力虚拟化、分布式 AI 虚拟化、AI 模型 虚拟机, 能解决上述问题。 5.1.3 跨内核驱动框架 跨内核驱动框架旨在构建一个通用的软件架构, 以支持不 同类型的内核(宏内核、微内核、混合内核),并实现对多样化 硬件环境的适配。该框架通过模块化设计和分层架构,提供稳 16 定、高效、可扩展的
34、驱动支持,确保大模型在各类车载计算环 境中的稳定运行。 (1 )大模型驱动架构构建:支持宏内核、微内核、混合内 核架构。 跨内核驱动框架在不同内核架构下适配至关重要。宏内核、 微内核和混合内核各具特点,在汽车软件系统中被广泛应用。 针对不同内核架构,跨内核驱动框架采用模块化和分层设计, 以实现灵活适配。 l 模块化设计。大模型推理模块、内核交互模块等被封装 为独立模块,以便适配不同内核环境。 l 分层架构。包括硬件抽象层(HAL)、内核适配层和大 模型服务层,确保跨内核的兼容性与拓展性。 宏内核环境下,充分利用宏内核的丰富生态,如文件系统、 网络通信和多任务处理能力,加速大模型的推
35、理和数据处理。 微内核架构下,着重于实时性和系统资源管理,确保大模型能 在受限资源条件下高效运行。混合内核架构中,跨内核驱动框 架需协调不同内核机制,优化计算任务分配,提高整体性能。 (2)大模型推理硬件抽象:实现对不同硬件的抽象和封装。 汽车硬件环境的多样性使得大模型推理需要适应不同的计 算平台,包括 CPU 、GPU 、NPU , 以及各种传感器和执行器。 跨内核驱动框架通过硬件抽象层(HAL)解决这一问题,使得 大模型能无缝适配不同的硬件配置。HAL 主要功能包括: 17 l 传感器数据抽象。支持摄像头、毫米波雷达、激光雷达 等多种传感器,提供统一的数据采集和处
36、理接口。 l 计算资源管理。 对CPU 、GPU 、NPU 进行统一抽象,动 态分配计算资源,提高推理效率。 l 执行器适配。 将车辆控制功能抽象成标准接口,大模型 可通过 HAL 控制底层执行器,实现精准操控。 l 硬件扩展性。 HAL 具备良好的可扩展性, 当新硬件加入 时,只需增加相应的驱动支持, 即可实现快速适配。 (3)大模型核心接口设计:定义跨内核的通用驱动接口。 为了在不同内核环境下保持大模型的稳定性和可移植性, 跨内核驱动框架设计了一套通用的核心接口,包括文件操作接 口、中断处理接口和内存管理接口。 l 文件操作接口。 统一管理大模型的文件资源,支持文件 打开、关闭
37、读写等基本操作。支持大规模训练数据的 存取,提高大模型数据读写效率。 l 中断处理接口。 负责管理传感器事件、外部设备通信等 中断,实现快速响应。统一提供中断注册、注销、触发 等功能,确保大模型对紧急事件的快速处理。 l 内存管理接口。 负责分配和释放大模型运行所需的内存 资源,避免内存泄漏和碎片化,提高系统内存利用率。 保障内存隔离,防止进程间非法访问,提高系统稳定性。 5.2 框架层 18 针对车载环境资源受限、实时性严苛及多模态场景需求, 构建软硬协同计算加速、服务请求编排调度、异构跨芯片计算 等框架体系,支撑 AI 大模型高效部署和安全运行。 5.2.1
38、 软硬协同计算加速 软硬协同计算加速框架聚焦 AI 大模型推理的单点计算优化, 通过分层量化压缩、动态混合精度调度、显存智能复用、硬件 定制算子优化及计算图自动融合等核心技术突破车载算力瓶颈, 实现单卡百亿级模型的实时推理。 (1)量化压缩:在车载资源受限环境下,AI 大模型显存 占用高、计算开销大,难以满足实时性需求。通过分层量化策 略,包括静态量化(Static Quantization)和动态量化(Dynamic Quantization),结合 W4A16 、W8A8 等配置,利用 LMDeploy 的 TurboMind 引擎和 NVIDIA TensorRT
39、LLM 等自动量化校准工具, 显著降低显存占用和计算开销。 (2)混合精度计算:车载硬件算力有限,传统 FP32 计算 效率低、功耗高,难以满足高吞吐需求。通过动态精度切换 (如 FP16/BF16 训练、FP8 推理)和自动混合精度(AMP)调 度, 最大化算力利用率。针对车载芯片定制混合精度算子库 (如 TensorRT-LLM 的 FP8 引擎),保证模型精度,同时显著提 升计算效率,降低功耗,满足车载环境对能效比的严苛要求。 (3)显存复用:长上下文场景下 KV Cache 显存占用高, 传 统 静 态 分 配 导 致 资 源 浪 费 。 引 入 PagedAttention
40、 和 19 RadixAttention 等技术,将 KV Cache 分页管理并缓存公共前缀, 支持跨请求显存共享。结合 CUDA Unified Memory 和 Zero- Inference 动态卸载冷数据至 CPU 内存,实现显存利用率提升。 (4)算子优化:车载硬件特性多样,通用算子性能不足, 难以充分发挥硬件算力。针对 GPU 和 NPU 分别定制高性能算 子,如基于 CUDA/Triton 的 FlashAttention-2 、Grouped GEMM , 以及高通 Hexagon NPU 的 INT8 稀疏计算内核。通过内核
41、融合 技术减少全局内存访问次数,提升 GPU SM 利用率。 (5)计算图融合优化:传统计算图存在冗余节点和访存开 销, 导致推理效率低下。采用非侵入式融合引擎(如 TVM Auto-Scheduler 、ONNX Runtime Graph Optimizer),自动搜索 最优算子融合策略,减少计算图节点,提升推理效率。 5.2.2 服务请求编排调度 针对车载多任务高并发场景,采用阶段解耦计算、显存弹 性管理、热冷神经元分层部署、模型动态加载及 LoRA 批处理 优化等核心策略,实现多任务高并发下的资源最优分配。 (1)Prefill 与 Decoding 阶段解耦与协同优化
42、生成式模型 的计算需求可以分为两个阶段:Prefill 和 Decoding 。Prefill 阶段 是计算密集型任务,而 Decoding 阶段则是访存密集型任务。将 Prefill 和 Decoding 阶段部署于独立资源池,资源池之间需要配 置高速的网络互联,确保 Prefill 与 Decoding 阶段 KV Cache 能 够共享。通过动态调度策略实现两阶段解耦,提升有效吞吐量。 20 (2)长上下文输入处理优化: 处理长文本输入时,GPU 的显存可能无法容纳整个 KV Cache。通过引入分布式注意力算 法,将 KV Cache 拆
43、分为更小单元。采用分页注意力(Paged Attention)或块级管理, 将 KV Cache 切分为小块存储于多 GPU 显存或 CPU 内存中,支持动态扩展。结合分布式计算框架(如 Triton Inference Server)的多模型并行能力,协调车端 GPU 集 群资源, 实现显存与算力的动态分配。 (3)热冷神经元分层计算与异构部署:在大规模生成式模 型部署时,传统的 CPU-GPU 异构计算方式可能带来较高的访 存开销。采用模型切分技术,将高频激活的神经元(热神经元) 保留在 GPU 显存中,低频部分卸载至 CPU 或专用 NPU,通过 Zero-Inf
44、erence 或 Triton 的异构计算流水线减少访存开销,从而 有效减少 GPU 显存的占用,显著提高Token 生成速度。 (4)模型动态加载与低延迟冷启动:在大规模模型部署中, 实时响应是关键因素。采用轻量化引擎(如 Ollama 或 Llamafile) 按需加载模型分片至 GPU,实现低延迟的冷启动。通过动态调 度模型分片,确保仅加载当前任务所需的部分,从而避免不必 要的全模型加载,从而显著提高推理效率和响应速度。 (5)LoRA 适配器的批处理优化:使用多个 LoRA 适配器时, 将每个适配器合并为独立的模型副本会降低批处理效率。通过 使用 PEFT 库的Lo
45、RA 混合加载技术,可以在基座模型上动态切 换适配器,避免生成独立的模型副本。结合vLLM 的Continuous 21 Batching 技术,支持多任务请求的并行处理,提高整体吞吐量。 5.2.3 异构联合计算 构建车端异构计算架构、车云协同网络及 V2X 近场算力共 享机制,依托分布式计算引擎,实现跨域算力池化调度与任务 动态迁移,突破单设备算力限制。 (1)车端异构计算架构。构建由CPU 、GPU 、NPU 、VPU、 MCU 等异构计算单元构成的协同计算架构,通过定制化中间件 实现算力单元的深度协同。引入混合任务调度机制,对大模型 推理任务进行统一调度
46、与负载均衡,支撑模型并行执行。 1) 分布式计算引擎。整合车端异构算力构建统一的算力 资源池。系统根据任务类型、优先级及节点运行状态动态分配 任务,持续跟踪执行状态,保障高可用性与实时性。 2) 计算单元间通信与协同。设计统一通信协议层,打通 异构芯片间的封闭壁垒。 制定异构硬件间的控制面、数据面交 互标准、原子操作及事务标准、状态同步标准, 实现跨计算单 元点对点数据通信与集群级交互。 3) 任务分配与资源管理。基于芯片特性实施任务精细分 配,GPU/NPU 处理计算密集型任务如模型训练和特征提取, CPU 处理控制流与轻量任务。调度系统动态优化分配策略,实 现系统级负
47、载均衡与性能最优。任务调度系统支持多模型的并 行(如快模型+慢模型,辅助驾驶模型+多模态座舱交互模型 等), 以及模型内计算构造块的并行。 22 4) 模型优化与适配。针对不同芯片架构对 AI 大模型进行 精细优化。通过量化、剪枝和蒸馏等技术,降低模型参数规模 与计算复杂度,提升执行效率与资源适配性。量化减少存储带 宽压力,剪枝精简计算路径,蒸馏提升小模型表现,保障在各 类芯片上高效运行。 5) 开发框架与工具链。构建适配异构计算的统一开发框 架,支持 TensorFlow 、PyTorch 、OneFlow 等主流平台,集成自 动微分与设备感知调度机制,实现多
48、芯片平滑切换。配套提供 性能分析与调优工具,帮助开发者快速识别瓶颈并实现高效部 署。 (2)V2X 计算架构。为突破车载设备算力瓶颈、提升多车 智能协同能力,构建以 V2X 为核心的通信网络与近场算力共享 机制,推动车端、边缘与云端的深度协同与弹性推理调度。 1) 通信网络搭建。 构建车与边缘基础设施(V2I)、车与 车(V2V)等之间的通信链路,确保通信的高可靠性、低延迟 和足够的带宽, 以满足车辆在不同场景下的信息交互需求。 2) 边缘计算节点部署。部署边缘计算服务器,作为 V2X 近场算力共享的关键节点。边缘服务器靠近车辆,对从车辆收 集到的数据进行初步处理和分析,如交通状况感知
49、危险预警 等,将结果反馈给周边车辆,减少车辆对云端的依赖。 算力共享机制设计及云边端三级协同。 构建任务驱动的算 力共享机制,允许车辆与边缘节点在 V2X 网络内进行算力供需 23 协商与动态分配。进一步构建云—边—端三级协同架构,云端 侧负责全局模型训练与策略优化,如交通网络级路径规划与策 略调度;边缘层进行本地数据实时处理(如路况感知、短期交 通流预测),提升响应效率;终端车辆(OBU)根据网络连接状 态自适应切换本地推理与云端辅助决策。 5.3 基础模型层 涵盖大语言模型、视觉大模型、多模态大模型以及视觉-语 言-动作模型,通过多任务协同推理和跨领域知识整合
50、为车载 系统提供深层语义解析与环境理解能力,提升整车智能化水平。 5.3.1 大语言模型 大语言模型基于 Transformer 架构构建,通过海量语料预训 练和细粒度微调,实现对自然语言的深度理解与生成。参数规 模可达千亿级,主要用于自然语言处理任务,如语义理解、对 话生成等,具备捕捉复杂语境和细微语义变化的能力。通过大 语言模型,车载系统能够与驾驶员自然交互,提供智能语音助 手、实时导航建议和个性化服务, 以及车内外信息智能处理等。 车载场景中,大语言模型需支持短指令快速响应、离线或弱网 条件下的稳健推理, 以及基于规则的安全指令过滤机制, 以满 足车规级的确定性和安






