ChatGPT引爆大模型，数研院决策智能成果“小”起底

2023.02.28

来源 : CMC资本

微信图片_20230403102133.png

欢迎来到「C位」，它是CMC资本团队全新打造的与创业圈、科技产业、学术界分享交流的频道。通过这个窗口，我们关注和记录在当下发生的诸如企业数字化、产业智能化、业务自动化、无人驾驶与智能车、新能源技术、元宇宙等一系列科技领域中的技术前沿、创业实践，以及行业趋势思考，内容形式包括业界对话、行业观察、投资观点等等。我们期望以开放的信息分享和坦诚的观点解构为特色，注重质量，持续输出。

ChatGPT爆火再度引发了各界对于大模型的关注，内容生成（AIGC）已经展示出大模型对于实际应用的高效提升，也让业界对于其赋能实际应用有了更多期待。在内容生成之上，社会更需要借助大模型去做更深层次的决策辅助，行动生成（AIGA）是进阶的深水区。

AIGA的关键在于A（Action），而智能决策（IDM）则是A中最为关键的一环。IDM是应用AI和相关技术来解决现实世界的决策任务，鉴于环境的高度变化，决策任务的复杂性和不确定性对IDM提出了远高于信息收集整理的要求。AIGA被寄予更高的希望，可以进一步降本增效并广泛应用在复杂的现实生产活动中，为更广泛、更动态和更复杂的任务给出最优策略。可以看到的是，决策智能在多智能体游戏AI、生产调度和机器人任务中的都有无限潜力。

IDM的范式转变

CMC资本孵化企业上海数字大脑研究院（简称“数研院”）自创立之初就锚定决策智能这一难而正确的事情，历经一年多的努力，成果显著。本期C位，我们就带大家一起来了解一下数研院在多模态决策大模型、四足机器人决策控制、足球AI领域所取得的领先技术成果，以及这些技术在产业中落地，所获得了良好的效果验证。

1
国内首个多模态决策大模型DB1

去年，数研院推出首个数字大脑多模态决策大模型（简称DB1）（☞原文请戳），填补了国内在此方面的空白，进一步验证了预训练模型在文本、图-文、强化学习决策、运筹优化决策方面应用的潜力。此外，创新性地尝试将预训练模型的成功复制到决策任务上，并且取得了突破。

数研院推出的DB1，主要对Gato进行了复现与验证，并从网络结构与参数量、任务类型与任务数量两方面尝试进行了改进。实验任务数量达870，较Gato提升了44.04%，较Gato在>=50%专家性能上提升2.23%。在决策类任务方面，DB1另外引入了200余个现实场景任务，即100和200节点规模的TSP问题求解。作为一个基础决策模型，DB1将是迈向更自主和高效的现实世界IDM应用的第一步。

此前，数研院提出MADT（https://arxiv.org/abs/2112.02845）/MAT（https://arxiv.org/abs/2205.14953）等多智能体大模型，在一些离线大模型通过序列建模，使用Transformer模型在一些单/多智能体任务上取得了显著效果。

DB1 (右)与GATO （左）指标对比

跨地形、具身四足机器人控制大模型

在机器人控制方面，数研院成功用强化深度学习方法，将Transformer大模型应用于四足机器人跨地形、跨具身运动控制（☞原文请戳），让不同具身的四足机器人成功在多种真实复杂地形上“化险为夷”，如履平地，为自由、自主的运动控制奠定基础。相关成果以两篇论文的形式发表在国际机器人顶级会议ICRA 2023上。

相比传统深度学习模型，Transformer序列模型有着更大的模型容量以及更强的泛化性，数研院在此基础上提出了针对跨地形四足机器人运动控制框架Terrain Transformer（TERT）和跨具身的四足机器人运动控制框架Embodiment-aware Transformer（EAT）。TERT可以成功通过九种复杂的地形，包括沙坑、下楼梯等；EAT模型可以在前后腿一样长、前腿比后腿短、前腿比后腿长三种具身类型上完成较好的泛化，还可以根据所处环境的不同变化自身的身体，达到一种类似进化的方式。

数研院方法TERT在九种地形上的表现

多智能体足球AI

在多智能体决策方面，数研院以足球球队为应用场景，基于Transformer建立起了一支人工智能球队（☞原文请戳）。数研院的足球AI训练框架把每一个球员作为一个单独的策略智能体，在个人层面上，通过提供在不同球场情况下人为设计的奖励信号来指导单个个体学习基础的行为比如带球、射门等。在此基础上，给予个体附近的队友和对手的信息，来提供团队内配合的可能，再将11个智能体组建成一支球队并一同与不同风格对手对抗来训练球队的技战术配合。针对训练量大的问题，在MALib的基础上开发了一套轻量版本的多智能体强化学习的训练框架，并为其命名为Light-MALib。此外，采用了自博弈（self-play）的方式（和AlphaGo一样），让智能体从零开始学习，使球队自我对抗，逐步开发探索出新的技能来升级。

该足球AI首次亮相于IEEE Conference on Game上的5 vs 5、11 vs 11赛道的多智能体竞赛，为比赛提供了强力的Baseline模型，并获得了积分榜双料亚军的成绩。

数研院开放了足球AI的研究资源在https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football，除了训练框架，还包括分析工具、基线模型等，希望推动足球AI研究社区的进一步发展。

数研院开放了足球AI的研究资源在https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football，除了训练框架，还包括分析工具、基线模型等，希望推动足球AI研究社区的进一步发展。

微信图片_20230403102542.png

训练过程中的比赛片段

商业落地促智能化升级

在商业落地方面，数研院以决策智能大模型为底层架构的决策智能平台在各个领域都有着出色的表现。以高端制造业的研发环节为例，一直存在时间与成本居高不下的问题，在研发的不同阶段，研发物料、任务排程和研发人力三者之间也存在资源协调上的矛盾。在与上汽研发总院（☞原文请戳）的合作中，基于数据驱动的业务计划智能决策引擎，将“决策大模型”引入业务计划的制定和执行过程中，通过数据让机器辅助决策，从根本上优化传统靠“人的经验”排程和变更带来的弊端，使得管理提质、增效。

多模态决策大模型是实现决策智能体从游戏走向更广泛场景，从虚拟走向现实，在现实开放动态环境中进行自主感觉与决策，最终实现通用人工智能的关键探索方向之一。数研院团队在大模型研究上发力已久，未来，仍将持续迭代数字大脑决策智能大模型，实现跨域、跨模态、跨任务的知识泛化与迁移，最终在现实应用场景下提供更通用、更高效、更低成本的智能决策。

附：数研院近期大模型论文成果

1. On Realization of Intelligent Decision-Making in the Real World: A Foundation Decision Model Perspective. Arxiv 2022. https://arxiv.org/abs/2212.12669

2. Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer. ICRA 2023. https://arxiv.org/abs/2212.07740

3. Multi-embodiment Legged Robot Control as a Sequence Modeling Problem. ICRA 2023. https://arxiv.org/abs/2212.09078

4. Multi-agent reinforcement learning is a sequence modeling problem. NeurIPS 2022. https://arxiv.org/abs/2205.14953

5. Offline pre-trained multi-agent decision transformer: One big sequence model conquers all starcraftii tasks. MIR 2023. https://arxiv.org/abs/

上一条

下一条