Game-TARS -字节跳动推出的通用型游戏智能体

Game-TARS是什么

Game-TARS是字节跳动Seed团队开发的通用型游戏智能体，基于统一的键盘-鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理与衰减持续损失，大幅提升了智能体的可扩展性和泛化性。Game-TARS的核心创新在于让智能体像人一样用键盘和鼠标操作，通过模拟人类操作的方式完成游戏中的每一个动作，实现了与人类用户物理交互方式的直接对齐。在FPS、开放世界、WEB游戏等任务中，表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

Game-TARS的主要功能

跨平台游戏操作：Game-TARS能通过统一的键盘-鼠标动作空间，在不同平台（如PC、网页、模拟环境）上操作游戏，无需为每个平台编写特定脚本，实现跨平台的自动化测试和游戏交互。
多模态数据预训练：基于超过5000亿标注量级的多模态数据进行预训练，涵盖游戏轨迹、图形用户界面交互等多种数据类型，使智能体具备强大的泛化能力和适应性，能够处理各种复杂的游戏任务。
高效推理与稀疏思维：采用稀疏推理策略，只在关键决策点进行深度推理，结合拒绝微调技术，优化推理过程，提高推理效率和动作的可操作性，让智能体在复杂环境中做出更精准的决策。
长期记忆与短期记忆结合：引入双层记忆机制，短期记忆保存最新的图像信息，长期记忆则保留精炼的稀疏思维文本，帮助智能体在长期任务中保持对关键信息的记忆，提升任务完成率和交互智能。
零样本迁移能力：经过大规模预训练后，Game-TARS能够在未见过的3D网页游戏中实现零样本迁移，无需额外训练即可快速适应新环境并完成任务，展现出强大的泛化能力。
指令遵循与动作语义理解：通过随机替换按键绑定等方式，强化智能体对指令的遵循能力，使其能够基于系统提示理解动作语义，准确执行任务指令，提高在不同游戏环境中的适应性和操作准确性。

Game-TARS的技术原理

统一动作空间：采用与人类对齐的原生键盘-鼠标输入动作，如 mouseMove、 mouseClick和 keyPress等，使智能体的动作指令集与特定应用或操作系统解耦，实现跨平台的通用性。
多模态数据预训练：基于超过5000亿标记的多模态数据进行预训练，包括游戏轨迹、图形用户界面交互、代码生成和科研任务等多种数据类型，提升智能体的泛化能力和适应性。
稀疏推理策略：通过稀疏推理（Sparse-Thinking）技术，仅在关键决策点进行深度推理，结合拒绝微调（Rejection Fine-Tuning），优化推理过程，提高推理效率和动作的可操作性。
视觉语言模型整合：将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型（VLM）中，无需针对每款游戏编写特定代码或规则，智能体能够自主学习操作并完成任务。
持续预训练框架：采用统一的单阶段持续预训练方法，将所有数据源融合在一起，对模型进行大规模预训练，同时在后训练阶段进一步强化智能体在特定任务中的执行能力和交互智能。
长期与短期记忆机制：引入双层记忆机制，短期记忆保存最新图像信息，长期记忆保留精炼的稀疏思维文本，帮助智能体在长期任务中保持对关键信息的记忆，提升任务完成率和交互智能。

Game-TARS的项目地址

项目官网：https://seed-tars.com/game-tars/
arXiv技术论文：https://arxiv.org/pdf/2510.23691

Game-TARS的应用场景

游戏自动化测试：Game-TARS可用于自动化测试各类游戏，包括FPS（第一人称射击游戏）、开放世界游戏、网页游戏等，帮助开发者快速发现游戏中的问题，提高测试效率和质量。
跨平台适配测试：由于其统一动作空间的设计，Game-TARS能够在不同平台（如PC、移动端、网页端）上进行适配测试，确保游戏在多平台上的兼容性和一致性。
复杂任务执行：Game-TARS能够处理复杂的游戏任务，如在《我的世界》中完成建筑、探索等任务，甚至在未见过的3D网页游戏中实现零样本迁移，展现出强大的泛化能力。
异常场景处理：Game-TARS具备错误恢复机制，能够通过失败案例自监督学习，处理游戏中的异常场景，提高智能体的鲁棒性。
游戏开发辅助：除了测试，Game-TARS还可以辅助游戏开发，例如在游戏设计阶段提供交互原型测试，帮助开发者优化游戏设计和用户体验。
研究与教育：Game-TARS的开源性质使其成为研究和教育领域的宝贵资源，研究人员可以利用其框架进行人工智能、机器学习等相关领域的研究，教育机构也可以将其作为教学案例，培养学生的实践能力。