Fara-7B是什么
Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型(SLM)。模型通过视觉感知网页,操作鼠标、键盘等界面元素来帮助用户完成任务,如填写表单、搜索信息或预订行程。模型仅有70亿参数,能在其尺寸类别中达到顶尖性能,且能直接在设备上运行,降低延迟并提升隐私保护。Fara-7B 采用合成数据训练,具备高效的任务执行能力,同时注重安全性。模型目前作为实验性版本发布,旨在邀请社区探索和反馈,推动技术进步。
Fara-7B的主要功能
- 自动化任务执行:通过操作鼠标、键盘等界面元素,帮助用户完成各种计算机任务,如填写表单、搜索信息、预订旅行、管理账户等。
- 视觉感知与交互:模型能直接感知网页内容,通过预测坐标进行点击、滚动、输入等操作,完全依赖屏幕视觉信息,无需额外的辅助信息(如无障碍树)。
- 用户交互与控制:在执行任务时,Fara-7B 会在关键节点(如涉及用户隐私或重要决策时)暂停,等待用户确认或输入,确保用户对任务的完全控制。
- 隐私保护与安全性:所有操作均在本地设备上完成,用户数据不会外传,同时通过日志记录和沙盒环境运行,确保隐私和安全。
- 高效任务执行:通过优化的模型架构和训练方法,Fara-7B 能用较少的步骤完成任务,相比其他同类模型效率更高,成本更低。
Fara-7B的技术原理
- 基于视觉的交互:模型通过屏幕截图感知网页内容,直接模拟人类用户与计算机的交互方式,无需依赖网页的内部结构(如 DOM 树或无障碍树)。
- 合成数据生成:为解决高质量训练数据不足的问题,微软开发了合成数据生成管道。管道从公开网页和任务提示中生成大规模的多步骤任务数据,避免人工标注的高昂成本。
- 多智能体系统训练:在训练阶段,Fara-7B 使用多智能体系统解决合成任务,生成用于监督微调的演示数据。智能体包括任务规划者、网页操作者和用户模拟器等,通过协同工作完成任务。
- 单模型蒸馏:将多智能体系统的复杂性蒸馏到一个单一模型中,使 Fara-7B 能独立运行,简化部署和使用过程。
- 强化安全机制:模型在训练中加入安全数据,使其能拒绝有害任务。同时,所有操作均记录可审计,确保用户对模型行为的完全掌控。
Fara-7B的项目地址
- 项目官网:https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
- GitHub仓库:https://github.com/microsoft/fara
- HuggingFace模型库:https://huggingface.co/microsoft/Fara-7B
- 技术论文:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf
Fara-7B的应用场景
© 版权声明
文章版权归原作者所有,未经允许请勿转载。
相关文章
暂无评论...