当前位置:数智频道首页 > 人工智能 > 正文

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

微软于11月24日宣布推出全新的开源小型语言模型Fara-7B,这是一个专门用于计算机操作的“Agentic”模型,能够通过鼠标和键盘执行网页任务。作为微软首个面向电脑使用场景的小模型(SLM),Fara-7B由70亿参数构成,在同级体量中达到领先性能,并能在设备端本地运行,实现更低延迟及更好的隐私保护。

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

Fara-7B不同于传统聊天模型依赖文本交互的方式,而是通过视觉解析网页截图并在屏幕上执行点击、输入、滚动等动作,无需依赖额外的可访问性树或多个大模型协作。为了训练这一模型,微软构建了一条全新的合成数据生成流程,模拟复杂多步骤的网页任务,这些任务来源于真实用户需求和真实网页。该流程依托Magentic-One框架,涵盖任务生成、任务求解及轨迹验证三个阶段,最终用于训练模型的数据包括14.5万条任务轨迹、100万步骤,以及定位、描述与视觉问答等辅助任务数据。

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

Fara-7B基于Qwen2.5-VL-7B底座,支持最长128k上下文。在执行任务时,它会在预测动作前输出推理内容,并调用Playwright的标准操作(如click (x,y) 和type ())及网页宏操作(如web_search ())。训练方式以监督微调为主,未使用强化学习。测试结果显示,Fara-7B在多项公开基准(WebVoyager、Online-Mind2Web、Deepshop)以及微软新公布的WebTailBench中表现优异,在部分任务中领先同级模型UI-TARS-1.5-7B,并能与更大规模、通过复杂提示方式驱动的系统竞争。此外,第三方合作机构Browserbase采用人工验证方式对Fara-7B进行评测,发现其在WebVoyager上取得了62%的通过率(包含重试)。

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

微软指出,尽管Fara-7B已展现出良好性能,但仍然处于实验性发布阶段,特别是在处理复杂任务准确性、指令遵循以及减少幻觉方面仍存在局限,未来将持续改进。考虑到智能体模型可能带来的特殊风险,微软采取了多项安全措施,比如要求模型在涉及敏感操作时暂停并征求用户同意;所有操作均被记录;模型需在沙盒环境中运行;并且在训练过程中加入拒绝执行不当任务的示例。在WebTailBench-Refusals的111个红队测试任务中,Fara-7B的拒绝率达到82%。

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

目前,Fara-7B已在Microsoft Foundry与Hugging Face平台上以MIT许可形式开源,并整合进Magentic-UI研究原型。微软还计划提供针对Copilot+ PC优化的版本,用户可通过VSCode的AI Toolkit下载并在Windows 11本地运行,支持NPU加速。未来,更强的端侧CUA模型仍有提升空间,包括依赖更优底座模型与在真实及沙盒环境中应用强化学习。

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强

热点推送

本周关注

MORE