微软推出首款电脑操作专用开源智能体小模型Fara-7B
IT之家11月25日消息,当地时间11月24日,微软正式发布全新开源小型语言模型Fara-7B,这款模型定位为专注于计算机操作的"Agentic"智能体,能够借助鼠标和键盘完成各类网页任务。
作为微软首次推出的面向电脑使用场景的小模型(SLM),Fara-7B拥有70亿参数,在同参数规模模型中性能处于领先水平,并且支持设备端本地运行,可实现更低的响应延迟和更可靠的隐私保护。

据介绍,Fara-7B与传统聊天模型依赖文本交互的方式不同,它通过视觉分析网页截图,直接在屏幕上执行点击、输入、滚动等操作,无需依赖额外的可访问性树(Accessibility Tree)或多个大模型协同工作。

为训练该模型,微软构建了全新的合成数据生成流程,用于模拟复杂的多步骤网页任务,数据来源涵盖真实用户需求和真实网页内容。该流程基于Magentic-One框架,包含任务生成、任务求解和轨迹验证三个阶段,最终用于训练的数据集包含14.5万条任务轨迹、100万操作步骤,还附带定位、描述及视觉问答等辅助任务数据。

IT之家从微软官方了解到,Fara-7B基于Qwen2.5-VL-7B底座模型开发,支持最长128k的上下文长度。在执行任务过程中,模型会在预测动作前输出推理内容,调用的操作包括Playwright标准操作(如click(x,y)和type())以及网页宏操作(如web_search())。其训练方式以监督微调为主,未采用强化学习技术。

测试结果显示,Fara-7B在WebVoyager、Online-Mind2Web、Deepshop等多项公开基准测试,以及微软新发布的WebTailBench基准中表现出色,部分任务性能优于同参数模型UI-TARS-1.5-7B,甚至能与更大规模、通过复杂提示驱动的系统(如采用Set-Of-Marks的GPT-4o)展开竞争。
此外,微软第三方合作机构Browserbase通过人工验证方式对Fara-7B进行评测,结果显示该模型在WebVoyager基准上的通过率达到62%(包含重试情况)。

微软方面强调,Fara-7B目前仍处于实验性发布阶段,在复杂任务准确性、指令遵循度和减少幻觉等方面存在局限,未来将持续优化改进。
考虑到电脑操作智能体模型的特殊风险,微软为Fara-7B加入多项安全措施:涉及敏感操作(如提交个人数据或不可逆行为)时,模型会暂停在"关键点"(Critical Point)并征求用户同意;所有操作均会被记录;模型需在沙盒环境中运行;训练数据中加入拒绝执行不当任务的示例。在WebTailBench-Refusals的111个红队测试任务中,Fara-7B的拒绝率达到82%。
目前,Fara-7B已通过MIT许可在Microsoft Foundry和Hugging Face平台开源发布,同时整合到Magentic-UI研究原型中。
微软还宣布将提供量化版本和面向Copilot+ PC的优化版本,用户可通过VSCode的AI Toolkit下载,在Windows 11系统本地运行,支持NPU加速。微软表示,未来端侧CUA模型仍有提升空间,包括依托更优秀的底座模型,以及在真实和沙盒环境中应用强化学习技术。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




