Magentic-UI(微软开源AI网页自动化工具)简介
Magentic-UI 是一款微软开源AI网页自动化工具,基于AI人工智能多智能体系统构建,能够实现自动浏览网页、执行各种网页操作、生成和运行代码,以及处理文件分析等复杂任务。与传统的浏览器自动化工具不同,该工具提供了透明可控的人机协作界面,让我们能够有效参与到自动化任务执行的过程中去。

该工具的强大之处在于其多智能体协作机制,包含五个专业化的AI代理:Orchestrator(协调器)作为主导代理,负责制定计划并协调其他代理;WebSurfer(网页浏览代理)具备完整的浏览器控制能力,可以点击、输入、滚动和访问页面;Coder(编程代理)可以编写和执行Python和Shell命令;FileSurfer(文件处理代理)专门处理文件转换和分析;UserProxy(用户代理)则代表用户参与整个协作流程。
该工具在处理需要深度网页导航的复杂任务是非常具有优势,比如填写表单、定制在线订单、筛选航班信息,或通过在线数据生成图表等。其协作式规划功能允许用户与AI共同制定执行步骤,通过聊天和计划编辑器创建和审批详细的任务计划。
该工具基于微软的AutoGen框架开发,提供了学习和检索功能,能够从之前的任务执行中学习经验,自动改进未来的任务自动化效果。系统支持并行任务执行,可以同时运行多个任务,通过状态指示器了解每个任务的进展情况。
Magentic-UI(微软开源AI网页自动化工具)官网及教程
- 开源地址:https://github.com/microsoft/magentic-ui
- 官网:https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/
安装使用十分简便,只需要Python 3.10+和Docker环境,通过pip安装后即可启动。如果使用的是 Windows,则需要 WSL2。如果使用的是 Mac 或 Linux,则可以跳过 WSL2 步骤。
部署命令如下:
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui --upgrade
# export OPENAI_API_KEY=<YOUR API KEY>
magentic-ui --port 8081
部署完成后通过http://localhost:8081访问打开。