English | 简体中文
让 AI 成为你的浏览器操作员
Midscene.js 让 AI 成为你的浏览器操作员 🤖。只需用自然语言描述你想做什么,它就能帮你操作网页、验证内容,并提取数据。无论你是想快速体验还是深度开发,都可以轻松上手。如果您在项目中使用了 Midscene.js,可以加入我们的 社区 来与我们交流和分享。
下面的录制 example 视频基于 UI-TARS 7B SFT 模型,视频没有任何加速~
指令 | 视频 |
---|---|
发布一条 Twitter | twitter-video-1080p.mp4 |
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs | google-doc-1080p.mp4 |
从 v0.10.0 版本开始,我们支持了新的开源模型 UI-TARS
。更多信息请查看 选择 AI 模型。
- 自然语言互动 👆:只需描述你的目标和步骤,Midscene 会为你规划和操作用户界面。
- Chrome 插件体验 🖥️:通过 Chrome 插件,你可以立即开始体验,无需编写代码。
- Puppeteer/Playwright 集成 🔧:支持 Puppeteer 和 Playwright 集成,让你能够结合 AI 能力和这些自动化工具的强大功能,轻松实现自动化操作。
- 支持私有化部署 🤖:支持私有化部署
UI-TARS
模型,相比 GPT-4o、Claude 等闭源模型,不仅在 UI 自动化场景下表现更加出色,还能更好地保护数据安全。 - 支持通用模型 🌟:支持 GPT-4o、Claude 等通用大模型,适配多种场景需求。
- 用可视化报告来调试 🎞️:通过我们的测试报告和 Playground,你可以轻松理解、回放和调试整个过程。
- 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
- 理解UI、JSON格式回答 🔍:你可以提出关于数据格式的要求,然后得到 JSON 格式的预期回应。
- 直观断言 🤔:用自然语言表达你的断言,AI 会理解并处理。
- 你可以使用通用的 LLM 模型,如
gpt-4o
,它适用于大多数情况。同时,gemini-1.5-pro
和qwen-vl-max-latest
(千问)也是支持的。 - 你也可以使用
UI-TARS
模型 ,这是一个专为 UI 自动化设计的大模型。你可以私有化部署,以提高性能和数据隐私。 - 更多信息请查看 选择 AI 模型。
业界的 UI 自动化工具层出不穷,每个 Demo 都看起来很科幻。Midscene.js 有什么特别之处?
-
调试体验:你很快就会发现,调试和维护自动化脚本才是真正的痛点。无论模型多么强大,你仍然需要调试过程以确保其保持长期稳定。Midscene.js 提供了可视化报告、内置的 Playground 和 Chrome 插件,以调试整个运行过程。这是大多数开发者真正需要的特性,我们也在持续努力改进调试体验。
-
开源、免费、部署灵活:Midscene.js 是一个开源项目。它与云服务和模型提供商解耦,你可以选择公共或私有部署。总会有一个适合你的计划。
-
与 Javascript 集成:你可以永远相信 Javascript 😎
- 官网首页: https://midscenejs.com
- 使用 Chrome 插件体验,请从这里开始体验 Midscene
- 集成方案
- 使用 YAML 格式的自动化脚本, 如果你更喜欢写 YAML 文件而不是代码
- 使用 Chrome 插件桥接模式(Bridge Mode), 使用 Midscene 来控制桌面端 Chrome
- 集成到 Puppeteer
- 集成到 Playwright
- API 文档
- 选择 AI 模型
- 配置模型和服务商(e.g. 使用千问模型)
如果您在研究或项目中使用了 Midscene.js,请引用:
@software{Midscene.js,
author = {Zhou, Xiao and Yu, Tao},
title = {Midscene.js: Assign AI as your web operator.},
year = {2025},
publisher = {GitHub},
url = {https://github.com/web-infra-dev/midscene}
}
Midscene.js 遵循 MIT 许可协议。
如果本项目对你有帮助或启发,请给我们一个 ⭐️