Skip to content

Latest commit

 

History

History
115 lines (79 loc) · 6.55 KB

README.zh.md

File metadata and controls

115 lines (79 loc) · 6.55 KB

Midscene.js

Midscene.js

English | 简体中文

让 AI 成为你的浏览器操作员

npm version huagging face model downloads License discord twitter

Midscene.js 让 AI 成为你的浏览器操作员 🤖。只需用自然语言描述你想做什么,它就能帮你操作网页、验证内容,并提取数据。无论你是想快速体验还是深度开发,都可以轻松上手。如果您在项目中使用了 Midscene.js,可以加入我们的 社区 来与我们交流和分享。

案例

下面的录制 example 视频基于 UI-TARS 7B SFT 模型,视频没有任何加速~

指令 视频
发布一条 Twitter
twitter-video-1080p.mp4
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs
google-doc-1080p.mp4

📢 支持了新的开源模型 - UI-TARS

从 v0.10.0 版本开始,我们支持了新的开源模型 UI-TARS。更多信息请查看 选择 AI 模型

💡 特性

  • 自然语言互动 👆:只需描述你的目标和步骤,Midscene 会为你规划和操作用户界面。
  • Chrome 插件体验 🖥️:通过 Chrome 插件,你可以立即开始体验,无需编写代码。
  • Puppeteer/Playwright 集成 🔧:支持 Puppeteer 和 Playwright 集成,让你能够结合 AI 能力和这些自动化工具的强大功能,轻松实现自动化操作。
  • 支持私有化部署 🤖:支持私有化部署 UI-TARS 模型,相比 GPT-4o、Claude 等闭源模型,不仅在 UI 自动化场景下表现更加出色,还能更好地保护数据安全。
  • 支持通用模型 🌟:支持 GPT-4o、Claude 等通用大模型,适配多种场景需求。
  • 用可视化报告来调试 🎞️:通过我们的测试报告和 Playground,你可以轻松理解、回放和调试整个过程。
  • 完全开源 🔥:体验全新的自动化开发体验,尽情享受吧!
  • 理解UI、JSON格式回答 🔍:你可以提出关于数据格式的要求,然后得到 JSON 格式的预期回应。
  • 直观断言 🤔:用自然语言表达你的断言,AI 会理解并处理。

✨ 选择 AI 模型

  • 你可以使用通用的 LLM 模型,如 gpt-4o,它适用于大多数情况。同时,gemini-1.5-proqwen-vl-max-latest(千问)也是支持的。
  • 你也可以使用 UI-TARS 模型 ,这是一个专为 UI 自动化设计的大模型。你可以私有化部署,以提高性能和数据隐私。
  • 更多信息请查看 选择 AI 模型

👀 与其他工具比较

业界的 UI 自动化工具层出不穷,每个 Demo 都看起来很科幻。Midscene.js 有什么特别之处?

  • 调试体验:你很快就会发现,调试和维护自动化脚本才是真正的痛点。无论模型多么强大,你仍然需要调试过程以确保其保持长期稳定。Midscene.js 提供了可视化报告、内置的 Playground 和 Chrome 插件,以调试整个运行过程。这是大多数开发者真正需要的特性,我们也在持续努力改进调试体验。

  • 开源、免费、部署灵活:Midscene.js 是一个开源项目。它与云服务和模型提供商解耦,你可以选择公共或私有部署。总会有一个适合你的计划。

  • 与 Javascript 集成:你可以永远相信 Javascript 😎

📄 资源

🤝 社区

引用

如果您在研究或项目中使用了 Midscene.js,请引用:

@software{Midscene.js,
  author = {Zhou, Xiao and Yu, Tao},
  title = {Midscene.js: Assign AI as your web operator.},
  year = {2025},
  publisher = {GitHub},
  url = {https://github.com/web-infra-dev/midscene}
}

📝 授权许可

Midscene.js 遵循 MIT 许可协议


如果本项目对你有帮助或启发,请给我们一个 ⭐️