让 AI 完全控制您的 PC,以使用自操作计算机框架自主完成任务

一台能够独立思考和行动的计算机的想法不再是一个遥远的梦想。感谢这个使用 ChatGPT 视觉创建的独特演示。人工智能 (AI) 将我们带到了一个新时代的边缘,在这个时代,机器可以在没有人为干预的情况下执行任务。

自操作计算机框架 – 使多模态模型能够操作计算机的框架。人工智能模型使用与人类操作员相同的输入和输出,使用 ChatGPT Vision 查看屏幕,并决定一系列鼠标和键盘操作以达到目标。

值得一提的是,目前 GPT-4 Visions 在估计 XY 鼠标点击位置方面的错误率目前相当高。然而,该框架旨在跟踪多模态模型随时间推移的进展,以期在计算机操作中实现人类水平的性能。

使用 AI 控制您的 PC

这一引人入胜的发展不仅适用于技术专家;任何有一点技术知识的人都可以探索甚至设置自己。这要归功于 OpenAI 最近推出的新的 ChatGPT 创建服务,该服务使任何人都可以在短短几分钟内创建自定义的 AI 模型,而无需编写任何代码。有关如何创建自定义 GPT AI 模型的更多信息,请跳转到我们之前的文章

自操作计算机框架

该演示的核心是人工智能,它被用来使机器能够模仿类似人类的思维。人工智能系统旨在处理视觉数据,理解复杂的信息,并自行采取行动。当集成到计算机中时,人工智能将其转变为一个独立的操作员,能够在没有人员输入的情况下启动应用程序和浏览网页。

如果您对此感兴趣并想亲身体验,您可以创建自己的 AI 驱动计算机。首先访问 GitHub,这是一个开发人员分享其工作的平台。寻找Other Side AI的项目,并将其作为起点。下一步是在计算机上设置 Python 环境。Python 是 AI 开发中流行的编程语言,因为它功能强大且平易近人。启动并运行 Python 后,激活它并安装 AI 运行所需的组件。

  • 兼容性:专为各种多式联运模型而设计。
  • 集成:目前集成 GPT-4v 作为默认模型。
  • 未来计划:支持其他模型。

在 AI 掌权之前,您需要调整一些设置。调整环境变量,以便您的计算机知道在哪里可以找到 AI 的文件。然后,更改系统的权限以允许 AI 与您的操作系统交互。这使它能够执行打开文件和运行其他软件等任务。

现在是激动人心的部分:观看 AI 的运行。你会看到它在你的电脑界面上导航,通过视觉识别图标和菜单。它可以模拟鼠标点击和击键以打开应用程序和浏览互联网。人工智能的在线搜索能力尤其令人印象深刻,显示了其查找和处理基于网络的信息的技能。

让 AI 完全控制你的电脑的好处

  • 重复性任务的自动化:AI 可以自动执行重复或例行任务。例如,它可以管理电子邮件排序、自动数据输入或根据视觉提示和学习模式处理文件组织。
  • 增强的可访问性:对于残障人士来说,具有屏幕阅读能力的人工智能可以大大提高计算机的可访问性。它可以解释视觉信息并以其他格式传达,如音频或简化的视觉效果,帮助有视觉障碍的用户。
  • 高效的故障排除和支持:在IT支持和故障排除方面,人工智能可以直观地识别屏幕上的问题,指导用户进行修复,甚至自主解决问题,从而提高效率并减少停机时间。
  • 学习与适应:人工智能系统可以从用户的行为、偏好和频繁的任务中学习。随着时间的推移,它可以适应优化工作流程、建议快捷方式或重新组织界面以适应用户的习惯。
  • 实时翻译和协助:对于与外语内容互动的用户,人工智能可以提供实时翻译。它还可以在应用程序中提供上下文相关的帮助,从而改善用户体验和生产力。
  • 增强的安全性和监控:由于能够持续监控屏幕,人工智能可以检测可疑活动,如网络钓鱼尝试或未经授权的访问,并提醒用户或采取预防措施。
  • 与其他 AI 服务集成:AI 可以与其他 AI 工具(如语言模型、预测分析等)交互,提供各种 AI 功能的无缝集成,从而提供更全面的用户体验。

隐私和安全问题

授予 AI 系统对计算机的完全控制权,并结合视觉解释屏幕的能力,可以带来几个好处,尤其是在需要自动化、可访问性和增强用户交互的领域:

虽然人工智能驱动的计算机的功能令人兴奋,但它们也提出了重要的问题。赋予 AI 这种级别的控制意味着什么?我们的安全或隐私是否存在风险?在探索自操作计算机的功能时,请务必考虑这些问题。当我们开始将人工智能系统融入我们的日常生活时,了解人工智能的力量和潜在风险至关重要。

由人工智能引导的自动操作系统的兴起是技术创新的一个重要里程碑。按照概述的步骤,您可以设置自己的系统并发现其功能。随着人工智能技术的不断进步,了解其影响至关重要,确保我们深思熟虑和负责任地将其融入我们的生活。

正文完
 0