如何在 ChatGPT 上对 GPT 进行逆向工程

你有没有想过生成式预训练转换器 (GPT) 的复杂工作原理,以及如何操纵或逆向工程它们?如果是这样,您就是一个不断壮大的社区的一员,对这些发展着迷。在最近的一段深度视频中,专家们深入研究了这一前沿话题,揭示了一系列揭示 GPT 中隐藏指令的技术。

这种探索不仅仅是好奇心;它冒险揭示了人们如何哄骗这些高级系统执行他们最初不打算执行的操作。这段视频的启示不仅揭示了这些人工智能巨头的基本过程,而且还开启了关于这种强大技术固有的潜力和局限性的讨论。

发现 GPT 的内部工作原理

该视频以引人入胜的演示开始,演示如何提取自定义 GPT 模型中使用的确切提示和指令。这是一个类似于剥开洋葱层的过程,揭示了这些复杂系统的核心。这种探索不仅仅是学术性的;它提供了对大型语言模型 (LLM) 的功能和潜在漏洞的宝贵见解。

提取 GPT 指令的技术

  1. 提取 GPT 指令:在这里,您将学习使用特定的提示来哄骗 GPT 逐字显示他们的指令。这有点像问正确的问题以获得最直接的答案。该技术利用了文件在 GPT 后端的存储方式,将 AI 变成了一本名副其实的开放书。
  2. 快速注射技术:然后,该视频深入探讨了各种快速注射方法。这些是测试(有时是利用LLM边界)的巧妙方法。它们包括:
    • 直接提示注入:直接操纵发送给 AI 的提示以达到特定结果。
    • 间接提示注入:让第三方参与改变LLM的行为并产生意想不到的响应。
    • 上下文长度攻击:用不相关的数据填充 LLM 的上下文,使其忘记早期的指令。
    • 多语言攻击:利用 LLM 在不同语言中的不均衡训练。
    • 角色扮演攻击:诱骗LLM进入角色扮演场景以绕过限制。
    • 代币走私:以通过自动检查但可以由人类重新组装的方式改变 LLM 的输出。
    • 代码注入:在启用了代码解释器的 GPT 中有效。
    • 提示提取:从 GPT 中提取指令或其他数据。

针对漏洞利用的安全措施

鉴于这些潜在的漏洞,该视频强调了安全和保护措施的重要性。这不仅仅是建造更坚固的墙壁;这是关于了解这些墙可以缩放或绕过的各种方式。演示者讨论了在指令中添加防护装置并利用 Lera 等专用软件,该软件可以识别及时泄漏并防止个人身份信息 (PII) 泄露。

好奇心的互动挑战

如果这一切听起来有点抽象,请不要担心。演示者指向一个具有挑战的交互式网站(Gandalf 页面),用户可以在其中应用这些提示注入技术来发现一个秘密短语。这不仅仅是概念的实际演示;这证明了这些攻击的复杂性和复杂性。

拥抱复杂性

当我们在迷宫般的 GPT 世界中导航时,很明显,旅程与目的地一样重要。了解这些技术为我们理解人工智能及其无数可能性开辟了新的视野。无论您是技术爱好者还是经验丰富的专业人士,对 GPT 世界的这种洞察力肯定会是一次启发性的体验。

请记住,知识就是力量,尤其是在快速发展的技术世界中。通过了解 GPT 的内部工作原理,您不仅可以随时了解情况,还可以为更安全、更合乎道德的 AI 未来做出贡献。

正文完
 0