Microsoft 承认用户投诉后必应聊天 AI 存在质量问题

Microsoft的AI搜索聊天机器人Bing Chat最近几周一直面临质量问题。Windows最新报告用户报告说,聊天机器人通常没有帮助,避免问题或未能提供相关答案。

在Reddit上,用户一直在抱怨Bing Chat的质量下降,它由OpenAI的GPT-4大语言模型(LLM)的改编版本提供支持。报告的范围包括人工智能争论、提供错误信息、加倍处理不准确之处,以及在被告知错误时结束对话。

在给Windows Latest的一份声明中,Microsoft承认Bing Chat一直面临质量问题。该公司表示,它知道最近的用户反馈,并计划在不久的将来做出改变以解决这些问题。

“撰写模式过去感觉比聊天限制更少,现在它几乎无法使用。我更喜欢花额外的时间在聊天中给Bing加油以帮助写作,而不是浪费时间在撰写模式下获得这些奇怪的借口。几乎停止使用撰写,因为它浪费了很多时间一遍又一遍地重试提示,“一位Reddit用户说。

Bing Chat在Google Bard和ChatGPT上失势了吗?

虽然这完全是轶事,但我对 Bing Chat 的一般体验与用户越来越多的投诉相匹配。我已经看到聊天机器人逐渐变得更糟,以至于有些日子无法使用:

  • 不正确的信息:如果我向 Bing Chat 提供维基百科页面并要求它提供摘要,AI 会提供与来源无关的信息,弄错小细节,并编造引号。
  • 倍注意错误:当我将这些错误标记到 Bing 聊天时,机器人有时会争论它们并试图证明提供错误信息的合理性。
  • 混淆来源:这些争论通常围绕着必应,然后开始认为其书面摘要是原始来源。例如,它会争论引号并声称它们是原创的,即使它是编造的,给出死链接以试图证明自己。
  • 结束对话:如果我稍微推动一下,问为什么必应聊天认为它可能在特定任务上挣扎,人工智能将立即结束对话

值得注意的是,这种情况并非每次都会发生,似乎有些日子必应比其他日子更糟糕。即便如此,人工智能传播错误信息然后支持它的能力仍然令人担忧。用户很容易认为必应的假新闻和报价是真实的。当然,Microsoft警告用户聊天机器人可能不准确,它仍然是一个预览工具。

不用说,这本身就是一个问题。如果机器人可能不正确并且经常不正确,那么它的意义何在?Microsoft将必应聊天定位为搜索工具。但是,如果聊天机器人提供的结果不可信,则作为搜索伴侣会失败。

其他聊天机器人和不准确的问题

让我们明确一点,Google Bard和ChatGPT也可以提供与Bing类似的问题。但是,用户和我自己的经验表明,必应更糟。事实上,它正在成为一个非常令人沮丧且几乎无法使用的工具。

这与为ChatGPT提供支持的AI模型相同。事实上,Bing一直领先于ChatGPT,后者本月早些时候才升级到GPT-4。谷歌Bard是另一个主要的主流聊天机器人,虽然它通常比Bing Chat更基本,但它似乎提供了更一致的信息,并且肯定会减少混淆。

最近的一项研究发现,OpenAI的大型语言模型聊天机器人ChatGPT可能会随着时间的推移而变得更糟。这项由斯坦福大学和加州大学伯克利分校的研究人员进行的研究发现,ChatGPT 在 2023 年 <> 月至 <> 月期间在各种任务上的准确性显着下降。

该研究比较了 ChatGPT 在 25 月和 2 月的任务表现。他们发现ChatGPT的技能随着时间的推移而恶化。平均而言,ChatGPT 的准确率在三个月内下降了 4%。此外,ChatGPT的业绩在97月份变得更加不稳定。例如,ChatGPT 在 6 月份的数学问题准确率从 87.5% 到 97.6% 不等,而在 <> 月份则在 <>.<>% 到 <>.<>% 之间。

正文完
 0