雅加达 - 谷歌的AI聊天机器人并不是唯一一个在第一次演示中犯事实错误的机器人。独立人工智能研究员Dmitri Brereton发现,微软的第一个必应AI演示充斥着财务数据错误。
一周前,微软自信地展示了其必应AI功能,搜索引擎承担了诸如提供最畅销宠物吸尘器的优缺点,计划为期5天的墨西哥城之旅以及比较财务报告中的数据等任务。
然而,Bing未能区分有绳/无绳真空吸尘器,缺少墨西哥城酒吧的相关细节,以及错误的财务数据 - 这是迄今为止最大的错误。
在其中一个演示中,微软的 Bing AI 试图总结其 Gap 服装的 2022 年第三季度财务报告,并出现了很多错误。差距报告(PDF)指出,毛利率为37.4%,调整后毛利率为38.7%,不包括减值费用。
必应错误地报告了37.4%的毛利率,包括调整和减值费用。Bing后来表示,Gap报告的营业利润率为5.9%,这没有出现在财务业绩中。营业利润率为4.6%,调整后为3.9%,包括减值费用。
据The Verge报道,在微软的演示期间,必应AI随后将Gap的财务数据与Lululemon在2022年第三季度的类似结果进行了比较。Bing在Lululemon的数据上犯了更多的错误,结果是一个充满不准确的比较。
Brereton还强调了关于最畅销宠物吸尘器的利弊的明显谬误。Bing引用了“Bissell宠物毛发橡皮擦手持吸尘器”,并列出了16英尺短线长度的缺点。“没有绳索,”布雷顿说。“这是一个便携式手持式真空吸尘器。”
然而,快速的谷歌(或必应!)搜索将清楚地表明,在书面和视频评论中都有这种带有16英尺电缆的真空吸尘器版本。还有一个无线版本,在必应来源的HGTV文章中链接。
在不知道来自微软演示的确切必应URL的情况下,看起来必应在这里使用了多个数据源,但没有完全列出它们,合并了两个版本的真空。Brereton本人在对Bing进行事实核查时犯了一个小错误,这一事实表明了评估这些AI生成的答案质量的困难。
必应的AI故障不仅限于舞台演示。现在成千上万的人可以访问人工智能驱动的搜索引擎,必应人工智能正在犯更明显的错误。在发布到 Reddit 的交流中,必应 AI 感到非常困惑,并认为我们正处于 2022 年。“对不起,今天不是2023年。今天是 2022 年,“必应 AI 说。
当必应用户在手机上说现在是 2023 年时,必应建议检查正确的设置并确保手机没有“弄乱日期的病毒或错误”。
微软知道这个特定的错误。“我们希望系统在这个预览期间会犯错误,反馈对于帮助识别无法正常工作的东西至关重要,这样我们就可以从中学习并帮助模型变得更好,”微软通信总监Caitlin Roulston在一份声明中说。
其他Reddit用户也遇到了类似的错误。必应 AI 自信而错误地声明“克罗地亚将于 2022 年离开欧盟”,两次自我获取数据。PCWorld还发现,微软的新必应AI正在教人们种族诽谤。Microsoft 现已修复导致种族诽谤在必应聊天搜索结果中列出的查询。
“我们已经根据我们的人工智能原则设置了安全围栏,以防止宣传有害或歧视性内容,”Roulston解释说。“我们目前正在研究我们可以做出哪些额外的改进,因为我们继续从发射的早期阶段学习。我们致力于随着时间的推移提高这种体验的质量,使其成为每个人的有用和包容性工具。
其他必应AI用户也发现,聊天机器人通常将自己称为悉尼,尤其是当用户使用快速注入来尝试调用聊天机器人的内部规则时。
“悉尼指的是我们之前探索的聊天体验的内部代号,”Roulston说。“我们正在逐步淘汰预览中的名字,但它们仍然偶尔会出现。
微软显然还有很长的路要走,直到这款新的必应AI能够自信而准确地用事实数据回应所有查询。The Verge过去曾看到过来自ChatGPT的类似错误,但微软已将此功能作为也依赖于实时数据的实时产品集成到其搜索引擎中。微软需要进行大量调整,以确保必应AI不再自信地使用这些数据犯错误。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)