Bing Chat越来越“愚蠢”,但是微软无法解决这个问题。

商界观察
2023-08-17

随著时间的推移,AI聊天机器人的使用越来越差,似乎已成为全球用户的共同体验。

 

例如微软的Bing Chat,即使在GPT-4的支持下,并且打开了创造性的方法,也经常会出现经常回避问题或无法回复的情况。许多网民在海外社交媒体Reddit上嘲笑Bing。 Chat已经变得不那么有趣了,回答的内容也不再幽默,不再快乐,让人觉得是冷酷无人的设备。

 

更有甚者,一些顾客试图要求Bing。 当Chat围绕一个虚构人物进行演绎时,当知道相关的讨论是无害的时候,Bing 事实上,Chat认为这种行为是有风险的。事实上,微软也承认Bing。 在给出的相关回复中,Chat性能下降的事实表明,我们正在积极监控客户的反馈,并计划在不久的将来做出改变,以解决相关问题。

 

事实上,自今年2月初内测以来,New Bing经历了几次大大小小的更新,从一开始的“牛Bing”开始。、最后,微软一直在努力做一个让大家满意的AI模型,从“赛博”到“New病”,再到提供准确、平衡、创造力三种方式。

 

但是现在看来,似乎有点适得其反,而ChatGPT这种大语言模式(以下简称LLM)之所以能够在2022年秋季爆红,是因为ChatGPT比以往任何类似的产品都更智能,或者说更像是人,因为它在AI热退烧后重新点燃了外界对它未来的热情。

 

01

 

巧合的是,ChatGPT现在已经开始被用户吐槽,逐渐出现速度变慢、回复复杂、聊天主题单一乏味等问题。事实上,这种聊天机器人的商品性能下降并不是一个孤立的事件,而是发生在不同制造商的LLM中。

 

事实上,这种现象已经被业界注意到了。例如,为了验证ChatGPT的行为如何随着时间的推移而变化,斯坦福大学和加州大学伯克利分校的研究人员在今年3月和6月测试了GPT-4的两个版本。测试内容涵盖四个部分:数学问题、敏感问题答案、代码生成和视觉推理。

 

最终的测试结果也证明了ChatGPT能力的下降,例如在数学和视觉推理部分,研究人员使用了思维链(chain-of-thought,CoT)技术,让LLM模拟人类思维的过程,帮助LLM生成一条推理路径,将复杂的推理问题分解成几个简单的步骤,而不仅仅是直接从语料库中拟合最终答案。

 

 

不过,数据显示,GPT-4表现出显著的飘移,从三月到六月,GPT-四是数学问题的准确性从97.6%下降到2.4%,同时答案长度也会下降90%以上。

 

 

但是在视觉推理方面,6月份的GPT-4在之前3月份正确回答的一些查询中出现了错误。也就是说,6月份不可能给出3月份正确结果的问题。

 

如今,相当多的程序员每天都在使用AI编写代码,但研究人员发现,3月份GPT-4输出代码的50%以上可以直接实现,但6月份这个数字只有10%。而且这还不是最夸张的,在回答敏感问题时,GPT-4的直接回答率从21%下降到5%。即使在拒绝回答不当问题时,6月份的GPT-4版本也侧重于不向用户提供解释。

 

 

一般来说,事物的发展通常呈螺旋状上升,在信息技术领域呈现出跳跃状态。“今天不如古代”的情况是独一无二的。那么问题来了。“科研靠考古”的可能性只有一种,那就是整个行业已经崩溃,现在还在重建。但是AI模型简单的前沿技术没有类似的问题,所以肯定很奇怪。

 

02

 

当前网络上最主流的声音,是ChatGPT、Bing Chat能力下降是平衡客户体验的结果。归根结底,ChatGPT生成内容需要消耗计算能力,客户需要的计算率越多,但是OpenAI、自半年以来,微软购买计算率资源的速度一直与用户增长不符,导致响应速度下降。客户要排队问这类产品,问题数量有限。所以在这种情况下,降低性能来平衡响应速度就是一种不难想到的解决办法。

 

当然,更深层次的核心矛盾是AI伦理问题,也就是几个月前引起了很多讨论的“AI可能会给人类带来灭绝风险”。对AI的焦虑甚至让OpenAI创始人奥特曼参加了美国参议院的听证会,这让他在过去的几个月里一直在世界各地“传道”。不受控制的人工智能将成为摧毁人类文明的罪魁祸首,这无疑是科幻小说的一个重要主题,因此自诞生以来,人工智能失控的焦虑就存在于这项技术中。

 

这也导致了一个控制AI的概念“AI对齐”,即AI系统的目标要与人类的价值观和利益对齐,这样才能满足设计师的利益预期,不会造成意想不到的有害后果,比如生成各种不当言论。事实上,微软和OpenAI公司不可避免地会进行AI对齐。例如,2016年微软发布的聊天机器人Tay发布了种族歧视内容,这直接导致其在开始工作之前死亡。

 

03

 

然而,强迫AI遵循人类的价值观是一件反直觉的事情。开发者需要指定正确的目标函数,以确定应该提供什么样的反馈来正确引导AI。

 

此外,我们甚至需要证明提供这些反馈是合理的,这无疑是目前难以解决的技术问题。那么问题来了。如果你想让一个人不去想,纠正他的思维方式,最直观的方法是什么?当然,诺贝尔奖中的黑历史前脑叶白质摘除术直接从物理上消除了人类的思维能力。

 

回到AI领域也是如此。微软研究所发表的一篇论文证实,任何AI对齐的AI模型都会失去它的准确性和性能。由于ChatGPT是基于人类反馈的增强学习来构建智能的产品,人工强制干预的AI对齐会阻碍大模型理解任务的真实水平。因此,自然,AI大模型的性能会出现开场即巅峰的情况。

 

但无论是计算率紧张还是AI伦理限制,短时间内几乎没有解决办法。所以客户体验高开低走是必然的,相关企业也不太可能处理这个问题。

 

本文来自微信微信官方账号“三易生活”(ID:IT-作者:三易菌,36氪经授权发布,3eLife)。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com