雅加达 -ChatGPT o3和o4-mini是OpenAI最新的人工智能(AI)模型。虽然它们被认为是最先进的点球模型,但它们两者都比其他OpenAI模型更频繁地被分析。
清真化是AI开发人员(包括OpenAI)避免的疾病之一。当您遇到这种情况时,AI模型往往会随意进行,而不是提供正确的响应,并符合用户的需要。
到目前为止,幻觉仍然是人工智能面临的最大挑战,因为它对其系统和车型性能有直接影响。虽然大多数AI型号已经成功克服了这个问题,但OpenAI的o3和o4-mini未能做到这一点。
根据OpenAI内部测试的结果,这两种点球模型比o1,o1-mini和o3-mini更频繁。与OpenAI非点球模型相比,GPT-4o实际上具有更好的测试结果。
相当令人担忧的是,OpenAI并不知道为什么o3和o4-mini经常是光滑的。该公司指出,他们“需要更多的锻炼”,以找出微妙的原因。
OpenAI测试的结果显示,在公司可靠基准PersonQA上回答问题时,o3分数为33%。与此同时,o4-mini基准百分比较差,为48%。
这种幻觉比以前的点球模型要糟糕得多。原因是,o1和o3-mini在基准测试中分别只获得16%和14.8%的分数。它是o3和o4-mini型号的两倍。
TechCrunch 援引Transluce 测试的结果也显示出类似于OpenAI测试的结果。非营利AI研究实验室发现,o3 经常编制操作以向用户提供答案。
「我们的推断是,用于系列O模型的加固学习类型可以加强标准培训后路径通常克服(但未完全删除)的问题,”Transluce研究员兼前OpenAI员工Neil Chowdhury说。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)