GPT-4时变得更精确的要求批判它

尽管暂停6个月人工智能发展的可能性,GPT-4潜在重大进步和自我反省的使用技术称为“反射”。

这种技术允许GPT-4评价自己的表现,批评其答案和重写解决方案基于结果。研究人员已经使用这种技术来改善GPT-4的性能在不同的测试。

“这不是每天,人类开发新技术来实现最先进的标准使用决策过程一度被认为是人类独有的智慧,”研究人员写道诺亚希恩和Ashwin Gopinath。“但是,这正是我们所做的。”

在HumanEval测试,哪些特性164 Python编程GPT-4从未见过的问题,它的分数与反射技术从67%上升到88%。同样,在Alfworld测试,测试GPT-4做出决策的能力和解决多步任务在交互式环境中,它的分数从73%提高到97%,只有失败的134年的任务。

在HotPotQA测试,包括解析内容和推理几个支持文档,GPT-4最初精度34%。然而,使用反射技术,其精度提高至54%,表现优于原来的分数。

“LLM代理

装备LLM-based代理w /
动态内存
——反思的LLM
——检测方法的幻觉

挑战代理人从自己的错误中学习

评估知识密集型的任务
优于反应剂

论文:https://t.co/URsJWbkwmj pic.twitter.com/WfNcPQvIs6
约翰不(@johnjnay)2023年3月23日