ChatGPT只是通过考试放射板与飞行的颜色

在加拿大多伦多综合医院的研究者们最近进行了一项研究来评估ChatGPT的性能,会话聊天机器人由AI,回答问题类似放射学考试中找到。

这项研究旨在评估ChatGPT准确理解和反应能力的低阶和高阶问题。这项研究的结果发表在杂志上放射学的优点和缺点,阐明聊天机器人。

ChatGPT获得关注的令人印象深刻的信息理解和query-solving功能。在之前的测试中,它成功地解决考试像美国行医执照考试和沃顿商学院MBA考试。越来越多地使用在各种行业,多伦多大学的研究人员医学影像决定调查潜在的放射学。

150 -问题试验研究人员设计了一个类似的考试由放射学董事会在加拿大和美国,以适应ChatGPT处理图像输入的局限性,只提供基于文本的问题。这些问题被分为低阶,关注知识回忆和基本的了解,和高阶,需要应用程序,分析和综合的信息。

GPT的两个版本,包括老GPT 3.5和新的GPT-4,评估使用同样的问题组比较他们的性能。ChatGPT由GPT 3.5得分的69%,在低阶问题准确率为84%,但是在高阶问题,管理只有60%的准确率。

GPT-4 2023年3月发布后,研究人员测试ChatGPT使用改进后的版本。GPT-4-powered ChatGPT得分81%,正确回答121的150的问题。令人印象深刻的是,GPT-4展示了卓越的推理能力得分81%高阶问题,由OpenAI声称。然而,聊天机器人的性能在低阶问题研究人员感到惊讶。