一份关于生成性人工智能(gen AI)对不同类型评估影响的开创性新报告建议,应利用工具(如ChatGPT)的表现来改进和提高评估设计,而不是试图检测滥用行为。这项大规模调查由英国开放大学(OU)的研究人员与技术和职业教育的领导机构NCFE合作进行。研究人员分析了超过900份试卷,覆盖了17种不同类型的问题,发现生成性AI几乎在所有类型的评估中都能获得及格分数,有时甚至更高。

在较低级别(Level 3)的答案中表现优异,但随着评估难度增加到四、五、六级,其性能有所降低。研究还发现,以前用来检测抄袭的方法对AI无效,虽然培训评分者以提高检测能力确实增加了他们发现AI使用的能力,但也增加了误判率,即错误地将学生答案识别为AI生成。英国开放大学的经济学和个人财务高级讲师兼项目研究员Jonquil Lowe表示:“研究表明,试图检测生成性AI的滥用行为并不有效。

相反,我们对生成性AI的了解可以帮助我们设计更强大的问题和评分指导,重点是评估人类在任务中带来的附加价值。”这将我们从单纯测试知识,转向所谓的“真实评估”,它需要明确应用所学知识以得出具体结论和解决方案。”例如,更强大的“真实评估”问题是针对受众量身定制的,包括角色扮演问题,学生需要批判性思考并将所学知识应用于现实场景,以及基于工作实践的反思问题,前提是需要具体示例的证据。

报告总结,与其专注于不切实际且耗费大量制度资源的滥用检测,机构应该利用对生成性AI如何解决问题的理解来指导问题设计和评分指导,使学生必须完成生成性AI工具难以良好复制的任务。报告还强调了提高教学人员生成性AI使用技能的重要性,以帮助强化学生的学习技巧。NCFE评估创新经理Gray Mytton表示:“这份报告突显了在评估中检测生成性AI滥用的挑战,显示培训评分者识别AI生成内容会导致误判率增加。”

为应对此问题,教育者可以帮助学生发展学习技能,包括在适当情况下使用生成性AI,而像NCFE这样的评估机构可以专注于创建更真实的评估,这也将使学生在进入职场时受益。”英国开放大学项目的首席研究员、法律系高级讲师Liz Hardie表示:“我们感谢NCFE对这项研究的支持,并期待分享我们的发现。这项研究将支持高等教育机构思考如何在学习、教学和评估中采用AI启示的方法。”

这份报告由NCFE的评估创新基金提供资助。该基金于2021年启动,旨在提供基于证据的替代评估解决方案,其影响可以在实际生活中进行测试。到目前为止,已投资超过100万英镑用于各种创新项目。