在东说念主工智能本事赶快发展确当下,大言语模子在数学解题、代码生成等需要精确谜底的规模展现出惊东说念主智商。然则,一个看似矛盾的气候却困扰着征询东说念主员:当选拔强化学习步窥伺考模子时,天然单次复兴的准确率权臣提高,但允许模子屡次尝试复兴归拢问题时,全体到手率却出现赫然下滑。这种"越查考越不会重答"的悖论,犹如一位学生初次答题正确率提高,却在重考时进展更差,激勉了学界的凡俗暖热。 流程深刻探究,由INFLY TECH统一复旦大学、格里菲斯大学构成的征询团队发现,问题根源在于传统强化学习查考中使...
