近日,复旦大学NLP(当然言语照顾)施行室LLMEVAL团队发布了2024年高考数学大模子评测的着力。在此次评测中,阿里千问和讯飞星火辞别得回了2024高考数学新I卷的第又名和第二名,以及高考数学新II卷的第二名和第又名,两份考卷的评测中,GPT-4o均列第三名。
复旦NLP团队合计,全新出炉的高平稳题具备高度的始创性和守秘性,是用来评测大模子的绝好评测集聚。在新Ⅰ卷中,阿里千问和讯飞星火对14说念数学客不雅题的准确率达到70%以上,大幅最初GPT-4o的57%,字节豆包、智谱清言、百川等大模子紧随自后,准确率卓绝50%,百度文心一言、腾讯元宝、Kimi等大模子准确率较低。而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均卓绝60%,其他大模子的差距较小,除百川、DeepSeek和海螺除外,准确率均在50%以上。
数学才能是GPT-4o一直以来引以为傲的才能模块,OpenAI在5月14日的发布会上推出大言语模子GPT-4o时,曾要点演示其数学才能。
在现场演示中,GPT-4o应用其及时的图像识别和语音才能进行在线教学。从评测着力不错看出,阿里千问和讯飞星火对数知识题的深远相连和分析才能还是卓绝GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友暗示,作念数学题毕竟照旧咱中国东说念主的特长。
以阿里千问和讯飞星火为代表,国产东说念主工智能大模子在数学限制的出色才能,为夙昔东说念主工智能技艺在阐述限制的应用提供了有劲扶助。