中国电信发布“复杂推理大模型”,数学基准评测超越GPT-4o
1月25日消息,中国电信人工智能研究院(TeleAI)“复杂推理大模型”TeleAI-t1-preview近日正式发布。TeleAI-t1-preview使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。在美国数学竞赛AIME 2024、MATH500两项权威数学基准评测中,TeleAI-t1-preview分别以60和93.8分的成绩,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在研究生级别问答测试GPQA Diamond中,TeleAI-t1-preview得分超过 GPT-4o,并比肩Claude 3.5 Sonnet的性能水准。
相关内容