当前位置：首页 > news >正文

TeleChat-52B-pt中文能力深度评测：在CMMLU和AGIEval上的领先表现

news 2026/7/22 4:59:35

TeleChat-52B-pt中文能力深度评测：在CMMLU和AGIEval上的领先表现

【免费下载链接】TeleChat-52B-pt项目地址: https://ai.gitcode.com/hf_mirrors/TeleAI/TeleChat-52B-pt

TeleChat-52B-pt（星辰大模型52B）是一款开源多语言大模型，其模型基座使用高质量中英文数据、更优数据配比，采用课程学习方式进行训练。该模型在中文能力评测中表现卓越，尤其在CMMLU和AGIEval等权威基准测试中展现出领先水平，与Qwen-72B-chat等知名模型可比，通用对话性能甚至超过GPT-3.5-Turbo。

中文能力评测基准介绍

CMMLU：全面的中文评估测试集

CMMLU数据集是一个全面的中文评估测试集，涵盖了从基础学科到高级专业水平的67个主题。它不仅考察模型的语言理解能力，还涉及广泛的知识领域，是衡量中文大模型综合能力的重要标准。

AGIEval：高难度标准化考试基准

AGIEval数据集专门为评估基础模型在难度较高的标准化考试（如大学入学考试、法学院入学考试、数学竞赛和律师资格考试）的语境中而设计，包含中文试题和英文试题。该基准能有效测试模型的高级推理和问题解决能力。

TeleChat-52B-pt在中文评测中的卓越表现

星辰52B模型相比同规模模型在评测效果方面表现出色，评测集涵盖了包括MMLU、AGIEval、CMMLU、GSM8K、MATH、HumanEval等数据集，全面评估了自然语言理解、知识、数学计算和推理、代码生成等能力。

核心中文能力评测结果

Model	CMMLU	AGIEval
5-shot	zero-shot
LLaMA-2-70B-Chat	43.3	37.9
Qwen-72B-chat	81.4	58.5
星辰52B-chat	73.79	61.1

从表格数据可以看出，TeleChat-52B-pt（星辰52B-chat）在AGIEval数据集上以61.1的分数超过了Qwen-72B-chat的58.5，展现出在高难度中文考试场景下的优异推理能力。在CMMLU数据集上，星辰52B-chat也取得了73.79的良好成绩，体现了其全面的中文知识掌握和理解能力。

整体能力评测表现

除了中文能力外，星辰52B-chat在其他评测维度也表现出色：

Model	MMLU	GSM8K	MATH	HumanEval	BBH	HellaSwag
5-shot	4-shot	4-shot	zero-shot	3-shot	zero-shot
星辰52B-chat	76.6	63.5	13.5	36.6	60.3	86.3

这些结果表明，TeleChat-52B-pt不仅在中文能力上表现突出，在多语言理解、数学推理和代码生成等方面也具备强大实力，是一款全面发展的大模型。

对话能力评测

为了评价模型的对话能力，研发团队建立了包含2500+单轮、多轮对话交互的内部评测系统，涵盖闲聊问答、专业知识、翻译、逻辑思维、长文写作、幻觉测试、安全测试、角色扮演、任务执行、数学能力等多个维度，并使用Judge模型基于详细的评价指标文档进行自动打分。

在当前评测数据上，星辰52B模型的综合平均得分为83.8，高于GPT-3.5-Turbo的82.3。这一结果表明，星辰52B模型能较好地支持下游任务应用，在实际对话场景中具有出色的表现。

模型结构与技术特点

TeleChat采用标准的Decoder-only结构，并在模型维度做了多项改进，这些技术创新为其卓越的中文能力提供了坚实基础：

位置编码：使用Rotary Embedding位置编码方法，将相对位置信息依赖集成到self-attention中，具有较好的位置外推性，并能与Flash-Attention v2配合使用，提升训练速度约20%。
激活函数：使用SwiGLU激活函数替代GELU激活函数。
层标准化：基于RMSNorm的Pre-Normalization。
词嵌入层与输出层解耦：将词嵌入层和输出lm head层参数分开，增强训练稳定性和收敛性。

模型具体参数如下：

layer_num	hidden_size	ffn_hidden_size	head_num	tie_word_embeddings
星辰52B	64	8192	21824	64	否

模型推理和部署

当前模型支持fp16精度推理，适配4卡40G A100进行推理。具体推理操作可参考项目中的infer.py文件，该文件包含单轮和多轮的推理示例。

如需使用TeleChat-52B-pt模型，可通过以下仓库地址获取：https://gitcode.com/hf_mirrors/TeleAI/TeleChat-52B-pt

总结

TeleChat-52B-pt（星辰大模型52B）在CMMLU和AGIEval等中文能力评测中展现出领先水平，特别是在高难度推理任务上表现突出。其全面的能力、优秀的对话性能以及创新的模型结构，使其成为中文大模型领域的重要参与者。无论是学术研究还是商业应用，TeleChat-52B-pt都具有广阔的应用前景。

我们相信，随着技术的不断迭代和优化，TeleChat系列模型将在中文理解和生成领域持续发挥重要作用，为用户提供更优质的AI服务。

【免费下载链接】TeleChat-52B-pt项目地址: https://ai.gitcode.com/hf_mirrors/TeleAI/TeleChat-52B-pt

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/927877/