腾讯在3月21日深夜宣布推出基于混合Mamba - Transformer架构的超大型推理模型“混元T1”正式版,并在腾讯云官网上线的消息。介绍了该模型的前身、技术特点、性能表现、价格情况以及未来的开放方向等内容。
3月22日消息,就在昨晚夜深人静之时,腾讯突然宣布一项重大消息——基于混合Mamba - Transformer架构打造的超大型推理模型“混元T1”正式版重磅推出,并且已经在腾讯云官网上线,正式与广大用户见面。
“混元T1”可是腾讯自主研发的强推理模型。它有着自己独特的发展历程,其前身是早在今年2月中旬就在腾讯元宝APP上线的T1 - Preview(Hunyuan - Thinker - 1 - Preview),经过不断的优化和打磨,才有了如今正式版的惊艳亮相。
从技术层面来看,“混元T1”充分融合了Mamba在长序列处理方面的显著优势以及Transformer在复杂上下文捕捉上的强大能力。这种巧妙的结合,使得模型在运行过程中大大降低了推理成本,同时也减少了KV - Cache的占用。虽然腾讯并没有披露更多详细的技术细节,不过Mamba - 2的研究成果给我们透露了一些信息,研究表明Transformer中的注意力机制与SSM(结构化状态空间模型)之间存在着数学联系,而这也为“混元T1”这种融合模式的成功实现奠定了坚实的基础。
在性能表现上,“混元T1”有着出色的表现。它的吐字速度能够达到60~80 token/s,在生成效果方面远远快于DeepSeek R1,能够在更短的时间内为用户提供所需的内容。
此外,腾讯还透露,“混元T1”在多个公开数据集上的表现相当亮眼,与DeepSeek R1和OpenAI o1相比,可谓是旗鼓相当甚至略胜一筹。在MMLU - pro、CEval、AIME和Zebra Logic等中英文知识和竞赛级数学、逻辑推理测试中,“混元T1”已经成功跻身顶级大模型的行列。值得一提的是,它的基础模型Turbo S更是在全球大模型竞技场中进入了TOP 15,展现出了强大的实力。
目前,“混元T1”正式版已经在腾讯云面向API用户开放了。其输入价格为1元/百万tokens,输出价格为4元/百万tokens,这样的价格约为DeepSeek R1标准时段价格的四分之一,几乎接近DeepSeek R1优惠时段的水平,具有很高的性价比。
对于未来的发展,腾讯表示,“混元T1”可能会更多地通过元宝和其他自家业务向C端用户开放,让更多的普通用户能够体验到这款强大模型带来的便利。
腾讯于3月21日深夜推出“混元T1”正式版并在腾讯云上线。该模型是腾讯自研,结合了Mamba和Transformer优势,降低推理成本。其吐字速度快,在多个公开数据集测试中表现优异,基础模型进入全球大模型TOP 15。它已面向API用户开放,价格实惠,未来可能通过自家业务向C端开放。
原创文章,作者:maureen,如若转载,请注明出处:https://www.kqbond.com/archives/2756.html