阿里开源千亿参数模型 Qwen1.5-110B

新闻3周前发布 Fanly
310 0 0

阿里巴巴最近宣布开源了 Qwen1.5 系列中的首个千亿参数模型:Qwen1.5-110B。这款模型在基础能力和 Chat 评估中表现出色,与 Meta 旗下的 Llama3-70B 模型相媲美,并且在多个基准测评中展现出卓越性能。

阿里开源千亿参数模型 Qwen1.5-110B

1. 模型特点

Qwen1.5-110B 采用了与其他 Qwen1.5 模型相同的 Transformer 解码器架构,并引入了分组查询注意力(GQA)机制,这使得模型在推理时更加高效。该模型支持高达 32K 令牌的上下文长度,同时仍然支持多种语言,包括英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语等。

2. 性能评估

在基础能力的评估测试中,Qwen1.5-110B 的表现足以媲美 meta 旗下的 Llama3-70B 模型。而在 Chat 评估中,相比于之前发布的 72B 模型,110B 模型在这两个 Chat 模型基准评估中的表现显著更佳。这表明即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的 Chat 模型性能。

3. 模型开源的意义

Qwen1.5-110B 不仅是 Qwen1.5 系列中规模最大的模型,更是该系列首个参数超过 1000 亿的模型。它的开源不仅彰显了阿里巴巴在人工智能领域的创新实力,也标志着中国企业在大型语言模型领域取得了显著进展。此外,Qwen1.5-110B 的开源也为其他开发者和研究者提供了研究和使用的平台,有助于推动人工智能技术的发展和应用。

4. 模型的未来发展

随着 Qwen1.5-110B 的开源,通义千问团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。这表明阿里巴巴在未来可能会推出更多更大规模的 AI 模型,以满足不断增长的 AI 需求和技术发展的挑战。

© 版权声明

相关文章