MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5，核心能力接近 GPT-4

gate.io · 2年前 (2024-04-18)

4 月 17 日消息，国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型，核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。
abab 6.5 系列包含两个模型：abab 6.5 包含万亿参数，支持 200k tokens 的上下文长度；abab 6.5s 与 abab 6.5 使用了同样的训练技术和数据，但是更高效，支持 200k tokens 的上下文长度，可以 1 秒内处理近 3 万字的文本。
自一月发布国内首个基于 MoE 架构的 abab 6 模型后，MiniMax 通过改进模型架构，重构数据 pipeline，训练算法及并行训练策略优化等，在加速 Scaling Laws 过程上取得阶段性成果。（IT之家）

Gate.io - 芝麻交易所，又称芝麻开门交易所，是原比特儿交易所国际版本，是全球第二大交易所支持人民币OTC交易让财富更自由一点

鸿海刘扬伟：与英伟达在AI工厂、电动车的合作进展上半年就能看到

MiniMax 稀宇科技发布万亿参数 MoE 模型 abab 6.5，核心能力接近 GPT-4

上一篇

下一篇

发表评论

文章评论已关闭！

评论信息