据量子位报道,来自微软亚洲研究院(MSRA)的学者在“Retentive Network: A Successor to Transformer for Large Language Models”论文中提出新的大模型架构 Retentive Network(RetNet),这被视作大模型领域 Transformer 的继任者。实验数据显示,在语言建模任务上:RetNet 可以达到与 Transformer 相当的困惑度(perplexity),推理速度达 8.4 倍,内存占用减少 70%,具有良好的扩展性。并且当模型大小大于一定规模时,RetNet 表现会优于 Transformer。
Gate.io - 芝麻交易所,又称芝麻开门交易所,是原比特儿交易所国际版本,是全球第二大交易所 支持人民币OTC交易 让财富更自由一点
文章采集自互联网,本站不对其真实性负责,如需删除,请发送链接至oem1012@qq.com
发表评论
电子邮件地址不会被公开。 必填项已用*标注
文章评论已关闭!