据《都市快报》消息,阿里达摩院昨日在魔搭社区(ModelScope)放出了“文本生成视频大模型”。根据官方介绍,目前这个模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿。支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
Gate.io - 芝麻交易所,又称芝麻开门交易所,是原比特儿交易所国际版本,是全球第二大交易所 支持人民币OTC交易 让财富更自由一点
文章采集自互联网,本站不对其真实性负责,如需删除,请发送链接至oem1012@qq.com
发表评论
电子邮件地址不会被公开。 必填项已用*标注
文章评论已关闭!