升级对标Sora, 腾讯混元开源文生图大模型

市界2024-05-14 18:55:37 105

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布。混元文生图包含了模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。

过去，视觉生成扩散模型主要基于的是U-Net架构，但随着参数量的提升，基于Transformer架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。

升级后的腾讯混元文生图大模型采用的是全新的DiT架构（DiT，即DiffusionWithTransformer），这也与此前OpenAI旗下的Sora和著名开源大模型平台Stability最新的文生图模型StableDiffusion3使用了同款架构和关键技术，是一种基于Transformer架构的扩散模型。

升级后的混元文生图大模型不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

中文原生也是此次腾讯混元文生图大模型的一大亮点。此前，StableDiffusion等主流开源模型核心数据集以英文为主。混元文生图则具备更强的中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

据了解，从2023年7月起，腾讯混元文生图团队便明确了基于DiT架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型全面升级为DiT架构，并对原有模型进行了改进：新一代DiT模型具备了更长的文本理解能力，支持最长256个字符（业界主流是77个）的图片生成指令。增加了中文原生的理解能力；并增加了多轮对话的能力。

据了解，目前腾讯已开源了超170个优质项目，均来源于腾讯真实业务场景，已覆盖了微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。（赵子坤/文李原/编辑）

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/509502.html

随机主题

上合外长会议召开，中方没与印外长对话，莫迪想在金砖“出风头”我国发布全球首个开源大规模片上互联网络 IP“温榆河”《狐妖小红娘月红篇》今日开播, 杨幂: 争取不让动漫粉失望 39秒71夺亚洲冠军! 中国短跑接力再创历史, 苏炳添队友们厉害了汉末争霸，曹操统一北方，谋略和实力很重要，逆天的运气也是关键！多名炫富网红被封, 向不良价值观亮剑 | 新京报社论高铁为什么能转弯? 看完一清二楚 15年攻关实现全人工繁殖探秘“水中大熊猫”川陕哲罗鲑黟县坚持“五个到位”抓好困难退役军人帮扶援助工作亚当·兰伯特的中国改造: 告别高跟鞋, 美甲, 欢迎甜心版张震岳!韩服又一顶尖玩法，连出6把锯齿短匕，每一刀都是真实伤害！你们觉得我这个车改成什么颜色比较适合？如果你们想洗车贴膜这些，这家店真的值得推荐你知道他是谁吗希望杨紫火到人尽皆知的时候同时也要平平安安卷价格, 卷新老车主权益, 纯电SUV铂智4X起步价14.98万元如何修改银行卡预留的手机号，不用去银行，在家用手机直接搞定！俄能源部: 俄罗斯4月产量因技术原因超过配额将提交补偿计划拜仁新帅只差官宣！38岁降级队教练登陆豪门，5大豪门拒绝穆里尼奥 “曼城太子爷——福登”3天内2度对美制裁, 中方气场很强大, 却为何只制裁卸任的美国政客英国政府意外宣布7月大选, 苏纳克目的何在?

最新回复(0)