腾讯混元大模型出大招! Sora同架构, 免费全面开源!

南方+客户端2024-05-14 17:25:22 62

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。基于腾讯此次开源的文生图模型，开发者及企业无需重头训练，即可直接用于推理，并可基于混元文生图打造专属的AI绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也让模型的安全性和可靠性得到保障。同时，基于开放、前沿的混元文生图基础模型，也有利于在以StableDiffusion等为主的英文开源社区之外，丰富以中文为主的文生图开源生态，形成更多样的原生插件，推动中文文生图技术研发和应用。

据介绍，这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。资料显示，DiT架构是一种基于Transformer的图像生成模型，用于处理文档图像的去噪和增强。DiT将输入的文档图像切分成多个块，并通过线性映射和位置嵌入得到一个块序列。然后，DiT使用多头注意力的Transformer块对块序列进行编码和解码，得到每个块的表征。最后，DiT将块表征重组成输出的图像。升级后的混元文生图大模型采用了与sora一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

在业内人士看来，大模型的优异表现，离不开领先的技术架构。过去，视觉生成扩散模型主要基于U-Net架构，但随着参数量的提升，基于Transformer架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合DiT结构的文生图模型之一。从2023年7月起，腾讯混元文生图团队就明确了基于DiT架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为DiT架构。

在DiT架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多256字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

此外，中文原生也是腾讯混元文生图大模型的一大亮点，此前，像StableDiffusion等主流开源模型核心数据集以英文为主，对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

评测结果显示，新一代腾讯混元文生图大模型视觉生成整体效果，相比前代提升超过20%，在语义理解、画面质感与真实性方面全面提升，在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

腾讯方面透露，腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式AI广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。《央视新闻》《新华日报》《深圳特区报》《南方都市报》《羊城晚报》等20余家媒体，也已经将腾讯混元文生图用于新闻内容生产。

腾讯文生图负责人芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业加速发展。”

[采写]南方+记者叶丹

[视频]南方+记者王俊涛周鑫宇

[作者]叶丹；周鑫宇；王俊涛

[来源]南方报业传媒集团南方+客户端

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/505666.html

随机主题

超美小直屏! OPPOReno12首发天玑8250, 台积电4纳米陈建斌老婆新加坡度假, 48岁蒋勤勤坐街边啃螃蟹, 素颜没人认识参展机构增加2419家! 几组数据看深圳文博会蓬勃生机迎接比糖果更甜的笑 6岁新疆女孩来浙修复唇腭裂父亲是非洲人, 他却入选了中国男篮, 和肤白貌美的女友是青梅竹马 S36赛季更新确定, 玄策白虎志返场, 168碎片换传说皮肤!五款车选谁毛病少? 星瑞、思域、凌度、艾瑞泽8、朗逸故障率横比配角锦上添花! 《庆余年2》口碑回暖! 6位不知名的配角, 你认识几个体检报告送上门真情服务暖人心星途凌云w者版领衔 20万以内四款质价比超高的SUV 红米Turbo3直降300元？1699告诉你什么叫“生死看淡，不服就干”美国移民局公布H1B最新数据, 留学生的移民途径不该只有一条京东推京八条严抓考勤鼓励举报摸鱼, 打工人哭了前总监: 拜仁结构混乱始于8000万签卢卡斯, 现队中太多高薪平庸者全新瑞虎7到店实拍：一口价不到7万，实力到底如何？董军会见南非海军司令出口超1000万美元！长兴这家企业忙飞了谋财害命! 英国购买美国血制品, 3万人感染疾病, 英首相含泪道歉低配渡江芙蓉枪! 平民玩家的不二选择!沃尔沃两款新车售价曝光! 贴牌极星徽章, 2.0T+电机, 心动吗你的第一把全铝客制化键盘只需要三百多的玄派PD75mV2首发套件

最新回复(0)