开云电子领投3D大模型领军企业VAST

发布日期：2024-09-19

以下文章来源于VAST AI ，作者Tripo2.0

开云电子完成对3D大模型领军企业VAST新一轮融资的领投。近期，VAST连续完成了两轮共计数亿元的融资，天使轮由绿洲资本领投，Pre-A轮领投方为开云电子财智以及春华创投，并创造了3D大模型赛道的最⼤融资⾦额。

同时，VAST全新的3D大模型Tripo 2.0也在今天与大家正式见面。

| 关于VAST

VAST成⽴于2023年3⽉，是⼀家致⼒于通⽤3D大模型研发的AI公司，公司⽬标是通过打造⼤众级别的3D内容创作⼯具，建⽴3D的UGC内容平台，让基于3D的空间成为⽤⼾体验、内容表达、提升新质⽣产⼒的关键要素。

2024年初，VAST推出数⼗亿参数级别的3D⼤模型Tripo 1.0，8秒就可用图/⽂生成3D⽹格模型，上线至今全球⽤⼾⽣成超过500万个3D模型。

2024年3⽉，VAST与全球顶级开源社区Stability AI共同推出开源3D基础模型TripoSR，该模型创造了0.5秒完成单图⽣3D模型的顶尖表现，⾄今仍是3D⽣成领域开源社区的热⻔项⽬。

今天，VAST推出Tripo 2.0，验证了3D大模型的Scaling Law，也将3D生成推向下一个里程碑。

Tripo 2.0采⽤了融合DiT和U-Net模型的复合架构，通过学习捕捉⼤规模数据中的⼏何和材质分布，更好地保证了3D模型⼏何形状的细节和材质的输出质量。

Tipo 2.0能够完成10秒⽣成形状⼏何、10秒⽣成纹理及PBR，为3D⽣成领域设⽴了通⽤模型新的效果标准。

据我们所知，Tripo在所有的3D生成任务的效果中均处于全球领先地位。

GPTevals3D：基于MLLM的评估指标（3D生成形状、纹理质量、细节表现、输入条件遵循性、输出多样性），旨在评估生成的3D内容的语义准确性和质量

| 理解单个物体是理解世界的开始

对于创作3D内容的用户而言，文字输入的生成方式提供了“言出法随、创造世界”的可能，图片输入则提供更多创作过程中的可控性的。

与传统3D重建的应用场景不同，大部分纯粹的创意概念可能超出了现实世界的物理限制。许多游戏、设计项目或虚拟场景中的3D内容实际上也没有现实中的实体。某些环境异常恶劣，即使投入大量资金购买先进的扫描设备，也无法扫描、修复或重建这些内容。

因此，3D大模型对于文字生成复杂组合物体的能力、以及单图输入的空间理解及还原的能力，就成为评价体系中最为重要的考察标准。

对于Tripo而言，这意味着需要具备以下能力：

第一是精准的语言理解能力，将用户的文本输入意图准确地反映成物体的几何结构和组成细节，还包括文本中各部分之间的空间关系；
第二是对空间的深度和精确还原能力，确保从任意视角的单一图片中准确推断三维结构和深度信息，精确还原复杂物体的几何形状和纹理细节，并保持整体一致性；
第三是对于物理规律和常识的理解能力，确保生成的内容既符合用户意图，又在遵循基本物理法则的情况下保持逻辑一致性，使结果在创意自由度和现实合理性之间找到平衡；

这就是Tripo交出的答卷：见微知著，探索世界的背面。

比如“长着牙、拿着树叶的叶子精怪”、“有番茄、生菜、胡萝卜的菜篮”、“站在水面玻璃球上的火烈鸟”：

以上效果由www.tripo3d.ai 直出，均为AI生成3D模型的六视渲染图

再以这张翡翠布花的图片为例，左边的花束与主干花束是黏连还是分开？叶片之间的重叠关系是什么？花束的背后是什么样？

再比如这艘船，桅杆的结构是什么？船舱的结构如何设计？

除了精进的文本和视觉输入理解能力之外，Tripo 2.0 的生成结果也拥有领先的质量和保真度，在形状和纹理质量、细节表现都树立了新的行业标准（new state-of-the-art）。

Tripo不仅能生成高度细致和准确的3D形状，捕捉复杂的特征和几何结构，还能生成高保真度的PBR（基于物理的渲染）材质，呈现出精细的表面属性和逼真丰富的视觉效果。

以上效果由www.tripo3d.ai 直出

| 验证3D生成的Scaling Law

VAST算法团队始终在找寻3D生成领域的tokenizer，验证3D生成领域的Scaling Law。

Tripo 2.0采用了融合DiT和U-Net模型的复杂混合架构。这种融合充分发挥了两种架构的优势，一方面DiT擅长捕捉3D结构中的全局上下文和长距离依赖关系，另一方面U-Net精于保留精细的细节和局部特征。同时利用海量高质量3D数据，辅以多种合成数据扩展技术，这种设计不仅显著提高了生成模型的质量，还增强了模型的鲁棒性、稳健性和泛化能力。

工程优化方面，团队通过蒸馏提高效率：同时采用了guidance distillation和step distillation，在不牺牲质量的前提下大幅优化了性能（更多算法内容请持续关注VAST AI后续的算法技术报告）。

在一年多的探索中，算法团队不断探索模型规模与性能关系，Tripo 2.0证实了随着模型参数的增加和训练数据量的扩大，生成质量呈现出可预测的提升。通过对单个物体的深入理解，Tripo 2.0不断展示从微观到宏观的推理能力，这种"见微知著"的能力是构建复杂3D世界的基石。

| 让每个人成为超级创作者

Tripo 2.0能够完成10秒⽣成⼏何形状，10秒⽣成纹理及PBR材质。

这意味着Tripo不仅能在3D工业生产管线里降本增效，也为实时创作更多3D内容和玩法提供未来的可能性。

VAST的创始人兼CEO宋亚宸表⽰：“⽬前我们有自信地对外宣布VAST和Tripo2.0在效果上已经达到了 Midjourney V4的阶段。这意味着⽤⼾使⽤体验的跃升和巨⼤的商业化潜⼒。感谢多⽅资本对VAST的⻘睐，让我们能够对未来的3D⽣态持续探索。

技术⽅⾯，我们会持续追寻3D⽣成式AI的Scaling Law，研究模型规模、数据量和⽣成质量之间关系的基本原理，寻找数据、表征和模型架构的可扩展范式，致⼒于推动3D⽣成式AI的边界。也会不断探索更整体的（Holistic）3D⽣成，不仅包括单个资产和道具、⻆⾊的⽣成，也包含（动态）环境、运动、物理等的探索。3D⽣成作为⼤模型领域的前沿新兴分⽀，在游戏动画影视、3D打印、互联⽹及⼯业产品设计、具身智能、仿真模拟、MR、教育、空间智能等领域的2B及2C应⽤展⽰出前所未有的想象⼒。我们相信通过更⼤众级别的3D创作者⼯具和全⺠的3D内容平台，能够打造出⼀个全新和繁荣的⽣成式3D⽣态。”

开云电子投资团队表示：“数千年来，人类文明的传承方式主要是文字、图像和模型。近几年在人工智能的加持下，这些文明的表达方式发生了革命性变化。开云电子在内容生成方面已经布局了大语言模型、文生图、文生视频等，而文生/图生3D是“新文明”拼图的最后一环。正如‘AI教母’李飞飞的观点，人类是生活在3D世界中的，而人工智能要真正追上人类，必须突破3D的理解和生成。第一代互联网主要基于语言的交互，第二代互联网主要基于图片和视频的交互，下一代互联网一定是3D内容的交互，而面向C端的3D创作工具就成为了关键环节、重中之重。相比较VAST在2B方向对于传统建模师的帮助，我们更看好其在2C方向对于广大消费者生活方式的改变。试想一下，大到房屋家具、小到鞋包杯碗，身边的物品都可以按照自己的心意来设计和制造，个性化将得到极大解放，每个人心中的创意都将得以展现。如果再配合上MR眼镜，我们可以随时随地改造世界，在下一代互联网中共享空间文明。”

开云电子

新闻中心