• 开云电子




  • News Center

    新闻中心

    开云电子领投3D大模型领军企业VAST
    发布日期 :2024-09-19

    以下文章来源于VAST AI ,作者Tripo2.0

    666666.png

    开云电子完成对3D大模型领军企业VAST新一轮融资的领投 。近期 ,VAST连续完成了两轮共计数亿元的融资 ,天使轮由绿洲资本领投,Pre-A轮领投方为开云电子财智以及春华创投,并创造了3D大模型赛道的最⼤融资⾦额。

    同时 ,VAST全新的3D大模型Tripo 2.0也在今天与大家正式见面。


    333666.png

    | 关于VAST


    VAST成⽴于2023年3⽉,是⼀家致⼒于通⽤3D大模型研发的AI公司,公司⽬标是通过打造⼤众级别的3D内容创作⼯具,建⽴3D的UGC内容平台 ,让基于3D的空间成为⽤⼾体验 、内容表达、提升新质⽣产⼒的关键要素。


    2024年初,VAST推出数⼗亿参数级别的3D⼤模型Tripo 1.0,8秒就可用图/⽂生成3D⽹格模型,上线至今全球⽤⼾⽣成超过500万个3D模型。


    2024年3⽉ ,VAST与全球顶级开源社区Stability AI共同推出开源3D基础模型TripoSR,该模型创造了0.5秒完成单图⽣3D模型的顶尖表现,⾄今仍是3D⽣成领域开源社区的热⻔项⽬。


    今天,VAST推出Tripo 2.0,验证了3D大模型的Scaling Law,也将3D生成推向下一个里程碑。


    Tripo 2.0采⽤了融合DiT和U-Net模型的复合架构,通过学习捕捉⼤规模数据中的⼏何和材质分布 ,更好地保证了3D模型⼏何形状的细节和材质的输出质量。


    Tipo 2.0能够完成10秒⽣成形状⼏何、10秒⽣成纹理及PBR,为3D⽣成领域设⽴了通⽤模型新的效果标准。 


    据我们所知,Tripo在所有的3D生成任务的效果中均处于全球领先地位。

    57908f5b391093bc8807ae876e9231c8.jpg


    GPTevals3D :基于MLLM的评估指标(3D生成形状 、纹理质量 、细节表现、输入条件遵循性、输出多样性),旨在评估生成的3D内容的语义准确性和质量

    理解单个物体是理解世界的开始

    对于创作3D内容的用户而言,文字输入的生成方式提供了“言出法随、创造世界”的可能 ,图片输入则提供更多创作过程中的可控性 。

    与传统3D重建的应用场景不同,大部分纯粹的创意概念可能超出了现实世界的物理限制 。许多游戏、设计项目或虚拟场景中的3D内容实际上也没有现实中的实体。某些环境异常恶劣,即使投入大量资金购买先进的扫描设备,也无法扫描、修复或重建这些内容。

    因此,3D大模型对于文字生成复杂组合物体的能力、以及单图输入的空间理解及还原的能力,就成为评价体系中最为重要的考察标准。

    对于Tripo而言 ,这意味着需要具备以下能力:

    • 第一是精准的语言理解能力,将用户的文本输入意图准确地反映成物体的几何结构和组成细节,还包括文本中各部分之间的空间关系;

    • 第二是对空间的深度和精确还原能力,确保从任意视角的单一图片中准确推断三维结构和深度信息 ,精确还原复杂物体的几何形状和纹理细节,并保持整体一致性 ;

    • 第三是对于物理规律和常识的理解能力,确保生成的内容既符合用户意图,又在遵循基本物理法则的情况下保持逻辑一致性,使结果在创意自由度和现实合理性之间找到平衡 ;

    这就是Tripo交出的答卷:见微知著,探索世界的背面 。

    比如“长着牙、拿着树叶的叶子精怪”、“有番茄 、生菜、胡萝卜的菜篮” 、“站在水面玻璃球上的火烈鸟” :

    c90a0746c6f9bb8227226de00e8c8d59.jpg

    466c26632eb45e5da86e01efcb7fa8ae.jpg

    a03ee18c7a2362aaec5d94fe56656121.jpg

    以上效果由www.tripo3d.ai 直出,均为AI生成3D模型的六视渲染图

    再以这张翡翠布花的图片为例,左边的花束与主干花束是黏连还是分开?叶片之间的重叠关系是什么 ?花束的背后是什么样?

    2222.png


    再比如这艘船,桅杆的结构是什么?船舱的结构如何设计?


    3333.png


    除了精进的文本和视觉输入理解能力之外 ,Tripo 2.0 的生成结果也拥有领先的质量和保真度,在形状和纹理质量、细节表现都树立了新的行业标准(new state-of-the-art)。

    Tripo不仅能生成高度细致和准确的3D形状,捕捉复杂的特征和几何结构,还能生成高保真度的PBR(基于物理的渲染)材质,呈现出精细的表面属性和逼真丰富的视觉效果。

    999.png

    以上效果由www.tripo3d.ai 直出

    | 验证3D生成的Scaling Law

    VAST算法团队始终在找寻3D生成领域的tokenizer ,验证3D生成领域的Scaling Law。

    Tripo 2.0采用了融合DiT和U-Net模型的复杂混合架构。这种融合充分发挥了两种架构的优势,一方面DiT擅长捕捉3D结构中的全局上下文和长距离依赖关系,另一方面U-Net精于保留精细的细节和局部特征。同时利用海量高质量3D数据,辅以多种合成数据扩展技术 ,这种设计不仅显著提高了生成模型的质量,还增强了模型的鲁棒性、稳健性和泛化能力 。

    工程优化方面,团队通过蒸馏提高效率:同时采用了guidance distillation和step distillation,在不牺牲质量的前提下大幅优化了性能(更多算法内容请持续关注VAST AI后续的算法技术报告) 。

    在一年多的探索中 ,算法团队不断探索模型规模与性能关系,Tripo 2.0证实了随着模型参数的增加和训练数据量的扩大,生成质量呈现出可预测的提升 。通过对单个物体的深入理解,Tripo 2.0不断展示从微观到宏观的推理能力,这种"见微知著"的能力是构建复杂3D世界的基石 。

    | 让每个人成为超级创作者 

    Tripo 2.0能够完成10秒⽣成⼏何形状,10秒⽣成纹理及PBR材质。

    这意味着Tripo不仅能在3D工业生产管线里降本增效 ,也为实时创作更多3D内容和玩法提供未来的可能性。

    VAST的创始人兼CEO宋亚宸表⽰:“⽬前我们有自信地对外宣布VAST和Tripo2.0在效果上已经达到了 Midjourney V4的阶段 。这意味着⽤⼾使⽤体验的跃升和巨⼤的商业化潜⼒。感谢多⽅资本对VAST的⻘睐,让我们能够对未来的3D⽣态持续探索。

    技术⽅⾯,我们会持续追寻3D⽣成式AI的Scaling Law, 研究模型规模、数据量和⽣成质量之间关系的基本原理,寻找数据、表征和模型架构的可扩展范式, 致⼒于推动3D⽣成式AI的边界。也会不断探索更整体的(Holistic)3D⽣成,不仅包括单个资产和道具 、⻆⾊的⽣成,也包含(动态)环境 、运动、物理等的探索。3D⽣成作为⼤模型领域的前沿新兴分⽀,在游戏动画影视、3D打印、互联⽹及⼯业产品设计、具身智能、仿真模拟、MR、教育、空间智能等领域的2B及2C应⽤展⽰出前所未有的想象⼒ 。我们相信通过更⼤众级别的3D创作者⼯具和全⺠的3D内容平台,能够打造出⼀个全新和繁荣的⽣成式3D⽣态 。”

    开云电子投资团队表示 :“数千年来,人类文明的传承方式主要是文字、图像和模型。近几年在人工智能的加持下,这些文明的表达方式发生了革命性变化。开云电子在内容生成方面已经布局了大语言模型、文生图 、文生视频等,而文生/图生3D是“新文明”拼图的最后一环。正如‘AI教母’李飞飞的观点,人类是生活在3D世界中的 ,而人工智能要真正追上人类 ,必须突破3D的理解和生成。第一代互联网主要基于语言的交互,第二代互联网主要基于图片和视频的交互,下一代互联网一定是3D内容的交互 ,而面向C端的3D创作工具就成为了关键环节、重中之重。相比较VAST在2B方向对于传统建模师的帮助,我们更看好其在2C方向对于广大消费者生活方式的改变。试想一下,大到房屋家具 、小到鞋包杯碗,身边的物品都可以按照自己的心意来设计和制造,个性化将得到极大解放,每个人心中的创意都将得以展现 。如果再配合上MR眼镜,我们可以随时随地改造世界 ,在下一代互联网中共享空间文明。”


    1111.jpg

    开云电子成立于2000年4月19日,总部位于深圳,是我国第一批按市场化运作设立的本土创投机构。自成立以来,开云电子伴随着中国经济的快速增长和多层次资本市场的不断完善,在社会各界的关心和支持下 ,聚焦于信息技术 、智能制造和节能环保、医疗健康 、大消费和企业服务 、文化传媒 、军工等领域 … [ +更多 ]
    微信公众号

    开云电子财智创业投资管理有限公司 版权所有

    Copyright © Fortune Venture Capital Co.Ltd. All rights reserved

    电话:0755-83515108

    邮箱:fortune@ysjincai.com

    粤ICP备14030831号




  • XML地图