英特尔研究院发布新扩散模型LDM3D 利用生成式AI创建360度全景图-东辰网

英特尔研究院宣布与Blockade Labs合作发布LDM3D（3D潜在扩散模型）模型，这是一种使用生成式AI创建3D视觉内容的新扩散模型。 LDM3D 是业界领先的模型，它使用扩散过程生成深度图，从而生成逼真且身临其境的360 度全景图。 LDM3D 有望彻底改变内容创建、元宇宙应用和数字体验，从而改变娱乐、游戏、建筑和设计等许多行业。

英特尔研究院人工智能和机器学习研究专家Vasudev Lal 表示：“生成式AI 技术旨在增强和增强人类创造力并节省时间。然而，当前大多数生成式AI 模型仅限于生成2D 图像，只有少数可以根据文本提示生成3D 图像。与现有的潜在扩散模型不同，LDM3D 可以同时根据用户给定的文本提示生成图像和深度图，同时使用几乎相同数量的参数。与标准后处理方法相比，类似于深度估计， LDM3D可以为图像中的每个像素提供更准确的相对深度，并为开发人员节省大量场景开发时间。”

封闭的生态系统限制了规模。英特尔致力于推动人工智能真正普及，通过开放的生态系统让更多人从这项技术中受益。近年来，计算机视觉领域取得了重大进展，特别是在生成式人工智能方面。然而，当今许多先进的生成式人工智能模型只能生成2D 图像。与通常只能根据文本提示生成2D RGB 图像的现有扩散模型不同，LDM3D 可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比，LDM3D 可以为图像中的每个像素提供更准确的信息，同时使用与潜在扩散模型Stable Diffusion 几乎相同数量的参数。相对深度。

这项研究有可能改变我们与数字内容交互的方式，为用户提供基于文本提示的全新体验。 LDM3D 生成的图像和深度图能够将宁静的热带海滩、摩天大楼和科幻宇宙等文本描述转换为详细的360 度全景图。 LDM3D捕捉深度信息的能力可以瞬间增强整体的真实感和沉浸感，从而实现各个行业的创新应用，包括娱乐、游戏、室内设计、房地产销售以及虚拟博物馆和沉浸式VR体验。

6月20日，在IEEE/CVF计算机视觉与模式识别会议（CVPR）3DMV研讨会上，LDM3D模型荣获“最佳海报奖”

英特尔研究院发布新扩散模型LDM3D 利用生成式AI创建360度全景图

LDM3D 在包含10,000 个样本的LAION-400M 数据集的子集上进行训练。 LAION-400M是一个大规模的文本-文本数据集，包含超过4亿个文本-文本对。在对训练语料进行注释时，研究团队使用了DPT-Large，这是英特尔研究院之前开发的密集深度估计模型，它可以为图像中的每个像素提供高度准确的相对深度。 LAION-400M 数据集是出于研究目的而创建的，以便研究人员和其他感兴趣的社区可以更大规模地测试模型训练。

LDM3D 模型在搭载英特尔至强处理器和英特尔 Habana Gaudi AI 加速器的英特尔AI 超级计算机上进行训练。最终的模型和管道集成了RGB 图像和深度图，以生成360 度全景图，带来身临其境的体验。

为了展示LDM3D 的潜力，英特尔和Blockade 研究人员开发了应用程序DepthFusion，利用标准2D RGB 图像和深度图创建身临其境的交互式360 度全景体验。 DepthFusion 利用TouchDesigner，这是一种基于节点的可视化编程语言，用于实时交互式多媒体内容，将文本提示转换为交互式和沉浸式数字体验。 LDM3D 是一个可以生成RGB 图像及其深度图的单一模型，因此可以节省内存使用并减少延迟。

LDM3D和DepthFusion的发布为多视图生成式AI和计算机视觉的进一步发展铺平了道路。英特尔将持续探索如何利用生成式AI提升人类能力，并致力于构建强大的开源AI研发生态系统，让AI技术惠及更多人。延续英特尔对开放人工智能生态系统的大力支持，LDM3D 正在通过HuggingFace 进行开源，让人工智能研究人员和从业者能够进一步改进系统并针对特定应用进行微调。

英特尔将于2023 年6 月18 日至22 日在IEEE/CVF 计算机视觉和模式识别会议上展示该研究成果。欲了解更多信息，请参阅论文“LDM3D: Latent Diffusion Model for 3D”。

本文由无名发布，不代表东辰网立场，转载联系作者并注明出处：https://www.ktwxcd.com/sszx/253888.html

英特尔研究院发布新扩散模型LDM3D 利用生成式AI创建360度全景图

相关推荐

联系我们