作家 | GenAICon 2024
2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC专揽专场上,极佳科技创举东谈主&CEO黄冠博士以《技艺与专揽闭环,从视频生成走向宇宙模子》为题发扮演讲。
黄冠认为,当下扫数“通用智能”齐在走向“端到端大模子”,一切问题齐造成了“高质地数据”问题。“宇宙模子”是畴昔具身智能最伏击的“高质地数据”开首,它连合互联网数据、仿真数据、遥操数据、真实收罗数据等多种数据,学习、查考、组合,从而获取交互式物理宇宙模拟器。
极佳科技正基于宇宙模子打造新一代数据平台,面向端到端自动驾驶和通用机器东谈主提供处事。极佳科技DriveDreamer自动驾驶宇宙模子、WorldDreamer通用宇宙模子咫尺已班师买卖化落地。
以下为黄冠的演讲实录:
今天我主要跟各人陈说商讨一下咱们在视频生成、宇宙模子方面关系的念念考和阐发,以及主要想共享一下咱们关于打造通器具身智能新一代数据引擎的目的。
咱们回来了通用智能咫尺大的发展趋势,扫数这个词行业在从以GPT和Sora为代表的通用内容智能,走向通用行为智能。无论是Agent、自动驾驶如故机器东谈主,其中枢是从产生内容到产生行为。当大模子能可靠地产生行为,那么对扫数这个词经济和社会的影响详情是更大范围的,才是各人所谓的走向实在的“第四次工业立异”。
一、宇宙模子发展三大标的:视频生成、自动驾驶、通用机器东谈主
宇宙模子这个词一运转是杨立昆忽视的,他说GPT不成达到AGI,咱们需要宇宙模子。其实这两年国表里,各人越来越意志到宇宙模子的伏击性,中枢是分三个标的在发展,包括视频生成、自动驾驶和通用机器东谈主,齐相配暖和宇宙模子的阐发。
领先是视频生成。本年年头Sora引爆扫数这个词AI圈子,值得扫视的是OpenAI并莫得把Sora手脚一个单纯的文生视频模子,而是把它叫作念World Simulator(宇宙模拟器),这就有了宇宙模子的雏形。客岁下半年Runway也公开书记说他们要走向通用宇宙模子。
咱们也有一个职责叫WorldDreamer,应该是全球相比朝上的用Transformer新一代架构,不是Diffusion架构,去走向通用视频生成和宇宙模子。
其次咱们看到自动驾驶这个行业。既然是宇宙模子,一定会影响物理宇宙,会对物理宇宙有极强的拯救和展望智商。
是以咱们看到特斯拉从客岁年中运转说他们在作念General World Model(通用宇宙模子),同期特斯拉束缚在视频基础模子这个标的加大插足。还有Wayve是一家英国的自动驾驶公司,这是比尔·盖茨在投了OpenAI之后,立马就去英国投的一家公司,因为比尔·盖茨合计Wayve让他看到了物理宇宙AGI的但愿。
极佳科技亦然国内最早运转作念自动驾驶宇宙模子的公司,咱们的模子叫DriveDreamer,咫尺如故终裸露大范畴的买卖落地专揽。
更大的趋势,各人看到当今在通用机器东谈主标的,伯克利、Covariant作念了一系列跟宇宙模拟器、宇宙模子关系的职责,包括他们最近发的RFM机器东谈主大模子关系职责。谷歌也在作念可交互式的宇宙模子,东谈主形机器东谈主创企1X也通过宇宙模子展望畴昔、终了通用机器东谈主。
全球宇宙模子跟视频生成、自动驾驶、通用机器东谈主行业连合起来,正在相配快速发展。
二、通用智能走向端到端大模子,宇宙模子是最伏击的高质地数据开首
咫尺的趋势是,杠杆交易扫数通用智能齐在走向端到端大模子,无论是生成式智能,包括说话、视频、图像、3D等的拯救和生成;如故具身智能,包括自动驾驶、通用机器东谈主等。
绝顶是自动驾驶,各人看到最近马斯克通常给特斯拉V12造势,它是规范的Video-in Action-out(视频输入-动作输出)系统。通用机器东谈主亦然最新的硅谷趋势,各人齐在走向端到端、Video-in Action-out这么一个范式。
在这个趋势下,一切问题就造成了高质地数据的问题,因为这如故不再是昔时法例驱动的系统了,需要高质地端到端的数据去迭代,去查考这么生成式智能或具身智能的系统。
咱们认为,宇宙模子是畴昔具身智能最伏击的高质地数据开首。当今各人看到有好多种管束数据问题的阵势,包括从互联网的图像、视频数据去学习,还有效仿真数据去学习,草率像斯坦福通过ALOHA机器东谈主等遥操征战去作念端到端学习,自动驾驶或机器东谈主通过真实收罗的数据去学习。
行业里各人领先通过多样仿确切阵势去管束Sim2Real的问题,以及通过更大范畴的部署,管束更多真实数据开首的问题。
是以咱们认为畴昔的数据开首一定会走向宇宙模子,它会连合上头所极端据去学习查考组合,获取交互式的物理宇宙模拟器。
三、基于宇宙模子打造新一代数据平台,买卖化落地速率国内最快
咱们咫尺在作念的事情,即是基于宇宙模子打造新一代的数据平台,面向端到端自动驾驶和通用机器东谈主。平台底层是一个以视频生成和宇宙模子为中枢的基础模子。各人知谈Sora咫尺是不可用的,无论是资本如故速率,咱们会追求速率和资本达到数目级的裁汰。
同期咱们会有完备的平台处事,通过数据阵势去处事端到端通用自动驾驶,以及通用机器东谈主的通用操作、通用出动等关系场景,助力具身智能行业爆发。
极佳科技咫尺在自动驾驶宇宙模子上,关系技艺是全球最朝上的之一,同期咱们买卖化速率亦然全球最快的。咱们和国内好多主流的头部主机厂如故运转施行的买卖配合,通过宇宙模子,用于数据生成、闭环仿真等关系标的。
同期,更具联想力和价值的场景,是咱们面向通用机器东谈主的宇宙模子和物理宇宙模拟器,这个标的咱们的技艺咫尺在国内亦然相比朝上的,同期咱们买卖化落地速率亦然国内最快的。
其中枢跟驾驶通常,领先它不错作为一个模拟器在通用机器东谈主的数据生成、闭环仿真方面有伏击的作用,同期背面也不错作为有筹整齐部分,走向机器东谈主的端到端有筹划。这个范式跟昔时的自动驾驶和机器东谈主分模块范式很不通常,会走向大一统的面向通器具身智能的端到端举座架构。
以上是黄冠演讲内容的完好整理。