欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

强化学习之父入局AGI创业!联手传奇程序员卡马克,不依赖大模型

发布时间:2023-10-09 文章来源:本站  浏览次数:2426

传奇程序员卡马克 (John Carmack),与强化学习之父萨顿 (Richard Sutton)强强联手了,All in AGI

2030年向大众展现通用人工智能的方针是可行的。

并且与干流办法不同,不依赖大模型范式,更追求实时的在线学习。

两人在萨顿任教的阿尔伯塔大学机器智能研讨所(Amii)特别活动上宣告了这一音讯。

萨顿会参加卡马克的AI创业公司Keen Technologies,一起坚持在阿尔伯塔的教职。

两人在活动中都承认,与拥有成百上千职工的大公司比较,Keen Technologies的团队规划很小。

现在还在刚起步阶段,公司整个技术团队都到了现场——

只要站着的这4个人

其融资规划2000万美元,与OpenAI、Anthropic这样动辄几十亿的也无法比。

但他们信任,终究AGI的源代码是一个人就能编写的量级,可能只要几万行。

并且其时AI领域正处在杠杆效应大的特别时间,小团队也有时机做出大贡献。

传奇程序员与强化学习之父

卡马克的传奇阅历,从开发国际第一款3D游戏,到转型造火箭,再到参加Oculus成为后来Meta VR要害人物的故事都已被人熟知。

后来他与AI结缘,还和OpenAI有关。

他曾在另一场访谈中泄漏,Sam Altman曾邀他参加OpenAI,以为他能在体系优化方面发挥重要作用。

但卡马克其时以为自己对机器学习范式的现代AI没有任何了解,也就没有答应。

这却成了他开端了解AI的一个要害。

他向OpenAI的首席科学家Ilya Sutskever要了一个入门必读清单,从头开端自学,先对传统机器学习算法有了根本的了解。

等有了闲暇,打算继续涉足深度学习的时候,他来了个一周编程挑战

打印几篇LeCun的经典论文,在断网情况下着手实践,从推反向传达公式开端。

一周曩昔后,他带着用C++手搓的卷积神经网络完毕闭关,没有凭借Python上的现代深度学习结构。

只能说佩服大神了。

此时他的主业仍是在Facebook(后改名Meta)旗下Oculus研讨VR,带领团队推出了Ouclus Go和Quest等产品。

不过这个过程中,他与公司管理层之间也逐步发生矛盾和不合,以为公司内部功率低下,也曾揭露宣告不满。

2019年,他辞去Oculus CTO职位转而担任“参谋CTO”,开端把更多精力转向AI。

2022年8月,他宣告新AI创业公司Keen Technologies宣告融资2000万美元,出资者包含红杉本钱,GitHub前CEO Nat Friedman等。

后续他也泄漏,其实戋戋2000万美元,自己就拿得出手

但是从别人那里拿钱能给他一种危机和紧迫感,有更强烈的决计把事情做好。

2022年末,他正式脱离Meta,并将VR视为现已曩昔的一个人生阶段,接下来彻底转向AI。

除了这条明面上的主线之外,卡马克与AI还有一些莫名的缘分。

当年他的3D游戏激发了对图形核算的需求,GPU也是从游戏领域开端开展壮大。

现在正是GPU的算力支持了AI的爆发,他谈到这些时仍为自己的贡献感到骄傲。

……

今天的另一位主角萨顿也相同是位传奇人物。

他被誉为强化学习之父,为强化时间差异学习和战略梯度等办法做出重要贡献,也是强化学习规范教科书的合著者。

2017年他以出色科学家身份参加DeepMind,参与了AlphaGo系列研讨,他的学生David Silver则是AlphaGo首要负责人之一。

萨顿写过一篇著名短文The Bitter Lesson,以为企图把人类阅历教给AI是行不通的,至今停止所有打破都是依靠算力提高,继续利用算力的规划效应才是正确路途。

两人正式沟通之前,卡马克就曾表达过对这篇文章的重视和认同。

但两人真实直接沟通,是萨顿主动联络的。

几个月前,卡马克宣告AGI创业公司融资之后,收到了萨顿的邮件。

萨顿想要问他他在研讨的路途上应该走纯学术、商业化仍是非盈利组织路线的问题。

但在后续邮件沟通中,两人发现在AI研讨方向和理念上存在惊人的一致性,逐渐确立了合作关系。

详细来说,两人达成了4个一致

  • 都以为其时AGI开展被约束在很窄的几个方向上,过多依赖大数据和大算力而忽视了创新
  • 都以为太早商业化会阻碍AGI的开展
  • 都以为终究AGI不会太杂乱,一个人就能把握全部原理,乃至一个人就能写出首要的代码。
  • 都以为2030年呈现AGI原型是一个可行的方针。

不只依赖大模型,小团队也有时机

很斗胆的方针,现场观众也是这么以为的。

面临“小团队如何搞定这么宏大的方针”的发问,卡马克以为完成AGI所需的数据量和算力需求可能没有想象中那么大

把人类一整年眼中所见拍成每秒30帧的视频,能够装在拇指巨细的U盘里。

而1岁儿童只拥有这么多阅历数据,现已展现出明显的智能。

假如算法对了,就不需要用整个互联网的数据让AGI去学习。

对于算力需求,他也是用这种直觉式的思维去考虑:人脑的核算才能也有限,远远达不到一个大型算力集群的程度。

比一个服务器节点(node)要大,也比一个机柜(rack)要大,但大也就再高出一个数量级。

并且跟着时间推移,算法会愈加高效,所需的算力还会继续下降。

假如说卡马克在3D游戏、火箭和VR,这些看似不搭边的作业领域上有什么共同点,那就是对大型实时反馈体系的优化

这也是初Sam Altman约请他参加OpenAI时看中的当地。

他设想中的AGI架构应该是模块化和分布式的,而不是一个巨大的集中模型。

学习也应该是继续的在线学习,而不是现在的预练习之后大部分参数就不再更新。

我的底线是,假如一个体系不能以30hz的频率运行,也就是练习时33毫秒左右更新一次,我就不会用它。

他进一步表示,作为能自己写原始Cuda代码和能自己管理网络通信的底层体系程序员,可能会去做一些其他人根本不会考虑的作业。

乃至不只局限于现有的深度学习结构,会尝试更高效的网络架构和核算办法。

总体方针是模拟一个具有内涵动机和继续学习才能的虚拟智能体,在虚拟环境中继续学习。

不要机器人,由于制作火箭的阅历让他以为打交道的物理对象越少越好

与卡马克刚涉足AGI不久比较,萨顿在这个问题上现已花费了几十年,他有更详细的研讨方案。

虽然这次活动上没有说太多,但主体部分现已以“阿尔伯塔方案”的形式写在一篇arXiv论文里。

阿尔伯塔方案提出了一个一致的智能体结构,着重普遍阅历而不是特别的练习集,重视时间一致性,优先考虑能随算力发生规划效应的办法,以及多智能体交互。

还提出了一个分为12步的路线图

前6步专心于规划model-free的继续学习办法,后6步引入环境模型和规划。

其间后一步称为智能增强 (Intelligence Amplification),一个智能体能够根据一些通用准则,利用它所学到的常识来放大和增强另一个智能体的举动、感知和认知。

萨顿以为这种增强是充分发挥人工智能潜力的重要组成部分。

在这个过程中,确认评估AI前进的指标非常重要但也十分困难,团队正在探索不同的开展。

别的,卡马克一直是开源的倡导者,但在AGI的问题上他表示会坚持必定开放性,但不会全部揭露算法细节

作为一个小团队,卡马克以为需要坚持开拓精神,重视久远开展而不是短期利益,

不会过早考虑商业化,没有像ChatGPT这样能够揭露发布的中心形状

对于2030年能做到什么境地,卡马克以为“有能够向大众展现的AGI”,萨顿的表述是“AI原型能够显示出生命迹象(signs of life)”

2030成要害节点

2030与AGI,并不是第一次一起呈现。

顶尖AI团队不约而同都把2030年前后作为完成AGI的要害节点。

比如OpenAI,在拿出20%总算力成立超级智能对齐部门的公告里写着,咱们信任超级智能在这个十年段到来

乃至出资界也呈现类似的观念,孙正义刚刚在软银国际企业大会上也拿出来这样一张PPT。

除了OpenAI和Keen Technologies,致力于开发AGI的组织并不多。

OpenAI大的竞争对手,刚刚拿40亿美元融资的Anthropic,其CEO Dario Amodei在近一次访谈中说到,两三年内AI能体现得像一个受过良好教育的人类。

Transformer作者Vaswani与Palmer脱离谷歌时,兴办了AdeptAI,方针也是打造通用智能。

不过现在两人今年初忽然脱离这家公司,联合开创人中只留下一位David Luan(右)

两位Transformer作者别的兴办了一家Essential AI,这家公司的愿景就没那么“仰望星空”了,是比较务实的大模型商业化。

国内方面清晰喊出AGI方针的相同也不多,首要有MiniMax和杨植麟新兴办的月之暗面。

上一条:大模型需求什么样的智算中...

下一条:内蒙古通辽市:直播间里聊...