强化学习之父入局AGI创业!联手传奇程序员卡马克,不依赖大模型 |
发布时间:2023-10-09 文章来源:本站 浏览次数:2426 |
传奇程序员卡马克 (John Carmack),与强化学习之父萨顿 (Richard Sutton)强强联手了,All in AGI。 2030年向大众展现通用人工智能的方针是可行的。 并且与干流办法不同,不依赖大模型范式,更追求实时的在线学习。 两人在萨顿任教的阿尔伯塔大学机器智能研讨所(Amii)特别活动上宣告了这一音讯。 萨顿会参加卡马克的AI创业公司Keen Technologies,一起坚持在阿尔伯塔的教职。 两人在活动中都承认,与拥有成百上千职工的大公司比较,Keen Technologies的团队规划很小。 现在还在刚起步阶段,公司整个技术团队都到了现场—— 只要站着的这4个人。 其融资规划2000万美元,与OpenAI、Anthropic这样动辄几十亿的也无法比。 但他们信任,终究AGI的源代码是一个人就能编写的量级,可能只要几万行。 并且其时AI领域正处在杠杆效应大的特别时间,小团队也有时机做出大贡献。 传奇程序员与强化学习之父卡马克的传奇阅历,从开发国际第一款3D游戏,到转型造火箭,再到参加Oculus成为后来Meta VR要害人物的故事都已被人熟知。 后来他与AI结缘,还和OpenAI有关。 他曾在另一场访谈中泄漏,Sam Altman曾邀他参加OpenAI,以为他能在体系优化方面发挥重要作用。 但卡马克其时以为自己对机器学习范式的现代AI没有任何了解,也就没有答应。 这却成了他开端了解AI的一个要害。 他向OpenAI的首席科学家Ilya Sutskever要了一个入门必读清单,从头开端自学,先对传统机器学习算法有了根本的了解。 等有了闲暇,打算继续涉足深度学习的时候,他来了个一周编程挑战: 打印几篇LeCun的经典论文,在断网情况下着手实践,从推反向传达公式开端。 一周曩昔后,他带着用C++手搓的卷积神经网络完毕闭关,没有凭借Python上的现代深度学习结构。 只能说佩服大神了。 此时他的主业仍是在Facebook(后改名Meta)旗下Oculus研讨VR,带领团队推出了Ouclus Go和Quest等产品。 不过这个过程中,他与公司管理层之间也逐步发生矛盾和不合,以为公司内部功率低下,也曾揭露宣告不满。 2019年,他辞去Oculus CTO职位转而担任“参谋CTO”,开端把更多精力转向AI。 2022年8月,他宣告新AI创业公司Keen Technologies宣告融资2000万美元,出资者包含红杉本钱,GitHub前CEO Nat Friedman等。 后续他也泄漏,其实戋戋2000万美元,自己就拿得出手。 但是从别人那里拿钱能给他一种危机和紧迫感,有更强烈的决计把事情做好。 2022年末,他正式脱离Meta,并将VR视为现已曩昔的一个人生阶段,接下来彻底转向AI。 除了这条明面上的主线之外,卡马克与AI还有一些莫名的缘分。 当年他的3D游戏激发了对图形核算的需求,GPU也是从游戏领域开端开展壮大。 到现在正是GPU的算力支持了AI的爆发,他谈到这些时仍为自己的贡献感到骄傲。 …… 今天的另一位主角萨顿也相同是位传奇人物。 他被誉为强化学习之父,为强化时间差异学习和战略梯度等办法做出重要贡献,也是强化学习规范教科书的合著者。 2017年他以出色科学家身份参加DeepMind,参与了AlphaGo系列研讨,他的学生David Silver则是AlphaGo首要负责人之一。 萨顿写过一篇著名短文The Bitter Lesson,以为企图把人类阅历教给AI是行不通的,至今停止所有打破都是依靠算力提高,继续利用算力的规划效应才是正确路途。 两人正式沟通之前,卡马克就曾表达过对这篇文章的重视和认同。 但两人真实直接沟通,是萨顿主动联络的。 几个月前,卡马克宣告AGI创业公司融资之后,收到了萨顿的邮件。 萨顿想要问他他在研讨的路途上应该走纯学术、商业化仍是非盈利组织路线的问题。 但在后续邮件沟通中,两人发现在AI研讨方向和理念上存在惊人的一致性,逐渐确立了合作关系。 详细来说,两人达成了4个一致:
不只依赖大模型,小团队也有时机很斗胆的方针,现场观众也是这么以为的。 面临“小团队如何搞定这么宏大的方针”的发问,卡马克以为完成AGI所需的数据量和算力需求可能没有想象中那么大。 把人类一整年眼中所见拍成每秒30帧的视频,能够装在拇指巨细的U盘里。 而1岁儿童只拥有这么多阅历数据,现已展现出明显的智能。 假如算法对了,就不需要用整个互联网的数据让AGI去学习。 对于算力需求,他也是用这种直觉式的思维去考虑:人脑的核算才能也有限,远远达不到一个大型算力集群的程度。 比一个服务器节点(node)要大,也比一个机柜(rack)要大,但大也就再高出一个数量级。 并且跟着时间推移,算法会愈加高效,所需的算力还会继续下降。 假如说卡马克在3D游戏、火箭和VR,这些看似不搭边的作业领域上有什么共同点,那就是对大型实时反馈体系的优化。 这也是初Sam Altman约请他参加OpenAI时看中的当地。 他设想中的AGI架构应该是模块化和分布式的,而不是一个巨大的集中模型。 学习也应该是继续的在线学习,而不是现在的预练习之后大部分参数就不再更新。 我的底线是,假如一个体系不能以30hz的频率运行,也就是练习时33毫秒左右更新一次,我就不会用它。 他进一步表示,作为能自己写原始Cuda代码和能自己管理网络通信的底层体系程序员,可能会去做一些其他人根本不会考虑的作业。 乃至不只局限于现有的深度学习结构,会尝试更高效的网络架构和核算办法。 总体方针是模拟一个具有内涵动机和继续学习才能的虚拟智能体,在虚拟环境中继续学习。 不要机器人,由于制作火箭的阅历让他以为打交道的物理对象越少越好。 与卡马克刚涉足AGI不久比较,萨顿在这个问题上现已花费了几十年,他有更详细的研讨方案。 虽然这次活动上没有说太多,但主体部分现已以“阿尔伯塔方案”的形式写在一篇arXiv论文里。 阿尔伯塔方案提出了一个一致的智能体结构,着重普遍阅历而不是特别的练习集,重视时间一致性,优先考虑能随算力发生规划效应的办法,以及多智能体交互。 还提出了一个分为12步的路线图。 前6步专心于规划model-free的继续学习办法,后6步引入环境模型和规划。 其间后一步称为智能增强 (Intelligence Amplification),一个智能体能够根据一些通用准则,利用它所学到的常识来放大和增强另一个智能体的举动、感知和认知。 萨顿以为这种增强是充分发挥人工智能潜力的重要组成部分。 在这个过程中,确认评估AI前进的指标非常重要但也十分困难,团队正在探索不同的开展。 别的,卡马克一直是开源的倡导者,但在AGI的问题上他表示会坚持必定开放性,但不会全部揭露算法细节。 作为一个小团队,卡马克以为需要坚持开拓精神,重视久远开展而不是短期利益, 不会过早考虑商业化,没有像ChatGPT这样能够揭露发布的中心形状。 对于2030年能做到什么境地,卡马克以为“有能够向大众展现的AGI”,萨顿的表述是“AI原型能够显示出生命迹象(signs of life)”。 2030成要害节点2030与AGI,并不是第一次一起呈现。 顶尖AI团队不约而同都把2030年前后作为完成AGI的要害节点。 比如OpenAI,在拿出20%总算力成立超级智能对齐部门的公告里写着,咱们信任超级智能在这个十年段到来。 乃至出资界也呈现类似的观念,孙正义刚刚在软银国际企业大会上也拿出来这样一张PPT。 除了OpenAI和Keen Technologies,致力于开发AGI的组织并不多。 OpenAI大的竞争对手,刚刚拿40亿美元融资的Anthropic,其CEO Dario Amodei在近一次访谈中说到,两三年内AI能体现得像一个受过良好教育的人类。 Transformer作者Vaswani与Palmer脱离谷歌时,兴办了AdeptAI,方针也是打造通用智能。 不过现在两人今年初忽然脱离这家公司,联合开创人中只留下一位David Luan(右)。 两位Transformer作者别的兴办了一家Essential AI,这家公司的愿景就没那么“仰望星空”了,是比较务实的大模型商业化。 国内方面清晰喊出AGI方针的相同也不多,首要有MiniMax和杨植麟新兴办的月之暗面。 |