好文文章网

手机版

当前位置: 首页 >  实时讯息 > 

大模型棋力飞涨,还会解说围棋,这条AGI之路可行!

0次浏览     发布时间:2025-05-31 06:04:00    

棋类运动往往是人们了解人工智能突破的窗口,比如近30年前的“深蓝”计算机和近10年前的阿尔法狗(AlphaGO)。最近,上海人工智能实验室的科研团队利用强化学习的方法,让大模型从不会下棋到突破专业围棋水平。据职业选手估算,目前这一名为“书生·思客”的大模型棋力在职业3-5段之间。

“大模型还首次打破了围棋思维‘黑盒’。”上海人工智能实验室青年科学家陈恺说。围棋是公认的复杂任务,一般来说任务越复杂,通过语料习得的可能性越低,这一突破为大模型处理复杂推理任务,进而解决科学发现等难题奠定了基础。

去年的世界人工智能大会上,上海人工智能实验室主任、首席科学家周伯文提出“通专融合”的大模型发展技术路线。那时,人们还很难理解其中深意,如今“通专融合”的里程碑已经到来——大模型可通过与环境的交互反馈,在专业任务上获得能力提升。

打破“黑盒”,像人脑一样下围棋

2016年,阿尔法狗击败围棋世界冠军李世石,刷新了公众对AI的认知。但以现在的眼光看,阿尔法狗更像是一个为围棋而生的专业模型,它眼中只有19乘19的棋盘,将所有算力用于思考下一步该落子在361个点位的哪一处,且整个思考过程完全处于“黑盒”。“阿尔法狗是以人不太能理解的方式在下棋,有时会下出‘天外飞仙’的棋步,但为何会出如此高招,当时难以解释。”陈恺说。

书生·思客应对李世石“神之一手”,语言风格风趣幽默。受访者提供

如果大模型能打破这个“黑盒”,就证明其推理能力又上一个新台阶。为持续提升大模型的推理能力,上海人工智能实验室青年研究员李林阳及团队以强化学习算法为大模型构造了一个“加速训练营”,让大模型像初学者一样探索如何下围棋。通过对评价建模,与大模型进行交互并提供反馈,从而使模型持续进化。

随着一次次训练,大模型棋力飞涨。“有一天,我们发现大模型的下棋成功率从30%提升到70%,由此我们观察到了‘智能涌现’,也就是人们常说的‘啊哈时刻’。”李林阳说。

经“加速训练营”强化后的大模型不仅棋力显著增强,还成功打破了围棋思维“黑盒”——在对弈时,它能科学、直观地“讲解”下棋思路,真正“像人脑一样下围棋”。大模型的“语言”风格还十分多样,当用户下了一步好棋,它会加油鼓励:“这步棋相当有力,可以说是‘以攻代守’的好手。”当用户局势不利时,它会化身“鸡汤大师”:“只要应对得当,胜负尚在未定之天。”

探索大模型推理能力提升新范式

围棋中有个术语叫做“试应手”,是指通过一步棋试探对方反应,为后续变化做准备。从某种意义来说,上海人工智能实验室的此次突破相当于提升大模型推理能力的“试应手”。在李林阳看来,这步“试应手”不在于研发一个会下棋的大模型,而在于让大模型通过与环境的交互获得能力提升,从而获得处理复杂事物的能力。

“这对解决其他领域的复杂问题非常有用,比如科学任务。”陈恺说,科学任务中的语料不仅数量稀少,而且收集困难,这也制约了科学垂类大模型的迭代。除下围棋外,“书生·思客”已在奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多个专业任务实现同步学习演进,并在多任务混合强化学习过程中出现智能“涌现时刻”。

当大模型具备了解决复杂问题的方法论,提出有价值的问题更显重要。下月,上海人工智能实验室将发起首届明珠湖会议,以“寻找定义AI未来的提问者”为目标,锁定一批影响科学与未来的前沿课题。

“有组织科研”推动“通专融合”落地

“当初步探索取得实质性进展后,我马上向实验室申请了人员和算力,在充足的人手和算力保障下,项目准确率很快达到90%以上。”李阳林说,2023年,他以实习生的身份加入实验室,如今已开始带领团队开展“通专融合”技术路径可行性的相关研究。

在上海人工智能实验室的技术愿景中,“通专融合”是通往通用人工智能(AGI)的战略路径。这一路径的关键在于同步提升深度推理与专业泛化能力,使模型不仅在广泛的复杂任务上表现出色,还能在特定领域中达到专业水平。

陈恺表示,上海人工智能实验室正以“有组织的科研”推动“通专融合”:一方面各团队有主线研究方向,可形成规模效应;另一方面,团队成员的专业研判有助于迅速把握技术趋势,快速形成创新成果。

在带队攻关书生·思客的项目中,李阳林感受到实验室的人才密度之高和科研资源之丰富。2022年以来,上海人工智能实验室携手十余所国内顶尖高校开展博士生联合培养项目,目前已有近800名本科生和研究生通过联培博士项目入选实验室,其中不乏AI细分专业领域的佼佼者。年轻人的不断加入和快速成长,正在推动更多“啊哈时刻”。