优享资讯 | 大模型时代AI Agent的挑战、优化与落地之道

CCF新闻 ( ) • 2024-04-28 17:46

大模型时代AI Agent的挑战、优化与落地之道 | YEF2024

扫描报名二维码：

（扫码报名）

随着大语言模型在人工智能领域的快速发展，基于大模型的Agent已成为推动AI技术革命的关键力量。AI Agent代表能够自主理解指令、管理记忆、感知环境、制定规划、最终执行决策的智能体。大模型对AI Agent的赋能使其具备为解决各种复杂任务的潜力，从而提升人类的工作效率与生活质量。因此，AI Agent具有重要的研究价值与广阔的应用前景。

本次论坛聚焦于“大模型时代AI Agent的挑战、优化与落地之道”这一主题，邀请众多学界和业界的专家与技术领袖，分享AI Agent的前沿技术进展和行业应用。报告议题计划涵盖AI Agent的通用技术前沿，以及AI Agent在智能终端、游戏、巡检机器人等领域的应用、技术挑战和未来，探讨AI Agent发展的关键前沿问题。此外，论坛panel环节将讨论AI Agent行业落地的趋势和未来，以及面临的真实问题，探讨解决这些真实问题的技术挑战，为下一步学术研究指引清晰的方向。

论坛安排

顺序

主题

主讲嘉宾

单位

基于大语言模型的工具学习

高莘

电子科技大学

大语言模型驱动的游戏智能体

张海峰

中国科学院自动化研究所

LLM as OS：智能手机+AI Agent的行业思考与技术挑战

刘伟

小米

面向软件交互自动化的大模型智能体

李元春

清华大学

大模型驱动的智能巡检机器人：行业思考和技术挑战

盛兴东

联想

Panel环节

李元春

清华大学

张海峰

中国科学院自动化研究所

栾剑

小米

高莘

电子科技大学

盛兴东

联想

执行主席

刘伟

小米大模型算法负责人

CCF YOCSEF总部候任AC，北京大学心理与认知科学学院硕士行业导师，清华大学机器学习课程答辩导师，微软小冰初创成员。研究方向：人机对话和大语言模型。有超过10年的人机对话从业经历，主导和深度参与了微软小冰、小爱同学等业界具有影响力的人机对话产品的研发，获23年小米百万美金技术大奖，并有十数项专利和自然语言处理顶会论文发表。

共同执行主席

严睿

中国人民大学副教授

入选国家级青年人才计划，入选微软铸星学者，智源人工智能研究院智源青年科学家，中国人民大学杰出学者，担任多个国际重要学术会议的领域主席（Area Chair）和资深评审人（Senior PC），担任自然语言处理重要评审平台ACL Rolling Review的执行编辑（Action Editor）。在国际重要的期刊会议上发表论文150余篇，其中以第一作者或通讯作者发表CCF A类论文100余篇，累计同行引用12000余次。

论坛讲者

李元春

清华大学智能产业研究院助理研究员

曾任微软亚洲研究院主管研究员和卡内基梅隆大学访问学者。主要研究方向为移动与边缘智能、系统软件等，主持和参与国家自然科学基金、科技部重点研发等项目多项，在高水平会议及期刊如MobiCom, MobiSys, UbiComp, ICSE, FSE, ICLR等上发表论文50余篇，研究工作获得 UbiComp 最佳论文提名奖、IS-EUD 最佳论文奖、GreenCom最佳论文奖等奖项，相关系统和工具在开源平台上被广泛应用。

报告题目：面向软件交互自动化的大模型智能体

摘要：

每一代伟大的智能终端产品的出现几乎都伴随着交互技术的变革，在大模型时代，机器对于自然语言的理解和生成能力达到了空前的高度，有望为智能终端带来新一轮的交互方式革新，其中，基于自然语言的智能终端自动化操控是最直接、最有前景的技术之一。然而，将大模型直接应用于交互界面的自动理解和控制往往并不有效，由于模型本身有限的领域知识、幻觉和终端应用交互的复杂性，实现可靠高效的自动化操控仍有较大难度。本报告将总结这一方向上若干技术路线和关键的技术挑战，包括交互界面的表示、交互知识的获取、以及交互领域大模型的定制等，并探讨可能的解决方案。

张海峰

中国科学院自动化研究所副研究员

CCF计算经济学专业组常务委员，中国科学院自动化研究所群体决策智能团队负责人。于北京大学计算机系获得本科、博士学位，曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作，相关论文发表在ICML、IJCAI、AAAI、AAMAS、《软件学报》等国内外知名学术会议、期刊，主持研发中科院自动化所“及第”智能体博弈平台(www.jidiai.cn)，承担国家自然科学基金、科技部“新一代人工智能”重大项目、中国科学院先导A类项目等多项课题，所做研究应用于博弈智能体、油气产业链调度、铁路运行图调整等多个领域。

报告题目：大语言模型驱动的游戏智能体

摘要：

游戏智能体是人工智能发展的一条重要线索。大语言模型的出现，为游戏智能体的构建提供了一条新的思路。以大语言模型为基座，在其上嫁接专用博弈策略，可以较低成本地构建具备一定能力的游戏智能体。该方法在星际争霸、谷歌足球、我的世界等游戏场景下得到了初步验证，未来有望在更多游戏和现实博弈场景中应用。

高莘

电子科技大学助理教授、研究员

主要研究方向为预训练语言模型、大模型智能体和工具学习；在国际顶级会议期刊发表文章40余篇；目前担任中国中文信息学会青年工作委员会委员、信息检索专委会通讯委员，担任若干顶级会议的领域主席和高级程序委员会委员。

报告题目：基于大语言模型的工具学习

摘要：

基于大规模语言模型的智能体研究是近期自然语言处理领域中一个新兴的研究方向，该领域的研究也推动了通用人工智能的进一步发展。本报告将围绕语言模型智能体的工具调用能力构建展开，探讨语言模型智能体工具使用基础能力的构建方法以及如何将其应用在更多的下游任务上。

刘伟

小米大模型算法负责人

报告题目：LLM as OS：智能手机+AI Agent的行业思考与技术挑战

摘要：

以ChatGPT为代表的大语言模型引爆了当前人工智能界，不仅仅引起了学术机构的重视，企业和投资圈也积极跟进。本次分享首先从产业的视角讨论小米为代表的科技公司为什么重视大语言模型的研究，然后探讨大模型驱动的AI Agent和智能手机结合的未来应用、技术挑战和解决方案。

盛兴东

联想研究院上海分院算法总监

联想研究院上海分院算法总监，主任研究员（Principal Researcher），拥有15年计算机视觉和人工智能算法研发经验，在SLAM，三维重建，缺陷检测等多个计算机视觉算法领域具有丰富的产品和工程经验，现任上海图像图形学会理事，申请相关发明专利50余项。

报告题目：大模型驱动的智能巡检机器人：行业思考和技术挑战

摘要：

探讨具身智能巡检机器人面临的在感知、控制、规划等方面的挑战及基于大模型的潜在的解决方案，分享通过视觉大模型提升机器人环境感知能力的实践经验。

栾剑

小米大模型团队负责人

曾长期任职东芝、微软，主要从事语音、语言方向的技术研究和应用。在担任微软小冰首席语音科学家期间主导研发了业内首个歌唱合成软件X-Studio，来小米后领导团队先后完成了超级拟人语音合成系统、小爱翻译离线字幕、小米自研大模型MiLM等多个重量级项目研发和落地。在国际顶级学术会议和杂志发表论文30余篇，拥有国内外发明专利60余项。