优享资讯 | 一支API提供多项应用服务，玉山通用型GenAI平台大解密

新聞 | iThome ( ) • 2024-04-26 14:39

玉山在内部推出通用型GenAI平台GENIE，这个平台本身是一支API，当使用者在GENIE的介面输入资料后，资料会通过GENIE连接至微软提供的Azure OpenAI服务，再通过GENIE回传模型生成的结果给使用者。（图片来源／玉山金控）

玉山金控不只是台湾金融业率先拥抱生成式AI的领先者，更不到2年，就打造一个GenAI平台，可透过API方式，整合到不同的应用场景和内部系统中，让生成式AI更容易落地到多种工作流程中。目前，玉山内部启用了11项生成式AI应用服务，还有1项正在开发中。他们能够快速将生成式AI落地的关键就是，今年初正式启用的通用型GenAI平台GENIE。

五年前，玉山就自建一套机器学习即服务平台MLaaS，几年下来，平台提供和维运了AI五大类服务，包括行销AI、风控AI、服务AI、流程AI以及赋能AI，GENIE平台就是流程AI类的其中一只API。这个平台有两大特色：API化服务和检索增强生成（RAG）技术。一方面，GENIE是一只独立的API，可以整合到多种延伸应用服务，内部系统可以透过API串接来使用GENIE的功能。另一方面，玉山自建丰富的金融知识库，藉RAG技术，来提升LLM模型回应金融领域问题的精准度。

除了API串接形式，GENIE平台还提供一个前端介面，可以直接提供使用者自己操作来使用，类似ChatGPT介面风格，支援多种资料汇入和汇出的格式，包括文字、图片、声音，和档案等格式资料。当使用者输入资料，资料会通过GENIE连接至微软Azure OpenAI服务，再通过GENIE回传结果给使用者。

由于GENIE平台需要将资料传送到外部服务，因此，玉山除了使用供应商提供的护栏服务，过滤使用者输入资料和模型生成回应，他们也额外开发机敏资料扫瞄机制，采用等价交换的方式，例如将身分证字号换成随机号码，避免机敏资料外泄。

不同于以往应对资安风险采用的遮罩技术，玉山选择采用等价交换，是为了确保LLM模型能正常运作。玉山银行智能金融处资深副总工程师林钲育解释，遮罩技术是将机敏资讯遮蔽，防止重要资料外泄，但是，LLM模型需要根据上下文资讯进行判断，若只提供遮蔽后的片段文本资讯，可能削弱模型的理解能力，进而影响模型正常提供服务。反之，等价交换的方式不仅能保护敏感资讯，也可以减少对模型判断力的影响。

早在2023年上半年，玉山就已经确立好GENIE平台架构，同时开发介面，建立资料外泄机制。不过，他们并没有立即投入开发应用服务，而是先大规模的搜集潜在应用场景。

玉山从2018年开始打造MLaaS平台，以MLaaS为核心发展出行销AI、风控AI、服务AI、流程AI、赋能AI五大领域AI服务，全行运作超过百支AI服务。其中，GENIE平台被设计为一支API，归类于流程AI领域。（图片来源／玉山金控）

建立行内知识库前，以「工人智慧」逐一检视百万笔输入资料

2023年下半年，玉山向行员释出GENIE平台测试版，供行员查询、试用各项服务。起初，GENIE平台仅纯粹介接LLＭ模型服务，并未额外设置知识库提升回应精准度。目的是为了搜集足够的查询需求，再根据使用者的需求开发进阶应用服务，建立全行知识库。

为了提升业务单位使用新技术的意愿，在测试阶段初期，玉山团队也举办工作坊和教育训练，教导行员使用生成式AI工具，同时促进行员发想更多使用场景，「我们有点像工人智慧，逐笔看大家的输入纪录。」玉山银行智能金融处副主任工程师徐铭霞回忆，当时收到超过百万笔输入纪录，团队逐渐摸索出使用者关注的问题和潜在应用场景，协助后续导入知识库和开发进阶应用服务时，能更有效决策优先开发顺序。

因应金融业务资讯快速变动，以RAG作为GENIE技术核心

经过初期测试阶段后，玉山接著建立包括金融产品资讯，以及涵盖个金、法金和风险规定等业务场景知识的知识库，透过GENIE连接至LLM模型服务，供模型检索资料，生成更精准的回应。玉山团队在微调（Fine-tuning）和RAG技术两者之间，选择RAG作为发展生成式AI的关键技术核心。为什么？

首先，金融产品知识更新频率快，十几张信用卡资讯可能在一个月内就发生变动，微调模型不仅耗时，跟不上产品资讯变动，还须要投入大量成本。再来，若资料量过少或品质太低，微调模型表现也不好。反之，采用RAG能够让模型检索最新资讯，有助于快速应变资料异动，甚至做到即时更新。

在发展RAG时，玉山选择在建立知识库的阶段投入最多技术能量。

林钲育解释，RAG技术的运作有三个关键步骤，建立知识库、检索到监控输出内容。建立知识库的过程中，先透过嵌入技术将大量文字转为向量，以供模型检索之用。其次，在检索时，将LLM模型视为逻辑引擎，让LLM模型根据使用者提出的问题来检索文件，找出最符合答案，最后是再透过闸道（Gateway）来进行监控，作为输出前的防线，来控管LLM模型生成的答案，筛选过后才能提供给使用者。

这三个步骤当中，玉山花最多力气在第一个步骤，「东西给的对，后面就八九不离十。」林钲育说，玉山发展RAG的策略是，在建立知识库时，尽可能切出准确的向量距离，来提升资料检索的精准度，如此一来，也能尽量降低模型回应错误率。

使用LLM模型容易会有遭模型绑定的问题，因为不同LLM模型产生的向量有异，相似度判断结果也可能有所差异，一但更换所用的LLM模型，就得重新生成所有文件的向量。因此，除了使用嵌入技术，玉山团队也考虑采用术语库（term base）来进行资料检索，例如，关键字搜索，或使用TF-IDF或BM25等特定演算法。这个方式虽然传统，却能解决依赖单一模型的问题，不需要额外生成向量，只要有明确词汇就能进行检索。

GENIE整合流量管控和财务管理机制，下一步是走向混合云架构

而在去年下半年的测试期间，玉山团队除了观察使用者需求，也将流量管控和财务管理机制纳入平台，纪录各单位使用频率和流量。他们沿用玉山既有的API流量管控机制架构，改成管控LLM使用流量，以及计算服务使用花费。

玉山团队的作法，是在平台连接供应商服务的流程中设置流量管控机制，针对玉山全部系统进行管控，如此一来，团队可以观察不同单位使用情况，以及不同模型的长处和应用情况，协助开发团队日后应对不同使用者需求，甚至在未来将生成式AI推向服务时，开发团队也能根据不同服务需求选用适当的LLM模型。

实际观察LLM使用流量后，挑战还在后头。「一旦跟业务嵌入后，就会有旺季淡季的议题。」林钲育坦言，业务单位的高低峰使用量增加不少流量管控的难度。因此，为了提升平台的弹性，玉山团队正在计划将云端纳入GENIE平台的调度环境，采用容器和K8s，运用K8s平台的自动扩充机制，根据当下流量即时调度运算资源，协助进行流量管控。

近期金管会松绑上云规范，开放金融机构能将非涉及重大消金业务的系统迁至公云，玉山团队也开始筹划让GENIE平台的架构能上公云，把平台转为混合云架构。预计最快年中就会推出新一代的通用型GenAI平台。

传统AI和生成式AI的开发维运模式不一样

2018年，玉山定调全力发展AI，五年的耕耘让玉山内部累积不少AI开发维运经验，但是，导入生成式AI仍和过往发展AI不太一样，也让玉山面临不少挑战。玉山银行智能金融处副主任工程师徐铭霞解释，过往玉山大多使用自己建立的模型，但自从LLM模型服务上线后，企业开始需要向外部流通资料，「那资料外泄的议题要怎么样做处理？我们跟云端厂商要怎么合作？」这些考验，需要额外设立规范或建立机制才能解决。

除了资料外泄和云端厂商合作议题，控管云端服务花费也是一门学问。徐铭霞解释，过去团队在计算开销时，仅需要计算硬体设备或扩充VM等既有且已知的价格，「可是未来用到云端服务，它的价格就会依照云端业者提供。」等同是使用完服务，才能得知具体花费，无法提前交出预算。因此，玉山团队在开发生成式AI应用时，也需要额外设置卡控机制，控制服务开销。

另外，发展生成式AI应用和过往发展AI模型应用场景也有所差异。徐铭霞指出，LLM模型类似一个7岁小孩，拥有许多知识，可以发展许多通用型的场景，和过往使用单一模型、发展特定场景的开发模式不同，因此，如何筛选适当导入生成式AI的场景，就是一项考验。

相关报导