优享资讯 | 台湾繁中LLM另一里程碑！Project TAME以5,000亿个Token训练而成并开源释出

新聞 | iThome ( ) • 2024-07-01 19:15

台湾繁中LLM另一里程碑！Project TAME以5,000亿个Token训练而成并开源释出

图片来源:

摄影／王若朴

今日（7/1），长春集团、和硕联合科技、长庚医院、欣兴电子、科技报橘和专攻法律AI的律果科技，与台大资工系、台大资管系就联手揭露台湾繁中大型语言模型（LLM）计划TAiwan Mixture of Experts（简称Project TAME），以70亿参数的开源模型Llama-3 70B为基础，使用5,000亿个Token和Nvidia开发者计划技术训练而成，具备石化、电子制造、医疗、媒体内容和法律等在地专业知识。Project TAME目前于GitHub上开源，团队希望借此抛砖引玉、吸引更多产业伙伴加入，来形塑台湾产业专用AI应用生态系。

今年初发起计划，3阶段打造这款繁中LLM

早在今年1月，这些参与者就发起Project TAME，要打造繁中LLM。目前坊间虽有不少强大的LLM，如GPT系列、Claude系列、Llama系列模型等，但Project TAME主要开发者台大资工系博士班候选人林彦廷表示，对本土企业和组织而言，仍需要表现稳定的繁中LLM才行。

于是，这些本土企业联手台大，要打造这个繁中优化的模型TAME。该模型经3大阶段训练而成，包括利用台湾本土资料进行连续预训练，再来是生成多轮AI对话资料、进行微调，最后是模型与使用者真实互动，透过使用者回馈来微调模型。

但光是第一阶段，团队就面临2大难题：本土训练资料来源，以及各领域专家确认资料来源与品质。为解决这个问题，他们采用聚集各领域专家、提供相关资料的模式，来因应资料不足的挑战。而这些资料来源，包括了占所有训练资料三分之一的合成资料（如合成教科书内容等），约1,000亿Token左右，以及其他来自媒体、石化、法律、医疗、化工、制造业制程、游戏等资料，包括来自网页、社群平台、资料库、书籍、程式码等。（如下图）

接著，在技术部分，团队训练的基础模型有两种，包括Meta的80亿参数模型Llama-3 8B和700亿参数Llama-3 70B，采用Nvidia NeMo、Nvidia NeMo Megatron两种训练框架，以及3D平行化、DeepSpeed Zero网路通讯优化器和Flash Attention等加速方法与工具，来训练TAME模型。在推论部分，他们采用Nvidia TensorRT-LLM框架执行，另使用Nvidia建置的Taipei-1超级电脑（搭载DGX H100）算力来驱动模型训练与推论。

让模型饱读诗书、具备繁中基础知识后，接下来就进入第二阶段：监督式微调。在这阶段，首先会从资料中取出提示，模型会根据提示来自我对话、生成多轮对话，最后根据这些对话资料来进行监督式微调。这些对话资料涵盖了通用型和知识密集型资料。

完成对话微调后，再来就是最后一阶段，也就是透过模型与真人互动，来根据人类回馈微调模型，确保模型产出与人类偏好一致。为此，团队也繁中LLM竞技场添加TAME，让民众在平台上提问，并根据2个模型给出的回答，来评估模型表现。透过这种方式，就能进一步改善TAME模型的不足之处。

在地文化理解力、专业知识能力实测皆第一

完成3阶段的训练后，接著，团队利用标准化测试题目，来评估Project TAME模型表现。

首先是包含各种本土考试科目的语义理解基准测试TMLU，不只有国高中文科、数理化等考题，还有教师资格、领队、驾驶等考题。经测试，Project TAME的平均分数为71.3%，与Claude 3的73.6相差无几，还胜过GPT-4、Gemini、Llama 3等模型。（如下图）

再来，Project TAME模型还具备在地文化知识，能根据在地文化提示（如网友戏称哪一项早餐店的产品有通肠效果）给出正确回答，正确率是所有评测模型中的最高的，达79.4。

特别的是，Project TAME还在台湾律师考试的选择题部分拿下好成绩，总共209题中拿下60.8分，一样是所有测试模型中的最高分（如下图），意味著TAME具备台湾法律知识，比Claude-3（60.3）、GPT-4o（53.6）、TAIDE 8B（37.8）等模型还要厉害。

Project TAME正式对外开源，不少领域已有初步应用

目前，Project TAME已正式开源，企业可免费下载使用，民众也能至模型聊天页面测试。另有亚太智能机器（APMIC）整合Project TAME，提供聊天机器人测试页供使用者测试。

林彦廷表示，为降低企业部署门槛，未来Project TAME可能朝混合专家模型（MoE）形式发展。因为，MoE由好几个专家模型组成，可想像为各有各的擅长领域，因此相较于同参数量的传统LLM，MoE可以其中一个或多个专家来回答问题，以较经济的方式使用运算资源，进而降低模型推论成本。

另一方面，根据团队说明，Project TAME 700亿参数模型符合企业导入的低成本需求，估算只需1,600万台币、短短3.5小时（模型迭代一次）就能利用企业内部资料训练模型，大幅降低导入成本和时间，可优化企业在运营管理、人员训练、产品服务、客服等AI应用。

在实际应用上，则涵盖了电子制造、石化、医疗、法律和媒体等领域。以长春集团为例，他们就应用TAME于自家助理iGenie，搭配RAG资料库，可正确使用繁体字回答公安问题，还能将不同语言、格式的物质安全资料表（SDS），正确转换为中文版本，预计每年可节省330万元的委外翻译费用。（如下图）

此外，长春集团也将TAME用于自家Email服务，如新建摘要、内容提示等，也用于会议逐字稿与摘要生成。

长春集团资讯中心资深协理黄至善表示，希望TAME更精进，未来可用于原物料价格预测、企业战情中心资讯分析和机器人大脑等3大领域。进一步来说，就价格预测而言，长春集团起初以回归或时间序列模型测试，发现效果不好。

后来ChatGPT这类LLM兴起，他们开始投入研究，其做法是先向LLM（使用GPT-4o）询问价格预测的指标，接著再询问LLM，这些指标出现在哪些网页、能否写支爬虫程式，来协助抓取指标资料。有了资料，最后再询问LLM可用哪种模型来执行预测并写一支预测程式，在得到LLM给出的Transformer程式后，团队将指标资料输入模型，得出的价格预测准确度可达7成，比过往方法有效。不过，他们也分析预测不准确之处，考虑多添加重要新闻，来强化模型表现。（如下图）

就战情中心来说，长春集团资讯中心将过去2年、去识别化的内部销售资料与财务资料，再加上外部的关键经济指标，来让ChatGPT分析。他们很惊讶地发现，LLM可给出人类分析师没注意的洞见，因此可呈现在战情中心仪表板，结合其他资讯和互动式设计，来提供另一种资讯分析服务。（如下图）

在机器人部分，长春集团希望打造通用的实体机器人，可在石化业危险场域代替真人作业。他们也与台大合作，以LLM作为机器人大脑，透过自然语言指令来执行任务，如巡检、仓储物流等，预计明年会有进一步成果。