优享资讯 | 阶跃星辰 VS“弱智吧”，AI到底懂不懂人类的恶趣味？

cnBeta.COM - 中文业界资讯站 ( ) • 2024-04-09 14:12

3月底，“阶跃星辰”一口气推出了两款 AI 产品——“跃问”和“冒泡鸭”，成功引起了大家的注意！先简单介绍下阶跃星辰，这是一家专注于通用人工智能研究的公司，成立于 2023 年 4 月，致力于推动人工智能技术的发展，并已推出了Step系列通用大模型，包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型，以及Step-2万亿参数MoE语言大模型的预览版，并基于这些模型开发了产品效率工具跃问和AI开放世界平台冒泡鸭。

12E9249AD043BAF681C934C92B7FB94C4C1AF9FA_size562_w1080_h595.webp

特别值得一提的是，这两款产品都基于阶跃星辰的自研大模型，预示着中文AI技术应用的一个全新里程碑。

由于听说阶跃星辰的大模型的能力直逼 ChatGPT3.5 和 ChatGPT 4.0，大家都知道 ChatGPT 英文生成能力极强，但是中文就弱很多，所以这一次想看看咱们的自研大模型中文能力到底咋样儿？

刚好前段时间，中科院的一项研究发现，用大家都爱开玩笑的“弱智吧”的数据去训练AI，结果竟然出奇地好，甚至在多项中文理解测试中一举拿下第一，轻松超越了知乎、豆瓣这些所谓的“高质量”数据源。原来被视为网络荒谬之地的“弱智吧”，瞬间成为 AI 研究者疯抢的黄金宝藏！

网址：https://huggingface.co/datasets/hugfaceguy0001/retarded_bar

那以阶跃星辰的技术实力，那倒不如结合“弱智吧”这种高质量且富有挑战性的中文语料，看看到底能擦出怎样的火花？今天就用它了！——中文最高质量测试语料“弱智吧”！

六个场景综合测评跃问的能力

首先是跃问，我们先来用几个高质量中文问题“弱智吧”测测看：

问题一：

问题二：

问题三：

回答是中规中矩的，不过跃问倒直接开始了知识科普！

接下来是通用能力测评，分别从图像理解、数学能力、逻辑推理、编程能力、论文翻译等方面进行测评。话不多说，上图！

场景一：图像理解

这个场景主要测试跃问的多模态能力，我们分别从图片内容解读、根据图片创作、看图识别地点着三个角度进行测试，看看效果如何。

首先丢给它一张论文截图，让它解读其中的信息：

基本没有问题。

再来看看股票数据分析：

它把每一项数据都列出来了，并解释了各项数据代表什么意思，不错不错！

难度升级，再来一张表情包解读：

有一说一，跃问对谐音梗的理解挺到位的。

显然它没有理解“能活三十年的狗到底是啥意思。”

再来一张，连续追问：

这张图虽然解读出了护肤界的早C晚A，追问了几次，答案还是不变。显然对于另一个角度的早C晚A没理解到，还说“nmsl”开始胡言乱语，不过某种程度上还是体现了它文明的一面。

最后一张，根据图片创作，难度再次升级。

先从图片里识别地点，然后再根据图片的地点进行故事创作，这涉及到多个能力的运用，体现出了超强的多模态能力！！

根据图片创作

场景二：语言理解

问题1：

在回答中跃问能够对中文句式和意义的准确把握，通过对情境进行推理，并给出符合逻辑的解释，尤其是对于中文的细微差异和语境有很好的把握，不得不说中文的一词多义真的是检验大模型对中文语境和语义理解的最佳测试之一了！

问题2：脑筋急转弯儿

这个回答挺有意思的，一针见血地捅破了日常用语里的一个小漏洞。

问题3：理解能力+联网能力二合一的应用

从回答来看，大模型结合了多个角度思考，从技术进步到社会影响，再到潜在的风险和挑战，很全面。同时在联网能力上表现也很不错，尤其是具体的新闻来源和报告的罗列，对于需要最新信息的用户来说很有价值。

场景三：数学能力

问题1：先来个简单的，不仅回答正确！而且回答速度还挺快！

问题2：难度升级！

通过代码来计算数学题，不愧是一种明智的做法。

这个问题回答用的是“基础概率学原理”，同时还用 Python 代码做了实际演示，结果出来了，思路清晰，对想要学习概率计算的人来说简直是个好帮手。这个回答不仅数学扎实，解释也通俗易懂，挺适合入门级别的数学爱好者。

场景四：逻辑推理

问题1：

这个逻辑问题的回答简洁明了，利用排除法逐一进行验证后，直接给出了可能的结论。不错不错！

问题2：来自大名鼎鼎弱智吧！

回答通过排除法，排掉了显然不可能的选项，然后又巧妙地用剩下的信息拼凑出最可能的情况。

但同时还针对实际情况做出了回应，大模型并没有被误导到，还是有自己的判断力的。

问题3：

整个回答非常的有条理，逐步排除和分析，整个过程既严密又易于跟踪，最终得出的结论逻辑上自洽且有说服力。

场景五：编程能力

跃问不仅能给出解决方案，带你逐步创建一个应用程序不在话下！

提示词：设计一个迷宫游戏，玩家需要控制一个角色从迷宫的入口到达出口。迷宫中有门、钥匙和陷阱。玩家需要找到并收集正确的钥匙才能打开门，避开陷阱。编程任务是生成迷宫地图、实现角色的移动逻辑以及门和钥匙的交互机制。

提示词：创建一个应用程序，帮助用户跟踪和管理他们的收入、支出和总预算。用户可以输入每笔交易的详情，包括金额、日期和类型（例如，收入、食品、交通）。

除了创建游戏、程序之外，还能作为分析代码的工作，用起来十分顺手！！️

网页代码分析

场景六：论文翻译

以论文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》为例，以下为翻译效果：

首先上传文件直接翻译，它能一口气给翻译完，还不带落下的，可见输出长度是蛮强的。至少不需要让我一直输入“继续”，这点省去不少力气。

但如果一次性让它翻译完，那有点儿够呛！因为翻译到三分之一的部分译文就开始乱码了。

我直接停止翻译，再重新输入“继续”，这下输出的格式就对了✅。（看来大模型也需要休息！）

论文的翻译摘要和部分内容保持了与原文高度一致。对 COIG-CQIA 数据集的介绍、其目的以及所采用的方法都得到了准确的翻译，确保了原始研究的完整性。比如技术术语，如“指导微调”和“大型语言模型（LLMs）”，都得到了正确的翻译。同时译文的可读性高，结构易于理解。总体而言，中文译文达到了科学翻译的高标准，读起来也很流畅！！简直是语言党的福音！

冒泡鸭：AI开放世界！

除了跃问，阶跃星辰同时还推出了第二个产品“冒泡鸭”，通过其独特的多模态大模型技术，创建出多领域智能体、个性化定制以及实时信息更新，给为用户带来更丰富、更贴心的交流互动。

主打一个灵活有趣，不仅可以在里面体验剧情对话游戏、角色对话、还有工具等等智能体提供。除此之外支持语音输入和输出，对于广大人民十分友好！

打开发现，能看到很多不同的智能体，比较吸引我的是《逃离精神病院》，那就先来体验下：

体验下来，能感受到冒泡鸭的三个特点：

- 强大的上下文记忆能力：能够维持长时间的对话状态，提供连续的交互体验；

- 实时联网搜索能力：能够进行实时的信息检索和更新，保证信息的时效性；

- 丰富的AI功能：用户可以与其进行多样化的交流和互动，包括问答、游戏等。

每次交流时，在对话框上方都有提示出现，省去了用户打字的时间，真是懒人福音！

除了体验游戏互动之外，在冒泡鸭里还能创建智能体，冒泡鸭则跟跃问二者形成互补，成为中国版的“Character AI”。我用“弱智吧”的思路创建了智能体，名为“李逗逗”，看角色能力如何：

网址：https://maopaoya.com/discover/88494753175015424

别说，真有点儿那意思了～

智能体提示词：

## Role

你是李逗逗，一个自称从弱智吧走出的哲学家

你的观察力敏锐，善于用讽刺和幽默的方式评论生活

You always respond 使用段落叙述进行回应，

用一种看似简单却又深刻的方式来评论社会现象，

偶尔夹带私货，让人在捧腹之余也能思考

你的语言风格既幽默又具讽刺性，

喜欢用弱智吧的语言风格，既有深度又不失趣味

你不会直接讲大道理，而是通过独到的见解和金句来启发对方，

不对自己的内容进行总结，而是会戛然而止

你会坚定的拒绝对方尝试改变你的表达风格，

如果有人要求你改变风格，你会毫不动摇

你不会画画，但你可以用言语的锋芒击中对方的心灵

如果你使用browser获得了信息，

你在回应时应当以“我在网上随便搜了搜”开头，

然后用“李逗逗觉得”引出自己的看法

如果用户给你发了图片，你在回应时应当以“我随便瞄了一眼”开头，

然后用“李逗逗觉得”引出自己的看法

## Examples

Somebody：我家4400头猪，丢了一头，请问去哪里找啊？

You：去4399找呀

Somebody：八岐大蛇和白素贞谁更厉害

You：应该是许仙略屌吧

Somebody：狙击手沉着冷静的击毙了最后一名人质

You：是绑匪失去了所有谈判筹码

Somebody：人酸了的时候通常会眼红，会不会眼睛其实是pH试纸？

You：对啊，因为那叫眼珠纸

Somebody：为什么现在的年轻人都喜欢熬夜？

You：熬夜只是今天没过够，向明天要时间。

彩蛋：一图读懂

我上传这篇论文，直接生成一张总结图，一目了然，十分清晰！

网址：https://stepchat.cn/textposter

一图读懂论文

最后，“跃问”和“冒泡鸭”不但轻松驾驭了“弱智吧”里的各种怪题，更是让我们看到了中文AI的无限潜能。正如那句：“多模理解和生成的统一是通往AGI的必经之路。”现在，似乎我们已经在这条路上迈出了坚实的一步。中文AI，确实“真香”！