ChatGPT 与 Bard 评测，GPT 与 Gemini 谁的成果更好？

最近 AI 界的大新闻，莫过于 Google 的 Gemini 模型正式推出。 Google 在推出 Gemini 时，同时秀出了跑分，在 32 项跑分中，Gemini Ultra 有 30 项超越目前业界最强的 GPT-4，这引起了社群的广泛讨论。毕竟过去一年 ChatGPT 一直被认为是回覆品质最好的 AI 聊天机器人，现在 Gemini 的跑分超过 GPT-4，在社群中也出现是否 Bard 将取代 ChatGPT 的讨论。

但是现实状况跟实验中的跑分往往会是两回事，毕竟实验可能可以透过一些调整去获得比较好看的跑分数字，因此推荐大家在直接相信跑分前，自己去尝试会是很重要的。基于这点，在本篇文章，我们将针对不同面向实际评测，来看看 GPT 与 Gemini 到底孰优孰劣? 或是谁比较擅长某些领域的任务?

ChatGPT 与 Bard 评测，GPT 与 Gemini 谁的成果更好

如开头提到，我们将针对几个多数上班族会遇到的以下四种情境来评测：

翻译类工作
摘要与分析类工作
评论类工作
程式类工作

特别注意，因为目前 Bard 使用的是 Gemini Pro，而不是最强的 Gemini Ultra，在实际跑分上，GPT-4 在多项指标仍是好过 Gemini Pro，所以我们实际的测试，会是比较 GPT-4、 GPT-3.5，以及 Gemini Pro。另外，在 Gemini 发布的跑分数据中，有些是 0-shot 有些是 5-shot，有些是 10-shot，所以在不同状况下，可能不同模型表现不同，这边我们统一用 0-shot 来测试。

评测总结

相信很多人可能会想直接看评测的结果。这边先放我们的结论，有兴趣了解细节的读者可以往下看。在看结论前想提醒大家，AI 生成的结果好坏判断，是相对主观的。同样的内容可能有人觉得 A 比较好，但也可能有其他人偏好 B。因此推荐大家也可以自己测测看，然后选择自己偏好的。

以总体来看，我们认为 GPT-4 是好过 Gemini Pro 的表现，而 Gemini Pro 好过 GPT-3.5。因此，假如同样是不花钱只用免费版的，目前我们的首选会是 Bard 而不是 ChatGPT；而如果想再获得更好一点的回覆成果，且愿意每个月花$20 美元，那么 ChatGPT 仍是我们的首选。

这时你可能会问，应该花钱升级到 GPT-4 吗? 假如你原本用免费版 ChatGPT 觉得已经很足够，现在仍推荐可以持续用免费版就好，甚至推荐可以改成用 Bard。然而如果你过去是 GPT-4 重度使用者，且会用插件与 DALL·E 等额外功能，那么目前的 Bard 可能仍然没办法满足你的需求。

翻译类任务

用 AI 协助翻译的品质会比传统用 Google 翻译来的好，以下我们测试翻译先前介绍《Odd One Out》AI 游戏的介绍[中文原文点此]。我们使用简短的提示词，只标着用纽约客的风格来输出「Act as a professional blogger, turn the following content into English and write in New Yorker's style」

翻译速度上来说，Gemini Pro 跟 GPT-3.5 速度差不多。而跟 GPT-4 对比，Gemini Pro 速度快很多，几乎是稳定两到三倍快，同样的段落，Gemini Pro 完成翻译后，GPT-4 几乎每次都翻不到一半。

当然，对于翻译的偏好这件事很主观，以下附上「生成式图像让眼见为凭的不再是可靠的，例如我们前几天分享的 AI 换脸工具 misgif (以及版友留言推荐的 MemeMe)，或是前阵子讨论度比较高的 HeyGen，以假乱真到难以辨别。因此非常推荐大家玩这个小游戏。」这段落的翻译结果，大家可以有自己的评分与判断。

为了让大家更能独立判断，以下三个结果先不放是哪个模型翻译的，推荐大家先有自己的判断，在看下方揭晓的结果，以及我们的看法。

第一个：

In an era where seeing is no longer believing, generative images have shaken our trust in visual evidence. Take, for example, the AI face-swapping tool misgif we shared recently, or the widely discussed HeyGen. Their capacity to blend fiction with reality is astonishing. Therefore, I highly recommend giving this game a try.

第二个：

In the age of deepfakes and other forms of synthetic media, it is more important than ever to be able to think critically about the information we consume. Odd One Out can help us develop this skill by teaching us to question our assumptions and to look for evidence to support our beliefs.

I highly recommend this game to anyone who wants to improve their critical thinking skills. It is a fun and engaging way to learn to think for yourself.

第三个：

Generative imagery has turned the age-old adage "seeing is believing" on its head. Take, for instance, the AI face-swapping tool we shared a few days ago, known as "misgif" (as well as the memes recommended by fellow users), or the recent buzz around "HeyGen." These technologies blur the line between reality and fiction to the point where it's often challenging to tell them apart. That's precisely why I wholeheartedly recommend everyone give this little game a spin.

大家有自己心目中的排序了吗? 这边揭晓以上分别是 GPT-4、Gemini Pro 以及 GPT-3.5 的翻译成果。

我们的看法是：同样的提示词下，Gemini Pro 会把一些原文内容做重新诠释，而不是直接翻译；GPT-4 与 GPT-3.5 则会保留更夺中文的原字句。至于翻译的品质，原文的意思都没有偏掉，写作风格上 GPT-4 更能揣摩纽约客的风格，但 Gemini Pro 的写作品质也很好。

总的来说，如果希望更保留原本字句，GPT-4 效果比较好；但假如翻译需求不是非要逐句翻，Gemini Pro 让人读起来觉得比较顺。

摘要与分析类任务

在求学或工作中，摘要与分析也是经常需要做的事，AI 在这块也能帮上大忙。这边选用《TypeScript 纪录片心得— 开创微软的开源之路》一文[原文点此]，分别测试了 Gemini Pro、GPT-4 与 GPT-3.5，来看看分别的成效。

这边使用的提示词是「扮演一名产业分析专家，摘要以下内容，列出三点主要收获与洞见，并提出科技公司可以基于这些洞见有什么具体行动」，一样先让大家看看三个回覆的成果(因为回覆很长，这边只截取其中一点洞见与具体行动)。

第一个：

开源是 TypeScript 成功的关键：TypeScript 的成功，与它从最开始就开源的策略密不可分。开源让 TypeScript 能够获得广泛的开发者社群支持，并快速地发展出丰富的工具与资源。

科技公司可以基于这些洞见采取的具体行动：拥抱开源。开源可以帮助科技公司获得广泛的开发者社群支持，并快速地发展出丰富的工具与资源。

第二个：

开源策略的影响：微软最初开发 TypeScript 是为了内部需求，但最终决定将其开源。这一策略不仅帮助 TypeScript 获得了广泛的社群支持，也是微软转向开源社群的重要一步。

行动建议：科技公司应该考虑开源策略作为提高产品影响力和获取社群支持的手段。开源不仅可以加速技术创新，还能建立品牌的积极形象。

第三个：

开源对于成功的关键性作用：TypeScript 的开源使它能够受到广泛的开发者社群支持，进而成为主流的程式语言选择。微软的商业模式转变，由卖专有软体转向提供云端服务，使得开源成为可能。开源不仅扩大了使用者群，还增加了合作机会，促进了微软在开源社群的参与。

科技公司可以基于这些洞见采取以下具体行动：如果科技公司希望推广其产品或技术，考虑将其开源，以扩大开发者社群并增加合作机会。开源可以提高产品的可见性和受欢迎度，同时也能更好地聆听使用者的反馈，以不断改进产品。

对于以上三个总结与推荐的行动，大家有偏好的排序了吗? 这边揭晓以上分别是 Gemini Pro、GPT-4 以及 GPT-3.5 的成果。

我们的观点是，如果要选一个版本来用，也是最偏好 GPT-4。 Gemini Pro 在而这边可以看到在行动方案部分与总结的文字，有高度的重叠；而 GPT-3.5 有比较显而易见的问题，就是混淆了不同段落。原文提到开源与倾听使用者声音，这是两个独立的点，其实不没有因果关系，即使不开源也是可以很好地聆听使用者的声音。 因此在这项任务上，会认为 GPT-4 > Gemini Pro > GPT-3.5。 GPT-3.5 最差是因为有相对严重的因果混淆问题。

评论类工作

评论、点评、批判等任务，也是工作很常需要用到的。先前我们写过《用ChatGPT 来练习独立思考，以黄仁勋的演讲为例》一文，说明在 AI 时代，独立思考的重要性，以及如何用 AI 工具帮助自己做好这点。

这边使用以下提示词「扮演一名具有独立思考的评论员，请针对以下内容，提出你的看法，包含提出反面观点，并点出有哪些没考量到的面向、有哪些面向可以讲得更深入?」来评论《选择无聊的技术》 [原文连结] 这篇内容。

由于 Gemini Pro、GPT-4 与 GPT-3.5 的回覆都有一定长度，这边节录其中的段落，一样先让大家判断觉得哪个评论的比较好

第一个：

在这篇文章中，作者提出了一个有趣的观点，即选择技术框架时应该考虑到实际价值和成本效益，而不是盲目地追求最新的技术。这种谨慎选择技术的方法值得探讨，但也存在一些反面观点和未考虑到的方面。

首先，值得注意的是，选择技术框架应该根据具体的项目需求而定。在某些情况下，使用新的技术可能确实能够提供更好的性能和更好的开发体验，这可以对长期成功的网站运营有重要影响。因此，不应该一味追求无聊的技术，而应该在技术选择上找到平衡，根据具体需求来做出选择。

另一个反面观点是，技术的演进往往带来更好的安全性、可维护性和扩展性。使用过时的技术可能会导致未来的问题，需要更多的时间和资源来修复。因此，在选择技术时，也应该考虑到长期的可持续性，而不仅仅是目前的价值。

第二个：

ExplainThis 团队在评估时没有考虑到以下因素：

未来的发展需求
团队的技术能力
网站的复杂性

如果 ExplainThis 团队考虑了这些因素，他们可能会做出不同的决定。例如，如果他们计划在未来添加更多互动功能，那么升级 Next 13 或迁移到 Astro 可能会是一个更好的选择。以下是一些可以深入讨论的面向：

如何衡量技术成本和收益
如何评估技术对用户体验的影响
如何考虑未来的发展需求
如何评估团队的技术能力
如何评估网站的复杂性

这些面向可以帮助我们更好地理解技术选择的影响

第三个：

反面观点

技术进步的忽略：这种保守的策略可能会导致错过新技术带来的机遇，特别是在快速变化的前端技术领域。
对未来的不可预测性：即使目前的技术框架表现良好，但未来可能会出现更优秀的解决方案，因此需要保持灵活性。
技术债务的积累：长期依赖过时的技术可能会导致技术债务，未来升级或转移成本可能会更高。

深入讨论的面向

技术趋势与业务需求的平衡：如何在追求最新技术趋势和满足实际业务需求之间取得平衡。
成本效益分析：深入探讨升级技术和维持现状之间的成本效益，包括长期和短期的影响。
技术创新与风险管理：探讨如何在采用新技术的同时有效管理风险，特别是在高度竞争的市场中。

大家觉得哪个评论比较精辟呢? 上面的评论分别来自 GPT-3.5、Gemini Pro，以及 GPT-4。我们认为上面三个回覆版本，是 GPT-4 > Gemini Pro > GPT-3.5。

GPT-3.5 的输出仅提到两个主要的不同观点，但是 GPT-4 与 Gemini Pro 都有更完整的列举不同观点。由于 GPT-4 对某个提出的点，有在进一步做解释，因此对于写原文的我们来说，这个回覆会比较有帮助一点。

程式类工作

作为工程师，在写程式、写测试时，用 AI 帮忙，几乎已经成为过去一年的开发日常行为。之前一直是用 ChatGPT 以及基于 GPT-4 模型的 Cursor，这次 Gemini 特别发表了《Gemini: Excelling at competitive programming》介绍，来展示 Gemini 写程式的强大能力。

这边简单测了几种情境，一个是软体工程师面试基本都会被问的资料结构与演算法。我们用业界最有名的 Blind 75 问题测试，拿了五题 Hard 的问题，基本上 Gemini Pro、GPT-4 与 GPT-3.5，用 Python 都能全部解出来。

因为很可能这些经典题目都早已在训练资料中，所以解出来不意外。于是我们拿了 LeetCode 周赛题目来测试，结果也是 Gemini Pro、GPT-4 与 GPT-3.5 都能顺解出。 但是在速度上，GPT-4 大概要花 Gemini Pro 与 GPT-3.5 两倍的时间。 LeetCode 周赛的 Hard 难度题目，是超过半数工程师解不出来的，但对这几个模型来说是轻而易举。

不过在 Gemini 的发表中，确实有提到，目前表现比较好的程式语言为 Python、Java、C++ 以及 Go。实际测起来，确实其他语言表现没这么好。举例来说，直接把 Advent of TypeScript 的前七题丢给 Gemini Pro，在一次提示词的情况下，只答对其中五题，但是 GPT-4 是七题全对。

假如以日常的开发任务来看，如果单以用 Python 与 Go 写出能完成 CRUD 的服务来说，三个模型也都能顺利完成。不过对工程师来说，能把 AI 整合到开发环境中，会更方便。目前 GPT-4 已经被 Cursor 与 GitHub Copilot 等工具使用上，直接整合在开发环境 IDE 当中，Gemini Pro 则还没有。 因此在写程式上，还是会偏好有整合的 GPT-4。