1-4 如何搭配多模态 (multi-modal) 完成任务

在前面的单元中，我们分别谈到了 Cursor 的基本设置，以及可以使用哪些常用的快捷键。在这个单元，我们将进一步探讨如何搭配多模态（Multi-modal）来完成任务。

所谓的多模态，指的是模型能够处理不同形态的资讯 (例如图片、影片和文字)。因此可以理解，「多」代表多种不同，「模」是模型，「态」是形态，三个字合起来就是「多模态」，意指模型能处理多种不同的资讯形态。

假如你用过 2022 年底或 2023 年初推出的 ChatGPT，当时的 ChatGPT 只能接受文字输入，并提供文字输出。但现在，如果你使用 ChatGPT，会发现它不仅支援文字输入，还可以上传图片，甚至接受语音输入。而输出的部分也不再局限于文字，ChatGPT 现在还能生成图片或用语音回覆。这种不再局限于单一文字形态，而是涵盖多种不同形态的能力，就是所谓的「多模态」。

在 Cursor 中，我们也可以利用多模态来协助完成任务。例如，Cursor 支援图片上传功能，这在解决特定前端 UI 问题时非常有用。很多时候，用文字描述一个元件 (例如要请 Cursor 完成某个元件) 可能很难清楚表达，但一张图片胜过千言万语。将图片输入到 Cursor 后，它就能根据图片内容，帮你完成所需的 UI 制作。

如何在 Cursor 上传图片并使用

假设今天想让 Cursor 根据图片制作一个元件，可以这样做：

先截取一张图片，让 Cursor 知道我们想要什么样的元件
进入 Cursor，将这张图片贴上。这时介面会显示一个「image」标签，滑鼠移过去就能预览刚刚截取的图片，来确保是上传正确的图片。
接着输入提示词 (Prompt)，Cursor 会根据图片和提示词生成程式码，点击「Apply」后，就能看到新元件出现在程式中。

搭配语音输入使用 Cursor

接下来，我们谈谈如何透过语音输入来操作 Cursor。语音输入需要搭配一个额外的应用程式，这里推荐在 Addy Osmani 写的文章《Speech-to-Code: Vibe Coding with Voice》中提到的工具superwhisper。实际使用后，我们发现 superwhisper 确实非常好用，让人做到「用嘴巴写程式」。

如何使用 superwhisper 搭配 Cursor

要搭配 superwhisper 来使用 Cursor，可以这样做：

下载 superwhisper：前往 superwhisper 的官网 (https://superwhisper.com/)，点击首页的「Download Now」按钮，下载并安装。
搭配 Cursor 使用：安装完成后，开启 Cursor 和 superwhisper，准备语音输入。

总结

透过这个单元，希望大家能感受到在 Cursor 中利用多模态的便利性：

图片上传：帮助快速生成 UI 元件。
语音输入：搭配 superwhisper，用语音输入来写程式。

这些功能在日常任务中未必每次都用得上，但建议大家实际试玩几次。

此系列文章为 《给工程师的 Cursor 工作流 — 透过 AI 代理全方位提升开发生产力》 搭配的教材。希望透过这系列文章，将过去协助导入 AI 工具及使用 Cursor 的经验扩展并分享给想提升生产力的读者。如果对课程感兴趣的读者，可以加入 E+ 成长计划，观看影片学习。