1-4 如何搭配多模态 (multi-modal) 完成任务
2025年4月19日
在前面的单元中,我们分别谈到了 Cursor 的基本设置,以及可以使用哪些常用的快捷键。在这个单元,我们将进一步探讨如何搭配多模态(Multi-modal)来完成任务。
所谓的多模态,指的是模型能够处理不同形态的资讯 (例如图片、影片和文字)。因此可以理解,「多」代表多种不同,「模」是模型,「态」是形态,三个字合起来就是「多模态」,意指模型能处理多种不同的资讯形态。

假如你用过 2022 年底或 2023 年初推出的 ChatGPT,当时的 ChatGPT 只能接受文字输入,并提供文字输出。但现在,如果你使用 ChatGPT,会发现它不仅支援文字输入,还可以上传图片,甚至接受语音输入。而输出的部分也不再局限于文字,ChatGPT 现在还能生成图片或用语音回覆。这种不再局限于单一文字形态,而是涵盖多种不同形态的能力,就是所谓的「多模态」。
在 Cursor 中,我们也可以利用多模态来协助完成任务。例如,Cursor 支援图片上传功能,这在解决特定前端 UI 问题时非常有用。很多时候,用文字描述一个元件 (例如要请 Cursor 完成某个元件) 可能很难清楚表达,但一张图片胜过千言万语。将图片输入到 Cursor 后,它就能根据图片内容,帮你完成所需的 UI 制作。
如何在 Cursor 上传图片并使用
假设今天想让 Cursor 根据图片制作一个元件,可以这样做:
- 先截取一张图片,让 Cursor 知道我们想要什么样的元件
- 进入 Cursor,将这张图片贴上。这时介面会显示一个「image」标签,滑鼠移过去就能预览刚刚截取的图片,来确保是上传正确的图片。
- 接着输入提示词 (Prompt),Cursor 会根据图片和提示词生成程式码,点击「Apply」后,就能看到新元件出现在程式中。

搭配语音输入使用 Cursor
接下来,我们谈谈如何透过语音输入来操作 Cursor。语音输入需要搭配一个额外的应用程式,这里推荐在 Addy Osmani 写的文章《Speech-to-Code: Vibe Coding with Voice》中提到的工具superwhisper。实际使用后,我们发现 superwhisper 确实非常好用,让人做到「用嘴巴写程式」。

如何使用 superwhisper 搭配 Cursor
要搭配 superwhisper 来使用 Cursor,可以这样做:
- 下载 superwhisper:前往 superwhisper 的官网 (https://superwhisper.com/),点击首页的「Download Now」按钮,下载并安装。
- 搭配 Cursor 使用:安装完成后,开启 Cursor 和 superwhisper,准备语音输入。

总结
透过这个单元,希望大家能感受到在 Cursor 中利用多模态的便利性:
- 图片上传:帮助快速生成 UI 元件。
- 语音输入:搭配 superwhisper,用语音输入来写程式。
这些功能在日常任务中未必每次都用得上,但建议大家实际试玩几次。
此系列文章为 《给工程师的 Cursor 工作流 — 透过 AI 代理全方位提升开发生产力》 搭配的教材。希望透过这系列文章,将过去协助导入 AI 工具及使用 Cursor 的经验扩展并分享给想提升生产力的读者。如果对课程感兴趣的读者,可以加入 E+ 成长计划,观看影片学习。