Skip to content

3.6 图片与多模态

预计耗时:10 分钟

本关任务简报

浏览器报错截图、设计师给的 Figma 截图、监控大盘图表、竞品界面——这些信息用文字描述给 Claude 既费时又容易遗漏。

Claude Code 支持直接处理图片:把截图拖进来或粘贴进来,Claude 能读懂报错信息、识别 UI 细节、分析数据图表,不需要你把看到的东西先翻译成文字再转述。


通关奖励:解锁以下技能

  • 🖼️ 掌握三种提供图片的方式(拖拽 / 粘贴 / 文件引用)
  • 🐛 能用截图直接诊断报错界面
  • 🎨 能从设计稿直接生成对应组件代码
  • 💡 了解图片 token 消耗量,知道什么时候要控制数量

开始前先检查装备

前置知识说明
2.1 界面概览 →了解输入框的基本操作——粘贴截图就是在这里操作的

图片功能的模型要求

多模态能力需要支持视觉的模型。Claude 官方模型(Sonnet 4.6、Opus 等)默认支持;如果通过中转接入国内模型,部分模型可能不支持图片输入,遇到报错说明该模型不支持。


机制解析

支持的图片格式

  • PNG、JPEG、WebP、GIF(静态帧)
  • 截图(系统截图工具直接粘贴)
  • PDF 页面截图

三种提供图片的方式

方式一:粘贴截图

截图后用 Ctrl+V 粘贴到输入框,图片自动附加到当前消息。注意:别用 Cmd+V——macOS 的系统粘贴在这里粘进去的是文件路径文字而不是图片(iTerm2 是少数例外);Windows / WSL 下如果 Ctrl+V 被终端拦截,改用 Alt+V。这是最快的方式,适合截完立刻发。

方式二:拖拽文件

把图片文件从文件管理器拖入 Claude Code 输入区域,自动添加到上下文。适合已经保存到本地的截图或设计文件。

方式三:@引用图片文件

@screenshot.png 这个错误界面是什么原因?
@design.jpg 根据这个设计稿生成对应的 React 组件

适合图片文件已经在项目目录里的情况,可以和代码文件一起引用。


五个实用场景

场景 1:报错界面诊断

截图浏览器报错或终端错误,粘贴进来:

[粘贴报错截图]
这个报错是什么原因?如何修复?

Claude 识别报错信息、HTTP 状态码、堆栈跟踪,给出诊断和具体修复建议。比复制粘贴错误文字更快,截图里的上下文(高亮颜色、行号标注)也会被识别到。

场景 2:设计稿转代码

@design-mockup.png
根据这个设计稿,用 React + Tailwind CSS 实现对应的组件。
保持颜色、间距、字体大小与设计稿一致。

Claude 识别设计稿里的颜色值、布局结构、组件边界,生成对应的实现代码。

场景 3:UI 实现 vs 设计稿对比

@design.png @src/components/Card.tsx
对比设计稿和当前代码实现,列出所有不一致的地方。
(颜色、间距、圆角、字体大小等)

同时引用设计图和代码文件,让 Claude 做逐项对比。

场景 4:数据图表分析

@analytics-dashboard.png
分析这个数据图表,提取关键指标,给出业务层面的解读。

适合截图监控大盘、数据报告,让 Claude 帮你提炼结论。

场景 5:竞品 UI 分析

@competitor-ui.png @our-ui.png
对比这两个 UI,指出竞品在用户体验上的优势,以及我们可以借鉴的点。

IDE 模式下的补充用法

在 VS Code 扩展里使用时:

  • 截图任意区域后直接在 Claude Code 面板粘贴
  • 可以同时附上相关代码文件,把视觉上下文和代码上下文一起给 Claude
@screenshot-of-bug.png @src/components/Button.tsx
图里的按钮点击后没有反应,帮我找出代码里的问题。

图片 token 消耗说明

图片质量

截图分辨率越高,Claude 识别细节越准确。建议使用 2x 分辨率截图(Retina / HiDPI 屏幕截图效果最好)。

token 消耗

图片会占用较多 token——一张普通截图约等于 1000–3000 个文字 token。处理多张图片时注意上下文窗口,必要时用 /compact 释放空间。


开始闯关

目标:找一张真实的截图,用图片输入的方式让 Claude 分析它。

第 1 步:准备一张截图

选一种你真实遇到过的场景:

  • 浏览器报错截图
  • 设计稿或 UI 参考图
  • 某个界面的 Bug 截图

第 2 步:用粘贴方式发给 Claude

截图后直接 Ctrl+V 粘贴,加上你的问题一起发送。

第 3 步:把图片和代码文件一起提供

如果场景允许,同时用 @文件 引用相关代码,看 Claude 在同时拿到视觉和代码上下文时的分析质量。

第 4 步:对比纯文字描述的效果

用文字把图里的内容描述一遍,再单独问一次,对比两次回答的准确度和效率。


通关检定

  • [ ] 知道三种提供图片的方式(粘贴 / 拖拽 / @引用)
  • [ ] 实际粘贴过一张截图,让 Claude 分析了它
  • [ ] 知道图片可以和代码文件一起引用(@图片 @代码)
  • [ ] 了解图片会消耗较多 token,多张图时需要注意上下文窗口
  • [ ] 知道高分辨率截图能帮 Claude 识别更多细节

全部点亮就算通关 ✓


卡关了?翻车指南在这

粘贴截图后没有出现图片预览

部分终端不支持图片粘贴(尤其是基础的 CMD 和某些 SSH 场景)。改用拖拽文件的方式,或者把图片保存到本地后用 @文件名 引用。

Claude 识别的颜色值和设计稿不符

屏幕截图的颜色受显示器色彩设定影响,不一定完全准确。如果需要精确颜色,在提示词里说明:"颜色值以设计稿标注的色值为准,图片仅供布局参考",或者直接把色值文本提供给 Claude。

Claude 说看不清图片里的文字

可能是截图分辨率太低。重新截一张更大尺寸的,或者把图片里的文字同时以文本形式贴出来作为辅助:

@screenshot.png
图中的报错文字如下(供参考):[把报错信息粘贴在这里]

处理多张图片时回答质量下降

超过 3–4 张图时,Claude 的注意力会分散。建议分多轮处理:先发第一张,得到分析后再发下一张,而不是一次发完。


下一关

3.7 MCP 实战配置与案例 →

图片输入扩展了 Claude 的感知边界,下一关用 MCP 扩展 Claude 的行动边界——让它能真正打开浏览器、操作网页、访问数据库。

面向公开用户维护,内容基于 Claude Code 官方文档与真实使用经验整理