3.6 图片与多模态

预计耗时：10 分钟

本关任务简报

浏览器报错截图、设计师给的 Figma 截图、监控大盘图表、竞品界面——这些信息用文字描述给 Claude 既费时又容易遗漏。

Claude Code 支持直接处理图片：把截图拖进来或粘贴进来，Claude 能读懂报错信息、识别 UI 细节、分析数据图表，不需要你把看到的东西先翻译成文字再转述。

通关奖励：解锁以下技能

🖼️ 掌握三种提供图片的方式（拖拽 / 粘贴 / 文件引用）
🐛 能用截图直接诊断报错界面
🎨 能从设计稿直接生成对应组件代码
💡 了解图片 token 消耗量，知道什么时候要控制数量

开始前先检查装备

前置知识	说明
2.1 界面概览 →	了解输入框的基本操作——粘贴截图就是在这里操作的

图片功能的模型要求

多模态能力需要支持视觉的模型。Claude 官方模型（Sonnet 4.6、Opus 等）默认支持；如果通过中转接入国内模型，部分模型可能不支持图片输入，遇到报错说明该模型不支持。

机制解析

支持的图片格式

PNG、JPEG、WebP、GIF（静态帧）
截图（系统截图工具直接粘贴）
PDF 页面截图

三种提供图片的方式

方式一：粘贴截图

截图后用 Ctrl+V 粘贴到输入框，图片自动附加到当前消息。注意：别用 Cmd+V——macOS 的系统粘贴在这里粘进去的是文件路径文字而不是图片（iTerm2 是少数例外）；Windows / WSL 下如果 Ctrl+V 被终端拦截，改用 Alt+V。这是最快的方式，适合截完立刻发。

方式二：拖拽文件

把图片文件从文件管理器拖入 Claude Code 输入区域，自动添加到上下文。适合已经保存到本地的截图或设计文件。

方式三：@引用图片文件

@screenshot.png 这个错误界面是什么原因？
@design.jpg 根据这个设计稿生成对应的 React 组件

适合图片文件已经在项目目录里的情况，可以和代码文件一起引用。

五个实用场景

场景 1：报错界面诊断

截图浏览器报错或终端错误，粘贴进来：

[粘贴报错截图]
这个报错是什么原因？如何修复？

Claude 识别报错信息、HTTP 状态码、堆栈跟踪，给出诊断和具体修复建议。比复制粘贴错误文字更快，截图里的上下文（高亮颜色、行号标注）也会被识别到。

场景 2：设计稿转代码

@design-mockup.png
根据这个设计稿，用 React + Tailwind CSS 实现对应的组件。
保持颜色、间距、字体大小与设计稿一致。

Claude 识别设计稿里的颜色值、布局结构、组件边界，生成对应的实现代码。

场景 3：UI 实现 vs 设计稿对比

@design.png @src/components/Card.tsx
对比设计稿和当前代码实现，列出所有不一致的地方。
（颜色、间距、圆角、字体大小等）

同时引用设计图和代码文件，让 Claude 做逐项对比。

场景 4：数据图表分析

@analytics-dashboard.png
分析这个数据图表，提取关键指标，给出业务层面的解读。

适合截图监控大盘、数据报告，让 Claude 帮你提炼结论。

场景 5：竞品 UI 分析

@competitor-ui.png @our-ui.png
对比这两个 UI，指出竞品在用户体验上的优势，以及我们可以借鉴的点。

IDE 模式下的补充用法

在 VS Code 扩展里使用时：

截图任意区域后直接在 Claude Code 面板粘贴
可以同时附上相关代码文件，把视觉上下文和代码上下文一起给 Claude

@screenshot-of-bug.png @src/components/Button.tsx
图里的按钮点击后没有反应，帮我找出代码里的问题。

图片 token 消耗说明

图片质量

截图分辨率越高，Claude 识别细节越准确。建议使用 2x 分辨率截图（Retina / HiDPI 屏幕截图效果最好）。

token 消耗

图片会占用较多 token——一张普通截图约等于 1000–3000 个文字 token。处理多张图片时注意上下文窗口，必要时用 /compact 释放空间。

开始闯关

目标：找一张真实的截图，用图片输入的方式让 Claude 分析它。

第 1 步：准备一张截图

选一种你真实遇到过的场景：

浏览器报错截图
设计稿或 UI 参考图
某个界面的 Bug 截图

第 2 步：用粘贴方式发给 Claude

截图后直接 Ctrl+V 粘贴，加上你的问题一起发送。

第 3 步：把图片和代码文件一起提供

如果场景允许，同时用 @文件 引用相关代码，看 Claude 在同时拿到视觉和代码上下文时的分析质量。

第 4 步：对比纯文字描述的效果

用文字把图里的内容描述一遍，再单独问一次，对比两次回答的准确度和效率。

通关检定

[ ] 知道三种提供图片的方式（粘贴 / 拖拽 / @引用）
[ ] 实际粘贴过一张截图，让 Claude 分析了它
[ ] 知道图片可以和代码文件一起引用（@图片 @代码）
[ ] 了解图片会消耗较多 token，多张图时需要注意上下文窗口
[ ] 知道高分辨率截图能帮 Claude 识别更多细节

全部点亮就算通关 ✓

卡关了？翻车指南在这

粘贴截图后没有出现图片预览

部分终端不支持图片粘贴（尤其是基础的 CMD 和某些 SSH 场景）。改用拖拽文件的方式，或者把图片保存到本地后用 @文件名 引用。

Claude 识别的颜色值和设计稿不符

屏幕截图的颜色受显示器色彩设定影响，不一定完全准确。如果需要精确颜色，在提示词里说明："颜色值以设计稿标注的色值为准，图片仅供布局参考"，或者直接把色值文本提供给 Claude。

Claude 说看不清图片里的文字

可能是截图分辨率太低。重新截一张更大尺寸的，或者把图片里的文字同时以文本形式贴出来作为辅助：

@screenshot.png
图中的报错文字如下（供参考）：[把报错信息粘贴在这里]

处理多张图片时回答质量下降

超过 3–4 张图时，Claude 的注意力会分散。建议分多轮处理：先发第一张，得到分析后再发下一张，而不是一次发完。

下一关

3.7 MCP 实战配置与案例 →

图片输入扩展了 Claude 的感知边界，下一关用 MCP 扩展 Claude 的行动边界——让它能真正打开浏览器、操作网页、访问数据库。

1.1 安装

1.2 接入模型

3.9 Skills 专题

3.6 图片与多模态

本关任务简报

通关奖励：解锁以下技能

开始前先检查装备

机制解析

支持的图片格式

三种提供图片的方式

五个实用场景

IDE 模式下的补充用法

图片 token 消耗说明

开始闯关

通关检定

卡关了？翻车指南在这

下一关

3.6 图片与多模态 ​

本关任务简报 ​

通关奖励：解锁以下技能 ​

开始前先检查装备 ​

机制解析 ​

支持的图片格式 ​

三种提供图片的方式 ​

五个实用场景 ​

IDE 模式下的补充用法 ​

图片 token 消耗说明 ​

开始闯关 ​

通关检定 ​

卡关了？翻车指南在这 ​

下一关 ​

3.6 图片与多模态

本关任务简报

通关奖励：解锁以下技能

开始前先检查装备

机制解析

支持的图片格式

三种提供图片的方式

五个实用场景

IDE 模式下的补充用法

图片 token 消耗说明

开始闯关

通关检定

卡关了？翻车指南在这

下一关