跳到主要内容
📖 本章预览

本章为预览版本,展示部分核心内容。完整内容包含详细源码解析、实战代码和面试要点,加入知识星球即可解锁全部章节。

第22章 多模态:AI 能看能听能说了

22.1 图像理解:Image-to-Text

22.1.1 基本用法

/**
* 图像理解:让 LLM 分析图片内容
* 需要使用支持多模态的模型(如通义千问 VL)
*/
@Service
public class ImageUnderstandingService {

@Autowired
private ChatModel chatModel;

/** 分析图片内容 */
public String analyzeImage(String imageUrl) {
UserMessage message = new UserMessage(
"请描述这张图片的内容。",
List.of(new Media(MimeTypeUtils.IMAGE_PNG, new URL(imageUrl)))
);

ChatResponse response = chatModel.call(new Prompt(List.of(message)));
return response.getResult().getOutput().getText();
}

/** 从本地文件分析 */
public String analyzeLocalImage(Resource imageResource) {
UserMessage message = new UserMessage(
"请描述这张图片的内容。",
List.of(new Media(MimeTypeUtils.IMAGE_JPEG, imageResource))
);

return chatModel.call(new Prompt(List.of(message)))
.getResult().getOutput().getText();
}
}

22.1.2 图像问答

/**
* 基于图片的问答
*/
public String askAboutImage(String imageUrl, String question) {
UserMessage message = new UserMessage(
question,
List.of(new Media(MimeTypeUtils.IMAGE_PNG, new URL(imageUrl)))
);

return chatModel.call(new Prompt(List.of(message)))
.getResult().getOutput().getText();
}

// 使用示例:
// askAboutImage("https://example.com/receipt.jpg", "这张发票的金额是多少?")
// askAboutImage("https://example.com/chart.png", "这个图表的趋势是什么?")

22.1.3 多图对比

/**
* 多图对比分析
*/
public String compareImages(String imageUrl1, String imageUrl2) {
UserMessage message = new UserMessage(
"请对比这两张图片,说明它们的异同。",
List.of(
new Media(MimeTypeUtils.IMAGE_PNG, new URL(imageUrl1)),
new Media(MimeTypeUtils.IMAGE_PNG, new URL(imageUrl2))
)
);

return chatModel.call(new Prompt(List.of(message)))
.getResult().getOutput().getText();
}

22.2 图像生成:Text-to-Image

22.2.1 基本图像生成

/**
* 文生图:通义万相
*/
@Service
public class ImageGenerationService {

@Autowired
private ImageModel imageModel;

/** 生成图片 */
public String generateImage(String prompt) {
ImagePrompt imagePrompt = new ImagePrompt(prompt,
ImageOptions.builder()


🔒 解锁完整内容

本章剩余内容需要解锁后查看

以上仅为本章部分预览内容,完整内容包含更多深度源码解析、实战代码和面试要点。

加入知识星球你将获得:

  • ✅ 全部 26 章完整内容 + 持续更新
  • ✅ 配套源码 + 实战项目
  • ✅ 一对一答疑 + 面试辅导
  • ✅ 简历优化 + 内推机会

📚 本章完整目录

以下为本章完整目录结构,加入知识星球即可解锁全部内容。

22.2.2 图像编辑

22.3 语音处理

22.3.1 语音合成(TTS)

22.3.2 语音识别(STT)

22.4 多模态融合对话

22.4.1 图文混合对话

22.4.2 REST API