案例04:批量抓取与视频制作自动化
📑 目录
工作流全景
将”批量抓取 + 信息总结”与”视频制作”串联,形成自动化内容生产线:
步骤1:批量采集原始素材
搜索采集 — 单主题批量搜索
请帮我搜索以下主题的最新资讯(限定最近7天):
主题:"AI在医疗行业的最新应用"
搜索关键词组合:
1. "AI 医疗 最新应用"
2. "人工智能 医疗诊断 突破"
3. "AI医疗 2026 新进展"
4. "deep learning healthcare innovation"
对每个搜索结果提取:
- 标题
- 发布时间
- 内容摘要(200字以内)
- 关键数据/案例
- 原文链接
将所有结果保存为 JSON 文件:./data/raw-material-ai-healthcare.json
深度抓取 — 多URL批量提取
请抓取以下链接的全文内容,提取核心信息:
1. https://example.com/ai-healthcare-report-2026
2. https://example.com/deep-learning-medical-breakthrough
3. https://example.com/ai-diagnosis-case-study
4. https://example.com/smart-hospital-trends
对每个页面提取:
- 文章标题和作者
- 发布时间
- 核心观点(3-5条)
- 关键数据和案例
- 有冲击力的事实或数字(适合做视频素材)
输出为结构化JSON,保存到 ./data/deep-content-ai-healthcare.json
多主题批量采集
请帮我批量采集以下3个主题的资料,每个主题搜索5-8条资讯:
主题列表:
1. "AI视频生成技术进展"
2. "数字人技术应用案例"
3. "智能客服行业趋势"
对每个主题:
- 搜索最新资讯(最近7天)
- 提取标题、摘要、关键数据、链接
- 按主题分别保存
最终输出:
- ./data/raw-material-ai-video.json
- ./data/raw-material-digital-human.json
- ./data/raw-material-smart-cs.json
定时自动采集
请帮我创建一个定时任务:
- 名称:视频素材采集-每日
- 时间:每天早上8点
- 任务内容:
1. 搜索以下主题的最新资讯:AI医疗、AI视频生成、数字人
2. 每个主题采集5条最新资讯
3. 提取标题、摘要、关键数据、链接
4. 按日期保存到 ./data/daily-material/YYYY-MM-DD/ 目录
5. 如果有特别有价值的信息(重大突破/爆款案例),标记高优先级
步骤2:信息提取与总结
单主题内容总结
请读取 ./data/raw-material-ai-healthcare.json,进行内容总结:
要求:
1. 提炼3-5个核心观点
2. 提取最有冲击力的数据和案例(数字+对比+效果)
3. 按时间线梳理事件发展
4. 识别争议点和不同观点
5. 总结行业趋势和未来预测
输出为结构化文本,保存到 ./data/summary-ai-healthcare.md
多主题对比总结
请读取以下3个文件,进行跨主题对比分析:
- ./data/raw-material-ai-video.json
- ./data/raw-material-digital-human.json
- ./data/raw-material-smart-cs.json
对每个主题:
1. 提炼3个核心观点
2. 提取关键数据和案例
跨主题分析:
1. 三个主题之间的关联点
2. 共同的技术趋势
3. 可以串联成一条视频的交叉话题
输出保存到 ./data/cross-topic-summary.md
提取视频素材要素
请从 ./data/deep-content-ai-healthcare.json 中提取适合视频制作的内容要素:
1. 适合做视频开头的钩子(令人震惊的数据/反常识的观点/引人好奇的问题)— 提取5个候选
2. 适合做视频主体的案例和故事 — 提取3个最有吸引力的
3. 适合做视频结尾的金句或观点 — 提取3个候选
4. 视频中可引用的关键数字和事实 — 提取10条
5. 可视化建议(哪些数据适合做成图表/对比图/时间线)
输出保存到 ./data/video-elements-ai-healthcare.md
步骤3:分镜脚本生成
生成短视频分镜脚本(1-3分钟)
请基于 ./data/video-elements-ai-healthcare.md,生成一份短视频分镜脚本:
视频基本信息:
- 时长:2分钟
- 风格:知识科普/科技资讯
- 平台:抖音/视频号
- 目标受众:对AI感兴趣的普通观众
分镜脚本格式(JSON):
[
{
"scene_id": 1,
"duration_seconds": 5,
"visual_description": "画面描述(AI生成视频/素材/文字卡片的画面要求)",
"narration": "旁白文案",
"subtitle": "字幕文字(与旁白一致或简化)",
"bgm_suggestion": "背景音乐建议",
"transition": "转场效果建议"
},
...
]
要求:
- 开头5秒必须有强钩子(震撼数据/反常识观点/悬念问题)
- 每30秒设置一个节奏点(新观点/转折/案例)
- 结尾有行动引导(关注/评论/转发)
- 总时长控制在120秒左右
- 共8-12个分镜
输出保存到 ./data/storyboard-ai-healthcare-short.json
生成中视频分镜脚本(5-10分钟)
请基于 ./data/deep-content-ai-healthcare.json,生成一份中视频分镜脚本:
视频基本信息:
- 时长:8分钟
- 风格:深度科普/行业解读
- 平台:B站/YouTube
- 目标受众:科技行业从业者、AI爱好者
要求:
- 开头30秒设置悬念/钩子
- 分为3-4个章节,每章有小标题
- 每章包含:观点阐述 + 案例佐证 + 数据支撑
- 设置互动点(弹幕引导/评论引导)
- 结尾总结+下期预告
- 共20-35个分镜
输出保存到 ./data/storyboard-ai-healthcare-long.json
生成视频画面提示词(用于AI视频生成)
请为以下分镜脚本中的每个场景生成 AI 视频/图片生成提示词:
读取 ./data/storyboard-ai-healthcare-short.json
对每个分镜的 visual_description,生成:
1. 英文视频生成提示词(用于 video_generate 或 Midjourney/Runway 等工具)
2. 提示词风格:写实/科技感/扁平插画/3D渲染(根据场景选择)
3. 宽高比:16:9(横屏)或 9:16(竖屏)
将提示词更新到分镜脚本中,每个场景增加 prompt_en 字段。
输出保存到 ./data/storyboard-ai-healthcare-short-with-prompts.json
步骤4:旁白文案与字幕生成
生成旁白文案(口播稿)
请基于 ./data/storyboard-ai-healthcare-short.json,生成完整的口播旁白文案:
要求:
- 口语化表达,像朋友聊天
- 语速按每秒4字计算
- 标注每段的情感基调(兴奋/严肃/轻松/悬念)
- 标注重读关键词
- 标注停顿点(用 / 表示短停顿,// 表示长停顿)
- 总字数控制在480字左右(2分钟 × 4字/秒)
输出格式:
【开场 - 悬念】
你知道吗?/ 就在今年,// AI已经能够...
【主体 - 案例1】
...
【结尾 - 引导】
...
保存到 ./data/narration-ai-healthcare-short.md
生成字幕文件(SRT格式)
请基于口播文案 ./data/narration-ai-healthcare-short.md,生成 SRT 格式字幕文件:
要求:
- 每段字幕不超过2行
- 每行不超过20个中文字符
- 时间戳按口播节奏标注(每句约3-5秒)
- 文件名:subtitle-ai-healthcare-short.srt
SRT格式示例:
1
00:00:00,000 --> 00:00:04,000
你知道吗?就在今年,
2
00:00:04,000 --> 00:00:08,000
AI已经能够独立诊断疾病了
保存到 ./data/subtitle-ai-healthcare-short.srt
多风格旁白文案生成
请基于同一份分镜脚本 ./data/storyboard-ai-healthcare-short.json,生成3种不同风格的旁白文案:
风格1 — 轻松幽默型:
- 口语化、有梗、适合年轻观众
- 适当使用网络热词
风格2 — 严肃专业型:
- 用词严谨、数据驱动
- 适合行业分析账号
风格3 — 情感故事型:
- 以人物故事切入
- 情感饱满、有感染力
分别保存到:
- ./data/narration-humorous.md
- ./data/narration-professional.md
- ./data/narration-emotional.md
步骤5:视频生成
使用 video_generate 生成视频
请根据分镜脚本 ./data/storyboard-ai-healthcare-short-with-prompts.json,生成视频:
视频要求:
- 时长:120秒
- 宽高比:9:16(竖屏,适合抖音/视频号)
- 分辨率:1080P
- 风格:科技感、现代感
- 开启音频生成
请逐个分镜生成视频片段,然后合成完整视频。
如果无法一次性生成完整视频,请:
1. 生成每个分镜对应的视频片段
2. 保存到 ./data/video-clips/ 目录
3. 提供合成脚本(ffmpeg)将所有片段合并
生成视频封面图
请为视频生成一张封面图:
要求:
- 尺寸:1080×1920(竖屏)
- 内容:视频核心主题的视觉表达
- 标题文字:"AI已能独立诊断疾病?2026医疗AI最新进展"
- 风格:科技感、简洁、有冲击力
- 配色:深蓝/紫色调
保存到 ./data/cover-ai-healthcare.png
批量生成多版本视频
请基于同一份素材和分镜脚本,生成3个不同版本的视频:
版本A — 抖音版:
- 时长:60秒
- 竖屏 9:16
- 快节奏、强钩子
版本B — 视频号版:
- 时长:120秒
- 竖屏 9:16
- 中等节奏、信息量大
版本C — B站横屏版:
- 时长:180秒
- 横屏 16:9
- 详细版、深度内容
每个版本独立生成,分别保存到:
- ./data/videos/version-a-douyin.mp4
- ./data/videos/version-b-videoaccount.mp4
- ./data/videos/version-c-bilibili.mp4
步骤6:批量视频生产线
多主题批量视频生成 — 全流程自动化
请帮我执行以下批量视频生产任务:
主题列表:
1. "AI在医疗行业的最新应用"
2. "AI视频生成技术进展"
3. "数字人技术应用案例"
对每个主题,执行完整流程:
1. 搜索最新资讯(最近7天,5-8条)
2. 提取核心观点、关键数据、案例
3. 生成分镜脚本(2分钟短视频,竖屏9:16)
4. 生成口播文案(轻松风格)
5. 生成SRT字幕文件
6. 生成视频(或视频片段+合成脚本)
输出目录结构:
./data/batch-videos/
├── topic-01-ai-healthcare/
│ ├── raw-material.json
│ ├── summary.md
│ ├── storyboard.json
│ ├── narration.md
│ ├── subtitle.srt
│ └── video.mp4
├── topic-02-ai-video/
│ └── ...
└── topic-03-digital-human/
└── ...
请逐个主题执行,每完成一个主题报告进度。
定时视频内容生产线
请帮我创建一个定时任务:
- 名称:每日视频素材准备
- 时间:每天早上7点
- 任务内容:
1. 搜索3个预设主题的最新资讯
2. 对每个主题生成内容摘要
3. 提取视频素材要素(钩子/案例/金句/数据)
4. 生成短视频分镜脚本
5. 生成口播文案
6. 保存到 ./data/daily-video-pipeline/YYYY-MM-DD/ 目录
注意:
- 只生成文案和脚本,不生成视频(节省Token)
- 视频生成由人工审核后手动触发
- 如果某天没有足够素材,跳过并记录
视频发布元数据生成
请为以下视频生成发布所需的元数据:
视频:./data/batch-videos/topic-01-ai-healthcare/video.mp4
需要生成:
1. 视频标题(3个候选:悬念型/直接型/数字型)
2. 视频简介/描述(200字以内)
3. 话题标签(8-10个,按热度排序)
4. 封面图文字方案(3个候选)
5. 最佳发布时间建议(基于平台特性)
分别适配以下平台:
- 抖音
- 视频号
- B站
- 小红书
保存到 ./data/batch-videos/topic-01-ai-healthcare/publish-meta.json
步骤7:技能沉淀与自动化
沉淀视频生产技能
请帮我创建一个技能文件,名为"视频内容生产线",包含以下流程:
阶段1 — 素材采集
- web_search 搜索指定主题
- web_fetch 深度抓取
- 提取结构化素材(标题/摘要/数据/链接)
阶段2 — 内容总结
- 提炼核心观点(3-5条)
- 提取视频素材要素(钩子/案例/金句/数据)
- 按时间线梳理事件
阶段3 — 脚本生成
- 生成分镜脚本(JSON格式,含画面/旁白/字幕/转场)
- 支持多种时长:60秒/120秒/300秒
- 支持多种风格:科普/资讯/故事/评测
阶段4 — 文案输出
- 口播文案(口语化/专业/情感 三种风格)
- SRT字幕文件
- 视频标题/简介/标签
阶段5 — 视频生成
- 调用 video_generate 生成视频
- 或生成视频片段+ffmpeg合成脚本
创建后,下次只需说:
"用视频内容生产线技能,主题为 [主题名称]"
即可完成从素材采集到视频生成的全流程。
项目目录结构参考
data/
├── batch-videos/ ← 批量视频生产
│ ├── topic-01-ai-healthcare/
│ │ ├── raw-material.json ← 原始采集素材
│ │ ├── summary.md ← 内容总结
│ │ ├── video-elements.md ← 视频素材要素
│ │ ├── storyboard.json ← 分镜脚本
│ │ ├── narration.md ← 口播文案
│ │ ├── subtitle.srt ← 字幕文件
│ │ ├── video.mp4 ← 最终视频
│ │ ├── cover.png ← 封面图
│ │ └── publish-meta.json ← 发布元数据
│ ├── topic-02-ai-video/
│ └── topic-03-digital-human/
├── daily-material/ ← 每日自动采集
│ └── 2026-06-02/
│ ├── topic-01.json
│ ├── topic-02.json
│ └── topic-03.json
├── daily-video-pipeline/ ← 每日视频管线
│ └── 2026-06-02/
│ ├── topic-01/
│ │ ├── summary.md
│ │ ├── storyboard.json
│ │ └── narration.md
│ └── ...
└── video-clips/ ← 视频片段
├── scene-01.mp4
├── scene-02.mp4
└── ...