快速示例教程

通过一个 TED 演讲视频的完整处理流程，快速了解 VideoCaptioner 的强大功能。

示例视频信息

视频时长：14 分钟
原始语言：英语
目标语言：简体中文
总处理时间：约 4 分钟
LLM 费用：¥0.01

处理流程总览

mermaid

graph LR
    A[导入视频] --> B[Whisper 转录]
    B --> C[LLM 智能断句]
    C --> D[LLM 优化翻译]
    D --> E[视频合成]
    E --> F[完成]

步骤 1：语音转录

转录设置

开始转录

配置项	选择
转录模型	Faster Whisper Large-v2
语言	English（自动检测）
VAD 方法	Silero V4

转录结果

转录完成后生成的原始字幕：

srt

1
00:00:02,080 --> 00:00:08,600
So in college, I was a government major,

2
00:00:08,600 --> 00:00:11,080
which means I had to write a lot of papers.

3
00:00:11,080 --> 00:00:12,600
Now, when a normal student writes a paper,

4
00:00:12,600 --> 00:00:15,460
they might spread the work out a little like this.

5
00:00:15,460 --> 00:00:16,300
So you know.

6
00:00:16,300 --> 00:00:20,040
You get started maybe a little slowly,

7
00:00:20,040 --> 00:00:21,600
but you get enough done in the first week

8
00:00:21,600 --> 00:00:24,000
that with some heavier days later on,

9
00:00:24,000 --> 00:00:26,200
everything gets done and things stay civil.

初步观察

✅ 语音识别准确度高
⚠️ 断句较为机械，按固定时长切割
⚠️ 标点符号简单，只有逗号和句号

步骤 2：智能断句与优化

开启优化选项

✅ 智能断句 - 语义分段模式
✅ 字幕优化 - LLM 纠错和标点优化
✅ 字幕翻译 - 简体中文
✅ 反思翻译 - 提升译文质量

优化后的双语字幕

srt

1
00:00:02,080 --> 00:00:08,597
所以在大学时，我是政府专业的学生
So in college, I was a government major.

2
00:00:08,600 --> 00:00:11,078
这意味着我得写很多论文
Which means I had to write a lot of papers.

3
00:00:11,080 --> 00:00:12,596
现在，普通学生写论文时
Now when a normal student writes a paper,

4
00:00:12,600 --> 00:00:15,460
他们可能会这样分散工作
They might spread the work out a little like this.

5
00:00:15,460 --> 00:00:20,040
所以你知道，你可能会稍微慢一些开始
So you know, you get started maybe a little slowly,

6
00:00:20,040 --> 00:00:21,593
但你在第一周能够完成足够的工作
But you get enough done in the first week.

7
00:00:21,600 --> 00:00:23,996
这样之后的一些繁忙日子
That with some heavier days later on.

8
00:00:24,000 --> 00:00:26,200
一切都能完成，事情保持得当
Everything gets done and things stay civil.

优化效果

✨ 断句更自然，根据语义重新分段
✨ 中文翻译流畅，符合中文表达习惯
✨ 保留原文，方便对照学习

步骤 3：查看翻译细节

VideoCaptioner 使用反思翻译技术，每句字幕都经过两次优化：

翻译对比示例

示例 1：优化冗余词汇

log

原字幕：So in college, I was a government major.
翻译后字幕：所以在大学时，我是一个政府专业的学生。
反思后字幕：所以在大学时，我是政府专业的学生。

改进点：删除不必要的"一个"，使译文更简洁

示例 2：自然化表达

log

原字幕：Which means I had to write a lot of papers.
翻译后字幕：这意味着我必须写很多论文。
反思后字幕：这意味着我得写很多论文。

改进点："必须" → "得"，更符合口语表达

示例 3：精简句式

log

原字幕：Now when a normal student writes a paper,
翻译后字幕：现在，当一个普通学生写论文时，
反思后字幕：现在，普通学生写论文时，

改进点：删除"当"和"一个"，句式更紧凑

示例 4：优化动词选择

log

原字幕：They might spread the work out a little like this.
翻译后字幕：他们可能会像这样分散工作。
反思后字幕：他们可能会这样分散工作。

改进点："像这样" → "这样"，更自然

示例 5：调整语序

log

原字幕：So you know, you get started maybe a little slowly,
翻译后字幕：所以你知道，你可能会开始得有点慢，
反思后字幕：所以你知道，你可能会稍微慢一些开始，

改进点：调整语序和用词，更符合中文习惯

步骤 4：视频合成

合成设置

配置项	选择
字幕样式	科普风格
字幕布局	双语字幕（中文在上）
合成方式	硬字幕（烧录到视频）

最终效果

效果图 1：Hero Section

合成效果 1

效果图 2：中段内容

合成效果 2

效果图 3：结尾部分

合成效果 3

字幕特点

双语对照，学习更方便
字体清晰，阅读体验好
位置合理，不遮挡画面重点

步骤 5：查看成本统计

处理完成后，可以在 LLM 服务商后台查看调用情况：

成本统计

费用明细

项目	数值
视频时长	14 分钟
字幕段数	~50 段
使用模型	gpt-4o-mini
处理类型	断句 + 优化 + 翻译（反思模式）
Token 消耗	~5,000 tokens
总费用	¥0.01

成本分析

使用 gpt-4o-mini 模型，性价比极高
即使开启反思翻译，费用依然不到一分钱
处理 100 个类似视频，总费用约 ¥1

性能总结

时间统计

步骤	耗时
语音转录	~2 分钟
智能断句	~30 秒
优化翻译	~1 分钟
视频合成	~30 秒
总计	约 4 分钟

速度优势

处理 14 分钟视频只需 4 分钟，效率远超人工处理！

质量对比

对比项	原始转录	优化后
断句质量	⭐⭐⭐ 机械切割	⭐⭐⭐⭐⭐ 语义分段
标点符号	⭐⭐ 仅基础标点	⭐⭐⭐⭐⭐ 完整标点
翻译质量	-	⭐⭐⭐⭐⭐ 反思优化
阅读体验	⭐⭐⭐ 可用	⭐⭐⭐⭐⭐ 接近专业

适用场景

通过这个示例，VideoCaptioner 特别适合：

1. 教育学习

📚 为英文课程添加中文字幕
🎓 制作双语学习材料
📝 提取视频文字稿用于笔记

2. 内容创作

🎬 YouTube 视频搬运到 B 站
🌍 为自己的视频制作多语言版本
📺 字幕组快速打轴和翻译

3. 商业用途

💼 会议录音转文字稿
🎤 演讲视频添加字幕
🌐 企业宣传片多语言化

下一步

掌握了基本流程后，你可以：

🎨 自定义字幕样式 - 打造独特风格
⚙️ 调整高级参数 - 进一步提升质量
🚀 批量处理视频 - 提高工作效率
📖 查看完整文档 - 了解所有功能

常见问题

为什么我的翻译质量不如示例？

可能原因：

使用的模型质量较低（如 Qwen 小模型）
没有启用反思翻译
线程数过高导致 API 限流

建议：使用 gpt-4o-mini 或 gemini-2.0-flash，启用反思翻译

处理速度慢怎么办？

加速技巧：

使用在线 ASR（B 接口/J 接口）跳过模型下载
提高 LLM 线程数（如果服务商支持高并发）
使用软字幕合成（速度极快）

如何降低成本？

省钱技巧：

选择更便宜的模型（gpt-4o-mini 已经很便宜）
关闭字幕优化，只保留翻译
使用本地 Whisper，不用 API

需要帮助？欢迎在 GitHub Issues 提问！

快速示例教程 ​

处理流程总览 ​

步骤 1：语音转录 ​

转录设置 ​

转录结果 ​

步骤 2：智能断句与优化 ​

开启优化选项 ​

优化后的双语字幕 ​

步骤 3：查看翻译细节 ​

翻译对比示例 ​

示例 1：优化冗余词汇 ​

示例 2：自然化表达 ​

示例 3：精简句式 ​

示例 4：优化动词选择 ​

示例 5：调整语序 ​

步骤 4：视频合成 ​

合成设置 ​

最终效果 ​

效果图 1：Hero Section ​

效果图 2：中段内容 ​

效果图 3：结尾部分 ​

步骤 5：查看成本统计 ​

费用明细 ​

性能总结 ​

时间统计 ​

质量对比 ​

适用场景 ​

1. 教育学习 ​

2. 内容创作 ​

3. 商业用途 ​

下一步 ​

常见问题 ​

为什么我的翻译质量不如示例？ ​

处理速度慢怎么办？ ​

如何降低成本？ ​