Skip to content

快速示例教程

通过一个 TED 演讲视频的完整处理流程,快速了解 VideoCaptioner 的强大功能。

示例视频信息

  • 视频时长:14 分钟
  • 原始语言:英语
  • 目标语言:简体中文
  • 总处理时间:约 4 分钟
  • LLM 费用:¥0.01

处理流程总览

mermaid
graph LR
    A[导入视频] --> B[Whisper 转录]
    B --> C[LLM 智能断句]
    C --> D[LLM 优化翻译]
    D --> E[视频合成]
    E --> F[完成]

步骤 1:语音转录

转录设置

开始转录

配置项选择
转录模型Faster Whisper Large-v2
语言English(自动检测)
VAD 方法Silero V4

转录结果

转录完成后生成的原始字幕:

srt
1
00:00:02,080 --> 00:00:08,600
So in college, I was a government major,

2
00:00:08,600 --> 00:00:11,080
which means I had to write a lot of papers.

3
00:00:11,080 --> 00:00:12,600
Now, when a normal student writes a paper,

4
00:00:12,600 --> 00:00:15,460
they might spread the work out a little like this.

5
00:00:15,460 --> 00:00:16,300
So you know.

6
00:00:16,300 --> 00:00:20,040
You get started maybe a little slowly,

7
00:00:20,040 --> 00:00:21,600
but you get enough done in the first week

8
00:00:21,600 --> 00:00:24,000
that with some heavier days later on,

9
00:00:24,000 --> 00:00:26,200
everything gets done and things stay civil.

初步观察

  • ✅ 语音识别准确度高
  • ⚠️ 断句较为机械,按固定时长切割
  • ⚠️ 标点符号简单,只有逗号和句号

步骤 2:智能断句与优化

开启优化选项

  • 智能断句 - 语义分段模式
  • 字幕优化 - LLM 纠错和标点优化
  • 字幕翻译 - 简体中文
  • 反思翻译 - 提升译文质量

优化后的双语字幕

srt
1
00:00:02,080 --> 00:00:08,597
所以在大学时,我是政府专业的学生
So in college, I was a government major.

2
00:00:08,600 --> 00:00:11,078
这意味着我得写很多论文
Which means I had to write a lot of papers.

3
00:00:11,080 --> 00:00:12,596
现在,普通学生写论文时
Now when a normal student writes a paper,

4
00:00:12,600 --> 00:00:15,460
他们可能会这样分散工作
They might spread the work out a little like this.

5
00:00:15,460 --> 00:00:20,040
所以你知道,你可能会稍微慢一些开始
So you know, you get started maybe a little slowly,

6
00:00:20,040 --> 00:00:21,593
但你在第一周能够完成足够的工作
But you get enough done in the first week.

7
00:00:21,600 --> 00:00:23,996
这样之后的一些繁忙日子
That with some heavier days later on.

8
00:00:24,000 --> 00:00:26,200
一切都能完成,事情保持得当
Everything gets done and things stay civil.

优化效果

  • ✨ 断句更自然,根据语义重新分段
  • ✨ 中文翻译流畅,符合中文表达习惯
  • ✨ 保留原文,方便对照学习

步骤 3:查看翻译细节

VideoCaptioner 使用反思翻译技术,每句字幕都经过两次优化:

翻译对比示例

示例 1:优化冗余词汇

log
原字幕:So in college, I was a government major.
翻译后字幕:所以在大学时,我是一个政府专业的学生。
反思后字幕:所以在大学时,我是政府专业的学生。

改进点:删除不必要的"一个",使译文更简洁

示例 2:自然化表达

log
原字幕:Which means I had to write a lot of papers.
翻译后字幕:这意味着我必须写很多论文。
反思后字幕:这意味着我得写很多论文。

改进点:"必须" → "得",更符合口语表达

示例 3:精简句式

log
原字幕:Now when a normal student writes a paper,
翻译后字幕:现在,当一个普通学生写论文时,
反思后字幕:现在,普通学生写论文时,

改进点:删除"当"和"一个",句式更紧凑

示例 4:优化动词选择

log
原字幕:They might spread the work out a little like this.
翻译后字幕:他们可能会像这样分散工作。
反思后字幕:他们可能会这样分散工作。

改进点:"像这样" → "这样",更自然

示例 5:调整语序

log
原字幕:So you know, you get started maybe a little slowly,
翻译后字幕:所以你知道,你可能会开始得有点慢,
反思后字幕:所以你知道,你可能会稍微慢一些开始,

改进点:调整语序和用词,更符合中文习惯


步骤 4:视频合成

合成设置

配置项选择
字幕样式科普风格
字幕布局双语字幕(中文在上)
合成方式硬字幕(烧录到视频)

最终效果

效果图 1:Hero Section

合成效果 1

效果图 2:中段内容

合成效果 2

效果图 3:结尾部分

合成效果 3

字幕特点

  • 双语对照,学习更方便
  • 字体清晰,阅读体验好
  • 位置合理,不遮挡画面重点

步骤 5:查看成本统计

处理完成后,可以在 LLM 服务商后台查看调用情况:

成本统计

费用明细

项目数值
视频时长14 分钟
字幕段数~50 段
使用模型gpt-4o-mini
处理类型断句 + 优化 + 翻译(反思模式)
Token 消耗~5,000 tokens
总费用¥0.01

成本分析

  • 使用 gpt-4o-mini 模型,性价比极高
  • 即使开启反思翻译,费用依然不到一分钱
  • 处理 100 个类似视频,总费用约 ¥1

性能总结

时间统计

步骤耗时
语音转录~2 分钟
智能断句~30 秒
优化翻译~1 分钟
视频合成~30 秒
总计约 4 分钟

速度优势

处理 14 分钟视频只需 4 分钟,效率远超人工处理!

质量对比

对比项原始转录优化后
断句质量⭐⭐⭐ 机械切割⭐⭐⭐⭐⭐ 语义分段
标点符号⭐⭐ 仅基础标点⭐⭐⭐⭐⭐ 完整标点
翻译质量-⭐⭐⭐⭐⭐ 反思优化
阅读体验⭐⭐⭐ 可用⭐⭐⭐⭐⭐ 接近专业

适用场景

通过这个示例,VideoCaptioner 特别适合:

1. 教育学习

  • 📚 为英文课程添加中文字幕
  • 🎓 制作双语学习材料
  • 📝 提取视频文字稿用于笔记

2. 内容创作

  • 🎬 YouTube 视频搬运到 B 站
  • 🌍 为自己的视频制作多语言版本
  • 📺 字幕组快速打轴和翻译

3. 商业用途

  • 💼 会议录音转文字稿
  • 🎤 演讲视频添加字幕
  • 🌐 企业宣传片多语言化

下一步

掌握了基本流程后,你可以:


常见问题

为什么我的翻译质量不如示例?

可能原因:

  • 使用的模型质量较低(如 Qwen 小模型)
  • 没有启用反思翻译
  • 线程数过高导致 API 限流

建议:使用 gpt-4o-minigemini-2.0-flash,启用反思翻译

处理速度慢怎么办?

加速技巧

  • 使用在线 ASR(B 接口/J 接口)跳过模型下载
  • 提高 LLM 线程数(如果服务商支持高并发)
  • 使用软字幕合成(速度极快)

如何降低成本?

省钱技巧

  • 选择更便宜的模型(gpt-4o-mini 已经很便宜)
  • 关闭字幕优化,只保留翻译
  • 使用本地 Whisper,不用 API

需要帮助?欢迎在 GitHub Issues 提问!

基于 MIT 许可发布