联系我们

小丸工具箱官方网站

如何用小丸工具箱加视频字幕(小丸工具箱怎么转换视频格式)

发布者:小丸工具箱发布时间:2022-07-20访问量:183

全文约2139字如何用小丸工具箱加视频字幕,阅读时间预计5分钟。

自2009年起,谷歌就为YouTube视频提供自动生成字幕,并且在自动转录视频口语方面已经做得很不错,但之前主要专注于语音转录。随着谷歌近些年来在机器学习上的进步,23日谷歌宣布,它的技术现在可以通过捕捉和识别环境声音自动生成音效字幕。

图片来源:Google Research Blog

谷歌认为,从前在视频中并没有类似的对环境声音的转录的技术,视频中的很多信息和效果都无法单独使用语音转录获取。因此,这项技术的进步能够帮助人们更大程度地获取更加丰富的声音内容。

标记声音的DNN模型

据了解,YouTube的声音标记系统是基于深度神经网络(DNN)模型,通过机器学习(ML)技术,由Accessibility, Sound Understanding和YouTube团队共同完成。该模型主要用于选定声音和检测声音事件,当给定任意一段音频时,DNN模型用下面三步来选定环境声音:

展开全文

检测出用户想要的声音

在音频上对声音进行时间定位

对于音频中可能具有其如何用小丸工具箱加视频字幕他平行或独立的语音识别结果,有效地将其整合到字幕轨道中。

在开发模型时,由于很难获取标记的环境声音信息,谷歌团队所面临的第一个挑战就是没有足够多的合适的环境声音标记数据来训练他们的神经网络模型。对此,谷歌团队的解决方案是,他们用弱标记数据生成了一个足够大的数据集来进行训练。

那么随之而来的问题是,在一个给定视频的所有环境声音中,哪种声音是训练DNN模型所需要检测的如何用小丸工具箱加视频字幕

目前,谷歌选择的声音仅限于“笑声”、“鼓掌”和“音乐”这三种,因为这三种环境声音被认为是目前人工标注字幕最多的音效。

“虽然在这三种声音之外,还有更多的声音类别能提供更加丰富的相关信息,但这三种音效字幕所传递的语义信息是相对明确的,例如相比于“铃声”字幕——它会让人产生这样的疑问:这是什么的铃声如何用小丸工具箱加视频字幕?铃铛、闹钟还是手机?”谷歌的工程师Sourish Chaudhuri解释道。

谷歌在检测这些环境声音方面也做了许多工作,包括开发基础设施和分析框架,检测声音事件以及将其合成到自动字幕轨道中去。这些工作的好处就是随着谷歌扩展他们的算法,他们能够更容易地将更多的声音类型整合到音频中,从而理解更多的声音词汇,例如ring、 knock、bark等。这样一来,谷歌就能够为更多音效自动添加字幕,从而向观众提供更多的相关信息。

字幕的密集检测

当一段视频被上传到YouTube上后,音效识别的过程会在视频的音频流中进行。DNN模型会查看音频的某个片段,并预测那一段片段是否包含人们感兴趣的声音事件。由于多种音效可以同时出现,谷歌的模型可以对每一个时间段的每种音效进行预测。然后随着片段进入到下一个时间点,再次用该模型进行预测,一直持续下去直到音频结束。这会得到一个密集流,即词汇表中的声音事件以每秒100帧的频率出现。

当然,这种密集预测流不直接展示给用户,因为这会导致字幕闪烁或断开。并且因为许多音效通常会具有时间上的连续性,例如“音乐”和“掌声”通常至少会持续几秒钟。为了应对这种情况,谷歌使用包含两种状态ON和OFF的改进Viterbi算法来将密集流变得流畅一些,其中每一个音效的预测片段对应ON状态。下图提供了从密集检测到最终确定包括所需要音效片段的过程的图示说明。

图片来源于:Google Research Blog

但是这样以分类为基础的系统有时会产生一些误差,因此需要模型在信息检测错误和信息检测丢失这两点上寻找平衡。训练数据集中的弱标签往往会导致模型混淆同一时段内发生的不同事件。例如,标记为“笑声”的片段通常包含“语音”和“笑声”两种声音,而“笑声”的模型在测试数据中很难区分它们。在谷歌的系统中,可以根据 ON 状态上的时间(比如,除非确定存在Y秒,否则不要确定声音X)做出进一步的限制,进而将系统性能推至精确度召回曲线上一个预期的点。

如何有效向用户提供音效信息

在拥有能够准确地检测和分类视频中的背景声音的系统之后,接下来需要思考的问题是,如何有效地将这些信息传递给用户,使这些信息对用户最有用?谷歌和他们的用户体验(UX)研究团队合作,开发了各种设计选项并且在定性的可用性试验研究中进行了测试。该研究的参与者有不同的听力水平和对字幕的不同需求。研究团队探究了不同条件下用户体验的差异,例如:

将语音字幕和音效字幕在屏幕上分开显示

让语音字幕和音效字幕交叉显示

只在句子结尾处或者讲话停顿处显示音效字幕(即使音效在说话中发生)

静音观看,了解用户对字幕的感受如何

将语音字幕和音效字幕在屏幕上分开显示

让语音字幕和音效字幕交叉显示

只在句子结尾处或者讲话停顿处显示音效字幕(即使音效在说话中发生)

静音观看,了解用户对字幕的感受如何

研究团队问了他们很多问题,包括这些音效信息是否改善了他们的整体体验,是否对他们在视频中跟踪事件的能力有影响,以及是否会影响从字幕中提取的相关信息,从而来了解变量的影响。

研究结果发现,几乎所有的用户都很赞赏附加的准确的音效信息,谷歌也注意到了当声音检测系统发生错误时的一些反馈(例如错误判断声音的发生时间,或者没有检测到声音等等)。然而结果令人吃惊:谷歌发现当音效信息错误的时候,大约有一半的参与者的用户体验并没有降低。根据参与者的反馈,谷歌认为这大概有如下几个原因:

听到声音的参与者能够忽略音效信息的不准确之处。

不能听到声音的参与者能够从错误的字幕信息中得知有声音事件发生,因此他们并没有错过关键的语音信息。

总而言之,用户报告指出,只要系统提供的大部分信息正确,用户对于偶尔的错误还是可以容忍的。

目前,YouTube的技术仅仅是为了改善聋哑人和听力有障碍人群的用户体验所做的早期努力,往后他们还会为例如铃声、狗叫声、敲门声等音效添加字幕,但环境声音非常复杂,这就需要比“笑声”或者“音乐”更加复杂的编译程序了。

-End-

撰稿:王冰洁

编辑:孙沛文

热门文章推荐

加入声学在线(实习生/兼职编辑):hr@soundonline.org