19. 快速倾听和总结音频内容

Hi,大家好,我是茶桁。

其实到第18章的时候,我们处理文本的内容就全部都结束了,从本节课开始,我们要开始学习如何处理音频和图像。

我不知道有没有人和我一样的习性,就是比起视频和音频文件来说,还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位,而对于文本内容的接收速度还取决于我们输入设备(眼睛和处理信息的脑部)速度。而音频或者视频则不然,我们必须听完讲述者所说的话,即便你开到2倍速,速度依然受限,而且无法准确定位。那有没有什么办法能快速完成对音频文件内信息的获取呢,自然就是将语音内容转换成文本的能力。

其实到这一步,类似于Premiere或者剪映等剪辑软件都可以完成,不仅如此,在AI大行其道的今天,市面上应该也有不少Audio2Text的服务或者应用。接下来,我们要讲的就是一个杀手级服务了。

没错,我要说的自然就是OpenAI, 和大多数人对OpenAI的固有印象不同的是,OpenAI其实早就发布了一个通用的语音识别模型「Whisper」, 还将对应的代码开源了。并且在今年1月份的时候,API内也提供了对应的语音识别服务。

下面我们来一起看看这个Whisper到底可以怎么用(那些需要总结会议内容,还有总结其他人语音教程的人有福了。)

由于本文在其他平台已经成为收费文章,为了避免损害付费会员权益,所以此处做删减处理。

希望继续观看的可进入专辑

请订阅我的公众号:

image-20240729162750245

作者

Hivan Du

发布于

2023-07-11

更新于

2024-07-29

许可协议

评论