你好,我是月晖。
雪球上知名价值投资者段永平(ID是【大道无形我有型】)最近给网友写的一条回复,帮了我不小的忙。
段发帖说自己看了一遍黄峥2016-2019年所有采访的文字版,然后他就跟网友说起来用AI总结视频的问题。据他说,YouTube的视频链接直接发给Gemini,提出要求,ai那边几乎秒出总结结果。

我惊了,还有这么好的东西?
看到段永平的回复,我立刻打开YouTube,随便找了一个Wall Street Journal今天新发的视频,复制网页链接丢给我的Gemini让它总结。指令我是用中文输入的,几秒后整个视频的中文总结就全都出现在屏幕上。
随后我又多次测试了不同的视频,如下:
第一,基本上所有视频都能总结。
中文英文,还有其他不同语言的(当然我不可能全试,试了法语日语等其他一些使用者比较多的语言)视频都可以总结,即使是一两个小时的长视频,只要是有配音有内容的也可以。
如果你发给AI视频链接网址的同时给一个指令,那么你的指令给的是什么语言它就按什么语言总结。如果你没给任何指令,就是丢一个网址过去,中文视频会直接总结成中文,英文视频会直接总结成英文,其他语言的都会默认总结成英文。
为刁难AI,我还特意找来一个11个小时的冥想音乐视频,还有一个打艾尔登法环mod中boss“金玛莲妮亚”的游戏视频。没想到这两个视频也都可以总结,当然总结得很简短,就是简单说一下内容是什么。
第二,本身有字幕的较短视频AI可以给你逐字稿,长视频不行,但是可以精准定位特定内容的时间,可以定向查询视频中出现的某个内容。
按段永平在雪球上说的意思,他应该是让AI把全视频文稿给出来,然后他读了一遍。我一开始用一个很长的视频测试,发现给不出来,AI会说存在版权问题云云,于是我就换了一个6分钟的视频,这个可以直接给我逐字稿。prompt就是:请为以下 YouTube 视频提供完整的逐字文稿。如果视频有字幕,请直接按照英文字幕的原文输出,不要总结、不删减、不改写。
随后复制视频链接,把整段话发给Gemini。
如果是长视频怎么办呢?就把链接给Gemini,让它总结视频内容,然后给出时间定位,你自己再去对照着定位到某个时间点去看即可。如果你已经确定视频中会明确提及某些关键词,可以就问这个关键词出现在哪里。
当然,YouTube是谷歌自家的东西,目前只有YouTube视频能在Gemini(这某种程度上体现了谷歌在AI时代的护城河)被总结,换个视频网站换个AI都不行。
我也很需要针对国内平台Bilibili和抖音的类似工具。B站我经常看,很多B站视频确实需要看原视频,就是看作者怎么折腾,这个不能省略;有些知识和评论类的视频确实太长,如果能读文字会快很多;抖音我虽然不看,但是你不可否认的就是抖音现在已经有约十亿国民,若想了解流行文化和大众情绪,抖音确实不得不参考。
去网上找了一下,B站的有BiBiGPT,我现在已经收藏了它的网址。抖音的我看了一个用AI工作流写脚本去分析的,说实话那个代码我没看懂,等以后再说。
跟视频音频相比,获取信息效率更高的毫无疑问是看文字,但确实有很多信息你找不到文字,仅以视频的形式沉淀在YouTube平台中,最典型的就是很多一手采访。这种情况下,如果你想去了解原始信息就得自己一点一点看视频,有些视频纯英文无字幕,你只能半懂不懂地听好长时间,是个挺低效的事。
昨天和菜头也在他的文章中提到,现在Google搜索经常会搜出来视频结果,即便是在视频里开着最高倍速找答案,对他帮助最大的还是字幕,而如果看不着字幕会令人绝望。他还说,如果能有AI总结视频中的文字内容,会是个值得付费的生意。
事实上,虽然我自己不需要付费,但是Gemini专业版按说确实是需要付费的。至于我说的那个BiBiGPT,今天尝试让他总结用的是免费额度,用多了这也是需要付费的。在这个地方花钱省时间,我觉得还是很值。
留下评论