谷歌给我两个惊吓

你好，我是月晖。

众所周知，现在做大语言模型公认最厉害的已经不是Open AI他们家的GPT，而是Google家的Gemini 3，常看我文章的读者应该知道，我也开通了谷歌专业账号也一直在用。

但即便我天天用，谷歌的AI产品今天还是给我两个惊吓，确有不同凡响之处。

第一个，是Gemini本身，今天下午我跟它对话，询问一个从知乎上看来的不着调问题：一头蓝鲸，即使是用肚子当腿，从表面积、压强和蓝鲸的体重来计算，它搁浅的话一样会自己把自己压死。这是真的吗？

Gemini给出压强公式，在网上找来蓝鲸身体数据计算，告诉我这个说法确实是真的，这些都在常规范围内。但接下来它解释这个答案的时候，输出文字过程中突然跳出来一张图片，这就很不寻常了。

我继续看Gemini给的解释，随后又跳出来一张图片。世界上那么多用AI的人，尽管这个问题非常冷非常偏，我也不能完全确定我就是第一个问这个问题的，但至少用中文问我觉得大概率是。

这张图是英文的，我认为大概率是Google用它的那个最近也很有名的图画模型临场画出来的。更神奇的是，注意到上面那张图里面有个“explore”选项吗？如果点击进去，还可以细细地查看身体每个部位的介绍：

如果真是这样的话，跟之前类似的产品相比，确实是个进步。

模型在给出回答的同时也配个图，这算是大语言模型里面比较高端比较少见的一个功能，但之前在ChatGPT上偶尔也触发过。不过我可以肯定的是，配一张图还能点进去具体交互、具体探索的模式，我没有在任何一个AI产品上遇到过，Gemini3应该是头一号，在我完全没有写prompt要求的情况下，给出这么细致的图片和交互，它给我一个惊吓。

Gemini就这个问题的全部回答，可以访问这个链接进去看：https://gemini.google.com/share/dcb42cc944fa。

之后我把这件事情转到一个群里，其他不止一位群友问Gemini同样的问题，之后发现确实有图。

有群友去reddit上面搜了一下，国外也有很多人触发同样的情况。

注意到图片左下角那里有个shutterstock的水印，我也去查了一下，它本是一家音乐公司，但是也存有大量图片。之前就有做AI绘图的公司跟他们合作过，比如说根据Wikipedia，2023年Open AI做他们那个DALL-E模型的时候，双方就曾有合作，这家公司为open AI提供训练数据。现在这是又被谷歌找上了？

它还是一家上市公司，虽不是那个著名的SP500指数成分股，却是SP600指数的成分股。说实话，即使我对美股市场一直有所关注，之前也没听说过居然还有这么个指数——别看只差100家公司，这个指数过去五年的表现及长期的表现，都远不如SP500。

至于说这家公司本身，我还想着能跟Google合作，会不会是个利好，可以去关注一下，结果看看它过去十几年的股价变化，我就没什么兴趣了。如果一家公司股价十年都不涨，我不觉得还有长期投资的价值，这种公司即便是机会，错过了我也不可惜。SP500和SP600表现差那么多，可能就是收了一堆这种公司导致的吧。

说完题外话，说谷歌给我的第二个惊吓，来自他们另一款产品，NotebookLM。

产品形式不算新鲜，就是近两年国内也有很多人在做的AI笔记。你把大量图文资料上传到平台上，AI自动给你总结、梳理。国内做得比较好的有得到的Get笔记，腾讯的Ima，印象笔记这种老牌笔记软件也在尝试加入AI成分，虽然效果一般。

谷歌这个笔记软件能接收的信息类别稍多一些，比如YouTube视频链接也直接能接收，但这属于常规范围。真正吓到我的是，不到一刻钟就可以把你传上去的资料直接变成一个7分半钟的长视频，给出视频总结。

视频里大概每隔十几秒会变化一次画面，所有视频画面都跟你上传的内容高度相关，你可以自由指令配图风格，以及配音所用的语言，支持中文。

配音尚可，但跟人类还有点差距；它总结出来的视频内容，虽然脱胎于你传上去的原始文件，但是最多只能算是中规中矩地输出文件内容，要说改写得精妙，以及开头留下钩子吸引人往后看，这些还不大行。

我真正爱上它的一点，在于只需一刻钟不用我操心就能提供大量跟视频内容相关的画面，让观众可以看到东西。有大量知识类、评论类的视频观众进来并不是为看图，只为听你讲的东西，但纵然如此画面仍然是一个视频非常重要的部分。画面上如果啥都没有，或者长时间保持同一张还是令人乏味，但人如果自己去找一许多张跟文稿契合的画面，然后把它们剪辑在一起，是个费时间且无趣的工作，现在这个问题正在被AI解决。

写稿子，加上人类自己拿稿子再录一遍，这个事情的时间不长，相比于你从零开始找素材剪辑视频，工作量已经显著减轻。

这可以说是给很多像我这样擅长写文字而不擅长剪辑视频的人降低了做视频的门槛，私以为，接下来B站和YouTube上用此种方法做出来的视频会渐渐产生，长期来看，至少会对我上面说的知识区和观点区视频产生一定影响。我之前只是想过以后要不要去YouTube发视频，现在我已经在认真考虑这件事，放假后我至少会10个小时的时间真的去做一做了。

Open AI的那个Sora生成视频，抠抠搜搜，最多也就应付应付短视频可用，谷歌一下就是7分30秒。而且普通谷歌账号一天可以免费生成三个，专业版账号一天可以生成20个，额度相当够用。

怎么着，做大模型Open AI做不过谷歌，现在做AI生成视频也做不过吗？

recent posts

about