英伟达Jim Fan：GPT-4o是GPT-5的一个早期检查点

GPT4o2024-05-30 09:39:4645

Jim Fan 评GPT-4o

Jim Fan (@DrJimFan)，NVIDIA的高级研究经理及GEAR实验室的负责人，分享了他对OpenAI最新模型GPT-4o的深入分析。

🔍 他指出，尽管技术社区对GPT-4o的讨论如火如荼，但重要的是要冷静地、逐步地理解其技术细节和潜在影响。

📈 OpenAI实现了将音频直接映射为音频的高级模态，并能实时将视频流传输给变换器。这涉及到新的标记化和架构研究，但总体上是一个数据和系统优化问题。

🎥 Jim Fan讨论了高质量数据的来源，包括YouTube、播客、电视节目和电影中的自然对话，以及通过强大的模型生成的合成数据。他强调了GPT-4o如何从这些数据中学习，并在不产生中间文本的情况下，将语音直接蒸馏为语音。

🔌 在系统层面，Jim Fan 提到了OpenAI可能开发的用于传输运动增量作为标记的神经网络优先的视频编解码器，以及通信协议和神经网络推理的共同优化。

📱 关于GPT-4o与GPT-5的关系，Jim Fan认为GPT-4o可能是GPT-5的一个早期检查点，尚未完成训练。他还提到了OpenAI在品牌策略上的一些考量，以及GPT-4o在个性和情感表达上的进步。

🍎 Jim Fan提出了与iOS集成的三个层次，包括取代Siri、原生功能以及与iOS系统级操作API和智能家居API的集成，预示着AI代理产品的广阔前景。

📢 Jim Fan 还提到对GPT-4o不原生处理视频流的更正，以及对Google I/O的期待。

下为Jim Fan 推文原文

我知道你的时间轴现在被“疯狂的，HER，你错过的10个功能，我们回来了”这种话堆给淹没了。坐下。冷静。<喘息> 像演示中马克那样深呼吸。让我们一步步思考：

从技术上来说，OpenAI已经找到了一种方法，可以将音频直接映射到音频，作为一流的模态，并实时将视频流传输到transformer。这需要一些关于标记化和架构的新研究，但总体上这是一个数据和系统优化问题（像大多数事情一样）。

高质量的数据至少可以来自两个来源：

自然发生的对话，如YouTube、播客、电视剧、电影等。Whisper可以训练识别对话中的发言者转变或分离重叠的讲话进行自动注释。
合成数据。使用最强大的模型运行缓慢的三阶段管道：speech1->text1（ASR），text1->text2（LLM），text2->speech2（TTS）。中间的LLM可以决定何时停止并模拟如何从中断中恢复。它可以输出未表达的“思维轨迹”以帮助生成更好的回复。

然后GPT-4o直接从speech1->speech2进行提炼，基于三阶段数据的可选辅助损失函数。在提炼之后，这些行为现在已经嵌入到模型中，而不发出中间文本。

在系统方面：如果每个视频帧都解压缩成RGB图像，延迟将无法达到实时阈值。OpenAI可能已经开发了自己的基于神经网络的流媒体视频编解码器，以将运动增量作为标记传输。通信协议和神经网络推理必须协同优化。

例如，在边缘设备上可能会运行一个小型且节能的神经网络，该网络决定是否传输更多标记，如果视频有趣的话，传输的标记会更多，否则会更少。

品牌反映出某种不安全感。在Google I/O之前，OpenAI宁愿打破我们对GPT-4.5的心理预期，也不愿因未能达到对GPT-5的高期待而失望。这是一个聪明的举动，可以争取更多时间。

值得注意的是，助手更加生动，甚至有点调情。GPT-4o试图（也许有点太努力）听起来像HER。OpenAI正在抢Character AI的市场，几乎完全重叠的形式因素和巨大的分发渠道。这是向更具情感的AI转变，具有强烈的个性，而OpenAI过去似乎积极压制这种个性。
谁先赢得苹果，谁就赢得了大时间。我看到与iOS集成的三个层次：

放弃Siri。OpenAI为iOS提炼出一个小规模的、纯粹的设备上运行的GPT-4o，并提供可选的付费升级以使用云服务。
原生功能可以将摄像头或屏幕流传输到模型中。芯片级支持神经音频/视频编解码器。
与iOS系统级操作API和智能家居API集成。没有人使用Siri快捷方式，但现在是复兴的时候了。这可能成为从一开始就拥有十亿用户的AI代理产品。像特斯拉数据飞轮一样的智能手机FSD。