OpenAI旗舰模型GPT-4o如约而至，无障碍与人交谈、完全免费！-人工智能专区

OpenAI旗舰模型GPT-4o如约而至，无障碍与人交谈、完全免费！

作者：卢敏编辑：卢敏 2024-05-14 14:30 IT168网站原创

　　不得不说，此刻，人与AI的界限被进一步模糊化了。

　　5月14日，OpenAI如期发布了其最新旗舰生成式人工智能模型——GPT-4o。这款Altman所说的“不是GPT-5，也不是搜索引擎，就像魔法一样”的模型，到底是何摸样，我们来一探端倪。

　　用“魔法”打败搜索引擎，音频理解能力赢了

　　早在今年2月，就有媒体报道称，OpenAI正在开发一款搜索引擎，并导致谷歌股价出现明显波动。

　　业界一直期待搜索引擎的发布，但是Altman的剧透打破了大家的幻想，发布会上“音频理解”这个魔法直接炸裂现场。　　

　　OpenAI的首席技术官Muri Murati

　　OpenAI的首席技术官Muri Murati在发布会上详细介绍了GPT-4o的独特之处。她强调，这款新模型不仅继承了GPT-4的强大智能，更在文本、视觉及音频等多个方面进行了显著提升。

　　“GPT-4o通过语音、文本和视觉进行综合推理，”Murati在主题演讲中阐述道，“我们为语音模式注入了新技术，使得用户可以直接通过麦克风与ChatGPT进行自然对话。”

　　这其中值得关注的是GPT-4o新加入的音频理解能力，她能根据需要调整其声音表现，无论是机器人般的语调，还是充满激情或平静舒缓的叙述，都能轻松驾驭。发布会现场演示环节中，GPT-4o对话之丝滑，让人感觉就像在与某人实时交谈。GPT-4o非常顺畅地指导演示者 Mark Chen 如何更好地呼吸；包括采集他的呼吸音频样本，并为他提供如何做得更好的建议。

　　不得不说，此刻，人与AI的界限被进一步模糊化了。

　　这种高阶的语音能力，将使得 GPT-4o 有望打破人机交互界面的局限性，未来的ChatGPT，可以无处不在——比如可以嵌入到没有屏幕的设备上随时交谈。总之，GPT-4o可以让人们更专注于与 ChatGPT 的协作，而不是受限于屏幕UI界面本身。

　　此外，先前的领先模型GPT-4已经具备了处理图像和文本组合的能力，能够执行从图像中提取文本、描述图像内容等复杂任务。而GPT-4o在此基础上更进一步，它不仅可以将语音精准转换为文本，还能深入理解和标记音频中的多种特征，如呼吸节奏和情感色彩。

　　易用性首次提及，免费开放

　　Mira针对用户一直关注的易用性做了解读，过去几年中，OpenAI 一直专注于提升这一模型的智能水平，现在首次在易用性上取得了重大突破。

　　桌面版ChatGPT APP的发布，使用户界面更加简单自然，提升用户体验。

　　桌面版ChatGPT APP

　　值得一提的是，OpenAI不仅将GPT-4o直接提供给用户使用，还将其作为API开放给开发者。这意味着开发者可以方便地利用GPT-4o的强大功能来构建自己的应用程序，从而在开发速度、成本控制以及功能实现等方面获得显著提升。

　　再谈谈免费，当大家还在不计成本的苦苦研究如何真正追上GPT-4的体验的时候，竞OpenAI竟然直接将这个模型免费开放给用户使用了。

　　对于竞争对手而言，这无疑是一个沉重的打击。以Anthropic公司为例，他们发布的Claude 3 Opus模型虽然在某些方面体验上超越了GPT-4，且已在用户中建立起一定的口碑，但其高昂的价格和连接不稳定的问题成为了其进一步推广的阻碍。GPT-4o的免费开放，使得Claude 3 Opus在性价比和用户体验上的优势大打折扣。

　　如果GPT-4o在实际应用中效果显著，甚至在某些方面反超Claude 3 Opus，那么Anthropic试图通过技术创新实现弯道超车的难度将进一步加大。OpenAI的免费策略不仅展示了其对自身技术的自信，更可能改变当前的市场竞争格局，使得其他竞争对手在追赶GPT-4的道路上更加艰难。

　　如果GPT-4o真的效果显著反超了Claude 3 Opus而且还免费，那么可以说Anthropic弯道超车的可能性就更加渺茫了。

　　在人工智能领域，每一次技术的飞跃都标志着人类智慧与机器智能的深度融合。GPT-4o作为OpenAI的最新旗舰模型，无疑在技术层面取得了显著的进步。其新加入的音频理解能力以及对易用性的重视，确实为用户提供了更为自然、便捷的交互体验。同时，OpenAI选择将这一技术免费开放给用户使用，这既体现了其对技术的自信，也为整个AI行业的竞争格局带来了新的变数。这也意味着，未来开发者将以更低的成本来进行复杂AI原生应用开发，从而进一步催生AI应用生态的爆发。

关注我们