不得不说,此刻,人与AI的界限被进一步模糊化了。
5月14日,OpenAI如期发布了其最新旗舰生成式人工智能模型——GPT-4o。这款Altman所说的“不是GPT-5,也不是搜索引擎,就像魔法一样”的模型,到底是何摸样,我们来一探端倪。
用“魔法”打败搜索引擎,音频理解能力赢了
早在今年2月,就有媒体报道称,OpenAI正在开发一款搜索引擎,并导致谷歌股价出现明显波动。
业界一直期待搜索引擎的发布,但是Altman的剧透打破了大家的幻想,发布会上“音频理解”这个魔法直接炸裂现场。
OpenAI的首席技术官Muri Murati
OpenAI的首席技术官Muri Murati在发布会上详细介绍了GPT-4o的独特之处。她强调,这款新模型不仅继承了GPT-4的强大智能,更在文本、视觉及音频等多个方面进行了显著提升。
“GPT-4o通过语音、文本和视觉进行综合推理,”Murati在主题演讲中阐述道,“我们为语音模式注入了新技术,使得用户可以直接通过麦克风与ChatGPT进行自然对话。”
这其中值得关注的是GPT-4o新加入的音频理解能力,她能根据需要调整其声音表现,无论是机器人般的语调,还是充满激情或平静舒缓的叙述,都能轻松驾驭。发布会现场演示环节中,GPT-4o对话之丝滑,让人感觉就像在与某人实时交谈。GPT-4o非常顺畅地指导演示者 Mark Chen 如何更好地呼吸;包括采集他的呼吸音频样本,并为他提供如何做得更好的建议。
不得不说,此刻,人与AI的界限被进一步模糊化了。
这种高阶的语音能力,将使得 GPT-4o 有望打破人机交互界面的局限性,未来的ChatGPT,可以无处不在——比如可以嵌入到没有屏幕的设备上随时交谈。总之,GPT-4o可以让人们更专注于与 ChatGPT 的协作,而不是受限于屏幕UI界面本身。
此外,先前的领先模型GPT-4已经具备了处理图像和文本组合的能力,能够执行从图像中提取文本、描述图像内容等复杂任务。而GPT-4o在此基础上更进一步,它不仅可以将语音精准转换为文本,还能深入理解和标记音频中的多种特征,如呼吸节奏和情感色彩。
易用性首次提及,免费开放
Mira针对用户一直关注的易用性做了解读,过去几年中,OpenAI 一直专注于提升这一模型的智能水平,现在首次在易用性上取得了重大突破。
桌面版ChatGPT APP的发布,使用户界面更加简单自然,提升用户体验。
桌面版ChatGPT APP
值得一提的是,OpenAI不仅将GPT-4o直接提供给用户使用,还将其作为API开放给开发者。这意味着开发者可以方便地利用GPT-4o的强大功能来构建自己的应用程序,从而在开发速度、成本控制以及功能实现等方面获得显著提升。
再谈谈免费,当大家还在不计成本的苦苦研究如何真正追上GPT-4的体验的时候,竞OpenAI竟然直接将这个模型免费开放给用户使用了。
对于竞争对手而言,这无疑是一个沉重的打击。以Anthropic公司为例,他们发布的Claude 3 Opus模型虽然在某些方面体验上超越了GPT-4,且已在用户中建立起一定的口碑,但其高昂的价格和连接不稳定的问题成为了其进一步推广的阻碍。GPT-4o的免费开放,使得Claude 3 Opus在性价比和用户体验上的优势大打折扣。
如果GPT-4o在实际应用中效果显著,甚至在某些方面反超Claude 3 Opus,那么Anthropic试图通过技术创新实现弯道超车的难度将进一步加大。OpenAI的免费策略不仅展示了其对自身技术的自信,更可能改变当前的市场竞争格局,使得其他竞争对手在追赶GPT-4的道路上更加艰难。
如果GPT-4o真的效果显著反超了Claude 3 Opus而且还免费,那么可以说Anthropic弯道超车的可能性就更加渺茫了。
在人工智能领域,每一次技术的飞跃都标志着人类智慧与机器智能的深度融合。GPT-4o作为OpenAI的最新旗舰模型,无疑在技术层面取得了显著的进步。其新加入的音频理解能力以及对易用性的重视,确实为用户提供了更为自然、便捷的交互体验。同时,OpenAI选择将这一技术免费开放给用户使用,这既体现了其对技术的自信,也为整个AI行业的竞争格局带来了新的变数。这也意味着,未来开发者将以更低的成本来进行复杂AI原生应用开发,从而进一步催生AI应用生态的爆发。