人工智能 频道

微软推出Phi-4多模态人工智能模型,赋能轻量级计算设备

  在生成人工智能领域,大型数据中心运行的大型语言模型(LLM)一直备受瞩目。然而,随着技术的不断进步,小型语言模型(SLM)也在逐渐崭露头角,它们能够在手机、笔记本电脑等边缘计算设备上运行,为开发人员带来更多可能性。近日,微软就推出了一种全新的人工智能模型——Phi系列,并为其家族增添了两名新成员:Phi-4-multimodal和Phi-4-mini。

  Phi系列模型并非首次亮相,早在12月,微软就推出了第四代Phi模型。如今,随着Phi-4-multimodal和Phi-4-mini的加入,这个家族变得更加完善。这两个新成员将通过麻省理工学院许可证下的Azure AI Foundry、Hugging Face和Nvidia API Catalog对外提供,让更多开发人员能够轻松获取并使用。

  Phi-4-multimodal是此次发布中的重头戏,它是一个拥有56亿个参数的多模态模型。与以往的单模态模型不同,Phi-4-multimodal能够同时处理语音、视觉和语言三种信息。这一能力的实现,得益于混合LoRAs技术的运用。LoRAs,即低级适应,是一种提高大型语言模型在特定任务性能的方法。它不需要对模型的所有参数进行微调,而是通过插入较少的新权重,并仅对这些权重进行训练,从而大大加快了训练过程,提高了内存效率,并生成了更轻量级的模型。

  得益于LoRAs技术的应用,Phi-4-multimodal具备了低延迟推理能力,同时优化了设备执行,减少了计算开销。这意味着,它可以在智能手机、汽车等轻量级计算设备上本地运行,为用户提供即时、高效的人工智能服务。此外,Phi-4-multimodal还可以应用于多语言金融服务等轻量级企业应用程序,为开发人员和企业带来更多便利。

  分析师们对Phi-4-multimodal的发布给予了高度评价。Forrester副总裁兼首席分析师Charlie Dai表示:“Phi-4-multimodal将文本、图像和音频处理与强大的推理能力相结合,为开发人员和企业提供了多功能、高效和可扩展的人工智能应用程序解决方案。” Everest Group的合伙人Yugal Joshi也认为,尽管该模型可以部署在计算受限环境中,但它的出现仍然具有重要意义。他指出,这是微软从DeepSeek等公司中汲取灵感,减少对大规模计算基础设施依赖的标志。

  当然,与任何新技术一样,Phi-4-multimodal也存在一些局限性。在基准测试中,与Gemini-2.0-Flash和GPT-4o-realtime-preview等模型相比,它在语音问题回答(QA)任务上的性能略逊一筹。微软表示,这是由于Phi-4模型的较小尺寸导致保留事实问答知识的能力有限。不过,公司正在积极努力,计划在未来的迭代中提高这种能力。

  值得一提的是,Phi-4-multimodal在数学和科学推理、光学字符识别(OCR)以及视觉科学推理方面表现出色,甚至优于一些流行的LLM,如Gemini-2.0-Flash Lite和Claude-3.5-Sonnet。这充分展示了Phi-4-multimodal在多模态处理方面的强大实力。

  除了Phi-4-multimodal外,微软还发布了Phi-4-mini模型。这是一个拥有38亿个参数的模型,基于密集解码器专用变压器架构,支持高达128,000个令牌的序列。尽管其尺寸紧凑,但Phi-4-mini在基于文本的任务中表现卓越,包括推理、数学、编码、遵循指令和函数调用等方面都优于一些更大的模型。

  与此同时,IBM也在不断更新其花岗岩(Granite)模型家族。近日,IBM发布了Granite 3.2 2B和8B模型,这两个新型号具有改进的推理能力链,使得它们在性能上相较于前代产品有了显著提升。此外,IBM还发布了一个新的视觉语言模型(VLM),用于文档理解任务。该模型在DocVQA、ChartQA、AI2D和OCRBench1等基准上的表现与更大的模型——Llama 3.2 11B和Pixtral 12B相匹配或甚至超过其性能。

  综上所述,微软Phi-4多模态人工智能模型的发布为开发人员和企业带来了更多可能性。它不仅拓宽了开发人员的视野,让他们能够为移动设备或资源受限的设备开发基于人工智能的应用程序,还通过混合LoRAs技术的应用实现了低延迟推理和优化的设备执行。未来,随着技术的不断进步和完善,我们相信Phi系列模型将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和惊喜。

0
相关文章