阿里巴巴确定与苹果合作，为中国iPhone提供AI服务

2025-02-14

路透社消息，阿里巴巴确定与苹果合作，为中国iPhone提供AI服务。
一、合作背景与消息确认

合作消息来源：
路透社凌晨发布消息，称阿里巴巴与苹果将合作，为中国iPhone提供AI服务。
阿里巴巴集团董事会主席蔡崇信在迪拜举行的世界政府峰会上亲口确认了该消息。
合作原因：
苹果由于监管等问题，需要寻找一个中国本土的科技企业进行合作。
苹果与多家中国科技公司进行了谈判，最终选择了阿里巴巴。
市场反应：
阿里巴巴股票大涨8%，创三年以来新高。

二、阿里巴巴的技术优势

技术积累：
阿里巴巴作为国内最大互联网公司之一，在云计算、大数据、AI等领域有着深厚的积累和技术优势。
具体技术成果：
Qwen系列多模态大模型：全球下载和使用量最高的开源模型之一，在多个场景中表现出色。
Qwen2-Audio语音模型：对中文语义理解的深度优化和准确率，可以强化苹果的Siri助手，实现更精准、更智能的语音交互。
Qwen2.5-VL视觉多模态大模型：可以作为一个视觉Agent来自动化操作电脑、手机，理解超长视频，并定位特定时间点发生的事件。

三、Qwen2-Audio语音模型的具体特点

技术架构：
使用阿里自研的大模型Qwen-7B作为语言模型。
与音频模块协同工作，实现对音频信息的理解和处理。
工作流程：
音频编码器对输入的音频信号进行特征提取。
特征与之前的文本序列一起输入到大语言模型中，进行综合分析。
大语言模型生成准确的文本回复。
技术参数：
采用16kHz的采样频率。
将原始波形转化为128通道的mel谱图。
通过25ms窗口大小和10ms跳帧，确保音频特征的时间分辨率与频谱信息的完整性。

四、Qwen2.5-VL视觉多模态大模型的应用

自动化操作：
可以作为一个视觉Agent来自动化操作电脑、手机，如根据行程日期自动预订飞机票。
视频理解能力：
能理解超过1小时的长视频，并定位特定时间点发生的事件。
在安防领域，能快速定位到关键事件的视频片段，节省审阅视频的时间。
图像识别能力：
增强了通用图像识别能力，大幅扩大了可识别的图像类别量级。
采用矩形框和点的多样化方式对通用物体定位，实现层级化定位和规范的JSON格式输出。

综上所述，这篇报道详细描述了阿里巴巴与苹果的合作背景、阿里巴巴在AI技术方面的优势以及具体的技术成果和应用。通过合作，阿里巴巴将为中国iPhone提供AI服务，这有望进一步提升阿里巴巴的市场地位和影响力。