AI大模型,太卷了!又一巨头重磅出手

证券时报网 2024/05/15
导语

国内大模型领域又一重磅消息传来!

5月15日,字节跳动正式发布“豆包大模型”,这也是国内又一家互联网巨头发布的自研大语言模型。性能方面,据字节跳动有关负责人介绍,豆包大模型目前日均处理1200亿Tokens(表示和传递信息的标识符)文本,生成3000万张图片。

激烈市场竞争中,价格成为大模型行业关注的重点之一。字节跳动有关负责人称,豆包主力模型在企业市场的定价只有0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。也就是说,目前大模型价格已经进入“厘时代”。

近期,国内外多款大模型重磅消息不断。5月14日,美国人工智能公司OpenAI正式推出新一代大模型GPT-4o,能够接受文本、音频和图像任意组合的输入与输出,并且响应更快、处理更快、效率更高。5月9日阿里云发布通义千问2.5,据称“在中文场景模型性能赶超GPT-4-Turbo”,同时1100亿参数开源模型在多个基准测评收获最佳成绩。

又一大模型亮相

5月15日,字节跳动正式发布旗下自研大语言模型豆包大模型。记者了解到,豆包大模型原名“云雀”,是国内首批通过算法备案的大模型之一。

发布会现场,字节跳动有关负责人宣布,豆包大模型提供的是一个有多模态能力的模型家族,目前主要包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等9款模型。

火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍:“经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一。”

券商中国记者注意到,发布会当天,字节跳动还宣布与国内多家汽车和电子消费厂商合作推出“大模型生态联盟”。例如,在汽车领域,与吉利、长城、赛力斯等20余家厂商,宣布成立汽车大模型生态联盟;与OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。OPPO、荣耀、小米和华硕等多家厂商旗下的AI助手已接入字节跳动的大模型服务。

大模型使用成本“卷”入新低

国内外厂商不断推出和迭代大模型,激烈市场竞争下,客观上也让大模型的使用价格进一步压降。

券商中国记者注意到,字节跳动发布会当日,有关负责人将豆包大模型与包括GPT4、文心大模型4.0、通义千问2.5共三款国内外主流大模型的使用价格进行了对比,并突出强调其“比行业价格低99.3%”。

根据火山引擎公布的价格计算,一元钱就能买到豆包主力模型的125万Tokens,大约是200万个汉字,相当于三本《三国演义》。

据麦肯锡报告分析,大模型的价值创造潜力惊人,到2030年,有望在全球推动49万亿人民币的经济增量。

目前,大模型应用发展仍处于早期阶段。QuestMobile数据显示,截至今年3月,基于大模型的AIGC行业用户量为7380万,尽管同比增长了8倍,也仅占移动互联网用户量的6%。

多款大模型推出重磅迭代

近日,大模型领域重磅消息不断。

北京时间5月15日凌晨,谷歌在2024年I/O开发者大会上一次性推出十几款产品更新,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。

5月14日,美国人工智能公司OpenAI最新发布了GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜,最突出特点是在与人的交互方面更为自然。

OpenAI称,GPT-4o可以检测人的情绪,并以类似人类或机器人的语调与用户交谈。同时,它可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,几乎接近人类在交谈中的响应时间。

在发布会的演示环节,GPT-4o展示了它与众不同的互动能力。它能用一种非常自然的语调与人交流。在根据工作人员要求讲故事时,工作人员可以随时插话打断并提出新要求,GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。

OpenAI表示,此前的AI语音模式由不同的独立模型组成,分别负责将音频转换为文本,接收文本并输出文本,再将文本转换回音频。在这些环节中会丢失大量信息,因此无法识别音调、多个说话者或背景噪音,也无法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出,这意味着它能够结合视频和音频感受对话者的情绪,并给出充满人类情感的反馈。在对话中发现工作人员的深呼吸时,GPT-4o鼓励说“冷静下来”。

5月9日,阿里云正式发布通义千问2.5。相比上一版本,2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

据介绍,在中文语境下,通义千问2.5在文本理解、文本生成、知识问答、生活建议、闲聊、对话、安全风险等多项能力赶超GPT-4。Open Compass的测评结果显示,通义千问2.5得分追平GPT-4-Turbo,是该基准首次录得国产大模型取得的这一成绩。

华泰证券日前发布的研报分析称,在AI大模型的商业模式和竞争格局方面,可能形成赢者通吃或国内外寡头竞争的局面,而行业大模型则有望百花齐放。目前“基础大模型”到“行业大模型”再到“终端应用”的大模型路线非常清晰。训练基础大模型的高成本和高技术壁垒,决定了科技巨头或成为主要玩家。

上述研报还表示,以头部玩家提供的基础大模型为底座,未来可能产生专门精调行业大模型的公司,凭借对垂直领域的专门技术,深耕某一赛道的行业大模型;在垂直领域积累已久的公司,具备入局该垂直领域行业大模型的先发优势。AI大模型最大的投资机会在应用,在搜索、电商零售、办公、金融、医药等行业有望率先落地。

编辑: 郭峰
关键字: 大模型 抖音

专栏