“大模型对数据采集、标注等方面的要求都非常高。以前大家还在卷价格,但现在处理一条数据,成本甚至能达到几百块钱。”在一场大模型语料数据推介会中,北京晴数智慧科技有限公司(下称“晴数智慧”)的数据专家乔天说道。
作为一家数据服务公司,晴数智慧主要为人工智能研发企业和科研机构提供高质量的AI训练数据集及专业咨询服务。乔天的感受并不是个例。证券时报记者采访多家AI数据服务商发现,今年以来大模型的火热,为一批AI数据服务商带来了更多订单需求,却也极大提升了数据产品和服务的成本。
大模型时代,机遇与挑战并存。布局大模型是为未来种下一棵确定的“摇钱树”,还是在养一只“钱”景不明的“吞金兽”?随着三季报尽数出炉,部分上市公司的业绩也透露出一个信号:AI数据服务商业绩承压,正面临成本考验。
收益——
需求井喷带来更多订单
算力、数据、算法,被称为支撑AI大模型的三驾马车。在今年的世界人工智能大会上,中信智库专家委员会主任、中信建投证券研究所所长武超则表示,一个模型的好坏,20%由算法决定,80%由数据质量决定,未来高质量的数据将是提升模型性能的关键。
训练大模型需要大量高质量的数据。如果将大模型比作一个学习者,那唯有提供优质的“学习材料”,才能让其更有效地掌握知识,提升智力水平。随着预训练大模型技术的发展,对数据的质量和数量的要求也越来越高。根据德勤预测,2027年AI预训练数据服务的市场规模有望达到160亿元,5年复合增速为28.9%。
而且,目前大模型加速应用于千行百业,对于垂直领域高质量数据集的需求更是呈现井喷的状态。记者梳理发现,A股主要的AI数据服务公司最近一段时间纷纷宣布,已与大模型公司或科研机构达成了合作。
比如,国内AI训练数据龙头海天瑞声近期宣布与北京智源人工智能研究院正式签署战略合作协议,在大模型数据处理、大模型评测、数据集研发、人工智能标准研制等方面开展合作。拓尔思日前在投资者互动平台表示,公司已与人工智能企业和国家级实验室签订销售合同,为其提供高质量、多元化的数据,作为大模型预训练数据集。
“我们的一个明显感受是,大模型在场景端实现了真正的爆发。”上海数库科技首席科技官曹峰在接受记者采访时说。作为一家数据科技公司,数库科技在金融及产业领域积累了庞大的数据产品与系统服务。曹峰告诉记者,如今客户会基于大模型的能力提出许多以往技术达不到的需求,例如对现有研报和公告进行深度解析,将对上市公司调研的访谈内容形成文字并自动提取要点等等。
场景应用的多元化以及信息加工的深度化,都意味着更多和更复杂的数据需求。据介绍,这些数据有些需要借助大模型来生产,有些则是作为垂直领域大模型的训练语料或者生成内容时的参考资料。
成本——
算力与人力开销
水涨船高
虽然大模型横空出世以前,AI数据服务商已经积累了不少成熟的数据产品,然而很多并不契合训练大模型的要求。“大模型公司就像厨师,数据服务商就像菜农,厨师下单的一些‘食材’,是菜农之前没有见过的。”财经信息服务商飞迪科技创始人丘慧慧向记者做了一个生动的比喻。
“厨师”提出了定制化的、更高端的食材需求,“菜农”只能投入更多的精力、花费更高的成本去制作。这带来的一个直观影响,就是数据产品和服务的成本变高了。
具体是哪些地方需要花更多的钱呢?一名人工智能研究人员告诉记者,更高的成本主要体现在两个方面——算力和人力。算力方面,由于大模型需对数据进行更深度、精细的挖掘,离不开更强大的算力支持,数据服务商往往需要租赁或者采购更多的芯片、显卡等硬件资源。
人力方面,在过去相当长的一段时间里,AI数据服务,尤其是数据标注服务被视为劳动密集型产业,是脏活、苦活、低附加值的活。以数据标注为例,一些科技大厂和数据服务商常常在经济欠发达的地区设立数据标注团队,助力当地群众就业的同时降低人力成本。然而在大模型时代,数据质量要求大大提升,数据处理难度变大,过往依赖低成本劳动力、“价低走量”的模式不再成立。
“以前中专生或高中生就可以满足数据标注的要求,如今需要招聘大学生,甚至是硕士生、博士生,处理指定行业的垂直类数据。”一名AI数据服务商向记者表示。据媒体报道,一家头部大模型厂商建立的数据标注基地,第一批标注员的本科率达到了100%。毫无疑问,至少在现阶段,大模型让数据标注员的学历卷起来了,人力成本自然也水涨船高。
除此以外,将数据“喂”给大模型之前可能需要对其进行初加工和预处理,需要搭建新的平台。对于AI数据服务商而言,则需要布局数据存储和处理的硬件设备,同时也必然伴随着更多算法工程师的人力投入。而且在大模型浪潮下,一些积累了高质量行业数据的数据商已经不满足于提供数据服务,而是自己下场搭建行业大模型——而这则是更大的一笔投资。
因此,布局大模型注定是一项“烧钱”的业务。反映在二级市场上,多家开展数据业务的A股上市公司发布了定增募资方案,以满足大模型的研发投入。6月,海天瑞声发布了向特定对象发行A股股票预案,拟募资不超过7.90亿元,用于AI大模型训练数据集建设项目、数据生产垂直大模型研发项目;7月,星环科技发布了向特定对象发行A股股票预案,拟募资不超过15.21亿元,用于数据分析大模型建设项目、智能量化投研一体化平台建设项目等;8月,拓尔思发布了向特定对象发行股票预案,拟募集资金不超过18.45亿元,用于拓天行业大模型研发及AIGC应用产业化项目。
考验——
AI数据服务商
业绩普遍承压
今年以来大模型持续火热,点燃了一二级市场的投资热情,但市场亦有质疑的声音,担忧高额的投资能否产生相应的回报。值得注意的是,在海天瑞声和星环科技发布定增募资预案后,两家公司均收到了监管部门的问询函,要求就募资的必要性、公司的现有业务及相关市场前景等问题进行具体说明。
海天瑞声9月对问询函的回复中提到,目前已面世的大模型产品以通用大语言模型为主,垂直领域及多模态领域的大模型数量仍然较少,数据需求尚未充分释放。鉴于公司下游大模型相关客户的产品尚处于首代产品发布初期或研发阶段,市场尚未大范围应用,相关数据需求将在产品投放市场后进一步释放,公司大模型业务相关收入未来有望进一步提升。
星环科技9月对问询函的回复中提到,基于当前人工智能行业的发展趋势以及市场竞争状况,公司若不开展大模型相关研发,未来可能在相关领域无法继续维持市场竞争优势。
在新技术浪潮滚滚而来时,每一个人都害怕被潮流抛弃,因而加速布局新的业绩增长点。然而,从三季度财务报表来看,AI数据服务商的业绩普遍面临不小的压力。
记者还注意到,海天瑞声于10月25日发布了定增调整方案,募资额由7.90亿元下降至6.66亿元,原计划投向数据生产垂直大模型研发项目的拟投入募资金额缩水23.51%,原计划投入AI大模型训练数据集建设项目的拟投入募资金额缩水7.38%。
AI数据服务商业绩承压,押注大模型会否是一场危险的豪赌?这个问题或许还问得太早。一名券商人士向记者分析,抢占大模型商业化应用必然面临高额的投入,但相关产业目前还在发展的初期,大模型尚需要时间下沉到更多的应用场景中,数据需求释放也不是一朝一夕的事,无法以现阶段的营收数据判断未来的情况。
“做数据本身就是一项长跑,数据产业是一个长周期行业,需要提前布局和一些耐心。”晴数智慧创始人张晴晴说。她告诉记者,公司过去一直聚焦对话式的场景,积累了很多高质量的语音数据,其中就包括多说话人48kHz高采样率的语音数据。最近,网络上很多名人说地道外语或方言的AI合成视频广泛流传,“视频口译”成为了很热门的一项应用,支撑这项应用的关键技术之一的语音复刻技术,正是使用了多说话人高采样率的数据实现的。“最近向我们问询的厂商非常多,但前提是我们在这个方向默默耕耘了7年,一直在沉淀和积累这种数据。”张晴晴说。
财通证券近期的一份研报指出,场景应用的落地成为AI大模型新一轮的发展动能,AI预训练数据需求有望伴随场景应用的落地而快速增长。研报进一步指出,随着行业进入快速发展期,行业逐渐向多模态、合规化、半自动化演变,科技巨头和专业预训练数据服务商具备更强的研发优势,有望形成资源整合和研发技术的壁垒,切分更多市场增量份额。
AI数据服务商有一个行业共识:大模型的出现对于数据产业是一个利好,2023年是数据产业高质量发展的元年。一位作家曾写道,“你做三四月的事,在八九月自有答案。”AI数据服务商们在元年种下的这颗种子,未来能够开出怎样的花、结出多少果,或许也唯有时间能给我们答案。