合合信息就爬虫等问题回复上交所问询函,数据合规或成企业上市“必答题”

21财经APP 2022/01/21
导语

对于拟上市公司尤其是互联网软件相关企业而言,回应数据安全等合规问题,已成为其IPO过程中的“必答题”。

近日,旗下拥有名片全能王、扫描全能王、启信宝等多款热门工具类APP的上海合合信息科技股份有限公司于科创版上市的首轮审核问询函回复被正式披露。在回复文件中,合合信息就自身科创属性、实际控制人、经营资质、数据合规性等问题进行了回应。

21世纪经济报道注意到,在合合信息的数据来源中,除直接采购与资源置换获得的数据,通过“自动化访问”即使用爬虫软件爬取,也是其获得数据的主要渠道之一。在产品的海外数据合规方面,委托第三方律所基于《通用数据保护条例》(General Data Protection Regulation,简称GDPR)的要求对扫描全能王(海外版)、名片全能王(海外版)隐私合规进行高阶评估。在数据全生命周期保护方面,合合信息表示数据库和后台支持系统对用户个人信息进行物理删除。

多位受访专家表示,合合信息在本次回复中较为详细地回答了数据全周期内的合规问题,尤其是在数据采集方面做出相对完整的回复,为将来更多企业上市做出了表率。但另一方面,其在爬虫数据采集流程把控、供应商数据来源合法合规性审查方面仍有所欠缺,需要监管与企业共同努力,建设更为健全的数据合规体系和合规信息披露框架。

上交所官网显示,2021年12月31日,上海合合信息科技股份有限公司上市流程因发行上市申请文件中记载的财务资料已过有效期,需要补充提交,发行上市审核已中止。

文字识别与大数据技术的合规标准

在招股书中,合合信息将自身归为人工智能及大数据科技企业,基于自主研发的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

具体业务方面,合合信息旗下的拳头产品为提供智能文字识别、电子名片管理与企业信息查询服务的扫描全能王、名片全能王和启信宝,此外也为企业客户提供以文字识别和商业大数据为核心的基础技术服务、标准化服务和场景化解决方案。招股书显示,合合信息3款主推APP在App Store与Google Play应用市场的全球用户累计首次下载量合计超过6亿,2021年3月的月活合计约1.2亿,基于C端庞大的用户群体,其还以APP为主要载体为各类客户提供广告营销服务。

观察合合信息产品矩阵可以看出,无论是其面向C端的扫描全能王等产品,还是面向B端的企业版文字识别、商业数据服务,均涉及大量数据的采集、处理、分析与存储,在监管机构对个人信息保护和重要数据安全等合规问题监管力度不断加大的背景下,保证数据合规是其稳定经营必备的条件。其在招股说明书风险披露中也表示,公司在人工智能及大数据领域的业务发展直接或间接地受到当前国家产业政策的鼓励与支持,若未来行业监管政策发生变化,而公司不能及时适应或满足未来可能出台的监管政策标准,将对公司的持续经营产生不利影响。

上海证券交易所在首轮审核问询函中指出,合合信息公司存在数据管理内控制度有待完善,与部分数据供应商协议中供应商未明确承诺数据来源合法合规,App用户隐私协议未明确约定采集数据使用范围等问题。

此外,上交所要求合合信息就其各项业务及研发涉及的数据类型和数据来源、数据权属、是否存在销售数据情况,采购个人供应商数据主要内容、比例及原因,供应商采购和自主获取数据区别及占比,自动化访问获取数据来源合法性等进行说明。

合合信息在回复中表示,其数据来源主要包括直接采购,数据与数据互换,广告与数据互换,自动化访问获取数据四种形式,并制定了覆盖数据采集、数据使用、数据访问权限控制、数据导出和数据删除的管理制度。

对于上交所就发行人数据管理不完善的具体情形、影响范围、严重程度等问题,以及针对不完善情形的整改情况及效果的问询,合合信息一一进行了回应,此前其数据管理不完善的具体情况主要包括缺少定期用户协议审阅,未提供站内运营通知和个性化展示关闭选项,缺少个人信息保护标准操作流程等。目前,公司已采取制定用户个人信息使用限制及数据分析需求处理流程,定义了个人信息存储方式、期限、到期删除或匿名化处理标准等方式加以整改和解决。

爬虫技术的合规风险

在合合信息关于数据来源的回复中,第四项“自动化访问获取数据”,实质上即为采用数据爬虫软件爬取信息,在商业信息查询服务领域,爬虫软件的使用情形与使用方式往往是合规焦点所在。2021年9月,企查查官方发布一条声明称其遭到天眼查偷窃数据,具体表现为用户在天眼查搜索部分企业信息时,显示数据来源为企查查,且已就此进行取证并提起法律诉讼。

根据披露,合合信息主要通过自动化程序采集全国各工商网站、各省律师事务所信息披露网站、各省社会组织信息网、各级人民银行官网的信息。浙江垦丁律师事务所合伙人李晋沅在接受21世纪经济报道记者采访时表示,就合合信息对问询函的回复而言,其主要采用的是聚焦网络爬虫和增量式网络爬虫两种来有针对性地爬取公开信息,前者按照预先定义好的主题有选择地进行网页爬取的一种爬虫软件,主要应用在对特定信息的爬取中;而后者只爬取内容发生变化的网页或者新产生的网页,在一定程度上保证爬取的页面内容为增量信息。

李晋沅进一步指出,爬虫技术自诞生起就带有法律合规风险:首先,部分网页设有业内哪些信息可以被搜索器捕捉的ROBOTS协议或反爬技术措施,如若爬虫软件违反相关协议强行爬取信息,则有不当访问网页的风险;其次,《刑法》《网络安全法》《数据安全法》《个人信息保护法》《反不正当竞争法》等法律法规对于网络运营者通过技术手段爬取数据时不得对他人产品造成不当干扰、破坏等均进行了规定,爬虫控制者因自身行为客观导致爬取对象的网页或平台无法正常运行,可能会被认定为是不正当竞争行为或侵权行为,具有承担相应民事赔偿或行政处罚责任甚至承担刑事责任的法律风险;最后,爬虫控制者还可能由于抓取到个人信息、著作权或商业秘密范围的数据等受法律保护的信息,而构成违法违规甚至刑事犯罪的风险。

北京师范大学互联网发展研究院院长助理、中国互联网协会研究中心副主任吴沈括则指出,在数据爬取过程当中,可能还会出现用户中途拒绝被爬取数据的情形,因此也存在数据获取和用户所主张的退出权之间潜在的冲突。

据合合信息首轮问询函回复显示,为了确保自动化采集数据合法合规,合合信息采取了事前对被采集对象是否是商业性网站、Robots协议、条款是否限制自动化采集、反爬虫策略进行评估并计算合理访问爬取频率,新增和修改产品、法务、数据采集等技术人员评估和测试数据采集审批流程,定期检查被采集网站的规定是否变化三项措施。

多位受访专家表示,目前合合信息的数据采集措施总体的合规要素覆盖率已较为全面,但在业内尚无对爬虫软件有明确监管规定的背景下,仍不能完全排除其合规风险。上海申伦律师事务所律师夏海龙指出,对于数据采集前的合规评估部分,合合信息的核心评估逻辑仅停留在消极规避触发被采集网站采集限制上,即认为“不限制即可采集”,尤其在爬虫访问频率这一关键指标上,合合信息并未主动征得被采集网站的同意,而仅基于Alexa访问量自行设定。

“纵观整个评估流程,在合合信息能够明确被采集网站的情况下,未见其采取主动沟通数据购买、发送数据采集情况说明函等降低数据采集法律风险的措施,而仅采取了不直接对外发生法律效力的内部措施。”他分析,严格保护个人信息是《个人信息保护法》的基本规制思路,最小、必要也是个人信息处理的基本原则,而对几乎所有个人信息的获取,都要求处理者征得信息主体同意。从这一角度看,在爬取包含个人信息的网站数据时,合合信息的评估机制显然无法满足这一监管要求,因此不排除合合信息遭遇被信息主体或被采集网站主张权利或提起诉讼的可能。

大成律师事务所高级合伙人邓志松则表示,定期检查被采集网站的规定是否变化可能存在一定的滞后性。倘若技术上可行,可对被采集网站的规定进行实时监测,或缩短定期检查的时间间隔,以便及时根据网站规定的变化作出调整,降低风险。

保证多渠道数据来源合规

在上交所的首轮问询函中,除了要求合合信息就自动化获取的企业数据如何确保来源合法性进行回应,还要求其就发行人调查供应商及数据来源合法性的具体方式及有效性进行进一步披露。

近年来,我国对数据获取的合规监管趋势不断趋严,无论是企业第一方直接采集的数据,还是从第三方购买或置换获取的数据,都需要满足相关法规要求。2019年9月,多家互联网大数据服务公司被曝关停爬虫业务并遭到监管调查,业内知名的第三方数据服务公司聚信立于当月向用户发布消息称,将停止对外提供用户授权的运营商爬虫服务。

李晋沅认为,同类信息服务企业往往存在一个合规错误认识:上游数据提供方非法爬取的数据,责任由数据源公司(数据提供方)自己承担,与下游数据使用企业(数据接收方)无关。接收方在不对数据来源合法性和数据收集授权范围进行审查和确认的情形下,购买和使用提供方非法爬取的数据,如果情节严重到一定程度,很可能构成侵犯公民个人信息罪。结合目前的执法趋势和背景,下游数据使用企业很有可能由于执法机关对于上游数据合作方的调查,而面临相应的刑事责任。

合合信息在回复中表示,目前已制定《供应商管理细则》《数据采购管理规范》等制度文件并制定了数据采购管理流程,审核评估采购数据的范围、目的、用途等,并就此对数据供应商资质、数据来源合法性进行调查,确认其不存在数据权属及知识产权相关重大争议、重大违法违规记录和法律纠纷等问题。此外,在内部数据采购流程管理,与数据供应商对接合作以及每年一次的后续审核中进行相关采购合同和条款的规定。

李晋沅表示,目前合合信息较为详细地回答了数据全周期内的合规问题,尤其是在数据采集方面做出相对完整的回复,为将来更多企业上市做出了很好的表率。但在调查供应商及数据来源合法性方面,主要还是集中在对供应商资格和行为审查方面,并未存在对数据本身来源的合法性与合规性的充分审查:“这是由于主要供应商有凭安征信和人民数据,均为行业内权威性较高的数据供应商。但数据审核业务还是应该建立,随着业务发展,如果有更多供应商加入,仅仅凭借对供应商资格和行为审查已经不足以覆盖数据采集的合规需求。”

数据合规或成企业IPO“必答题”

在合合信息招股说明书中,旗下扫描全能王与名片全能王在国产应用出海中均取得不俗的成绩,也成为其业务亮点之一。招股说明书显示,截至2021年3月31日,扫描全能王和名片全能王曾分别在App Store120个和46个国家的效率类、商务类免费应用下载量排行榜位列第一。2018年、2019年、2020年和2021年1-3月,公司的境外及港澳台收入分别为7,073.43万元、9,308.11 万元、18,311.91万元和6,535.16万元,占总收入占比分别为36.08%、27.35%、31.67%和 38.21%。

但另一方面,优秀的出海业绩也使得其成为海外监管部门的重点关注对象,招股说明书显示,美国政府对扫描全能王,印度政府对扫描全能王及名片全能王均曾采取封禁措施。吴沈括指出,由于不同国家和地区在制度设计上可能存在差异,出海应用厂商要特别注意在国内和海外运营中可能存在的双重合规的潜在冲突,特别是当存在数据跨境流转利用的时候,要在保证中国数据主权的基础上,有更为详细的合规制度设计。

在首轮问询回复函中,合合信息对海外运营数据合规措施进行了披露,其委托第三方律所基于GDPR的要求,参考国际信息系统审计协会(ISACA)于2019年发布的《GDPR审计矩阵》,针对海外产品扫描全能王(海外版)、名片全能王(海外版)隐私合规进行高阶评估,并出具尽职调查报告。

但另一方面,尽管合合信息在招股书说明书中表示“启信宝支持包括海外企业查询等多维度数据智能搜索”,“商业大数据B端企业服务市场参与者包括本土大数据企业以及跨国企业的国内子公司”,其并未在招股说明书或首轮问询函回复中就是否存在数据跨境情况和合规措施进行说明。记者就相关问题对其进行了询问,合合信息回应称相关问题目前不方便回复,一切以首轮问询函回复为准。

近年来,拟上市公司尤其是互联网软件相关企业在IPO过程中,于招股说明书或证券交易所问询函回复中就数据安全等合规问题进行披露已是必不可少的过程。去年,“AI四小龙”之一的商汤科技在提交港股上市招股书时,设专章详尽披露了隐私与AI治理环节,说明其在业务中如何做到数据隐私及个人信息保护;此前,同为“AI四小龙”之一的旷视科技也在上市过程中披露了科创板首轮共计560页的问询答复,其中涉及到了数据合规及科技伦理方面的问题。

艾媒咨询创始人兼CEO张毅指出,目前数据合规问题已成为相关企业上市的“必答题”,但当前无论是企业在招股说明书中的说明还是交易所的相关问询,在很多细节上往往缺乏具体的法律或政策参照,需要立法进一步明确数据使用的界限所在,推动企业建设更为健全的数据合规体系和合规信息披露框架。

夏海龙则认为,对相关企业来说,除了严格按照法律规定在形式上满足合规要求,也应积极、主动保持与业务相关方的沟通,审慎开展缺乏明确法律规定或有明显法律争议的业务,同时应密切关注行业相关的司法实践动向,保持经营敏捷。

编辑: 李慧楠
关键字: 合合信息 爬虫 上交所

专栏