密文轩:数据爬取的争议焦点

信息技术的发展带来数据的丰盈,新型的互联网公司就像石油公司一样,逐渐成了一般人在生活中难以离弃的对象。而这些公司赖以生存的根基正是被人称作数字经济时代“石油”的个人数据。对用户个人数据的利用、保护、爬取等行为便成了各巨头公司经营的一大重头。企业之间关于数据的争议一般是源于一方对另一方的数据爬取行为的合法性与否;而就目前国内的相关判例不难看出,在我国司法实践中,较多情况下会以保护市场自由竞争秩序进而保障消费者权益为由,判定数据爬取方的行为构成不正当竞争,赔偿数据被爬取方的相关损失。

非法爬取数据案的相关争议点分析

虽然,就近些年的判决书确实能归纳出法官对于此类案件的认定拥有大致相同的逻辑,但是,细化去看时,还是比较容易发现一些比较容易引起争议的话题点。下文将结合几个案例的判决内容对相关的争点做一个简单的思考。

(一)为什么对非法爬取数据的案件进行不正当竞争的认定而非是著作权侵犯的认定?

在早些时候,欧洲就在知识产权的框架体系下设立过数据库权,不过,收效甚微且受到批评略多,有关的保护更多是从著作权法中汇编作品的角度入手。而我国总体立法是偏倚大陆法系的,著作权更强调作者的精神,所以,不妨以独创性认定标准较低的国家入手分析;在有著作权法/版权法的国家中,英美法系一派出于对经济利益的放任发展,独创性的认定标准向来较低,但在91年Feist一案中,也完成了“额头流汗”标准向“最低限度的智力创造性”的转变:因为电话簿仅是按照居民姓名的字母排序,缺乏足够创造性的证明,原告郊区电话公司对Feist公司的起诉被判败诉。

转而分析当下的信息数据情况,一般可分为“原始数据”和“衍生数据”两类。其中,像“百度诉奇虎360”一案中的爬取的数据更多是直接针对原初网站页面直接爬取而展开的,所以更偏向于“原始数据”,可以看出除了爬取存储行为基本上不存在其他更多的操作,自然不能够被认定相关网站对这些数据享有著作权;而在“新浪诉脉脉”一案中,脉脉是通过OpenAPI获取用户相关的数据,而新浪对于这些数据的处理,也更多是停留在按用户对数据进行归集形成账户,大致类似Feist一案中原告的处理模式,其中的创造性亦不足以使得这些数据被提上著作权法保护的日程。当然也存在一些金融平台对于其用户的账户数据可能进行高价值性的处理,但此种情况下,往往是从实用性角度出发的加工处理,也可以将其与独创性表达相界分、区别。

因此,根据上述的分析,首先可以在大部分情况下排除非法爬取数据案件中的著作权法适用,转而从商业资源的角度进行反不正当竞争法上的认定,但是在具体对行为进行认定时,还需要对从几个争议焦点对行为的合法性进行探讨。

(二)如何认定涉案双方之间存在竞争关系?

一方面,早期在立法和学理上对于不正当竞争关系的认定要求行为主体与被侵害者之间具有直接的竞争关系,即如果行为人与被侵害者不是处于共同的或有联系的经济活动领域,则其行为就不会被认定为不正当竞争。“百度诉奇虎360”一案中,原告百度本身就是经营搜索引擎、提供信息服务起的家,慢慢地将业务拓展到文库、百科、音乐等服务。而被告奇虎360于最初时,是提供软件安全服务起家的,也是在本领域内逐渐做大之后,开始向其他领域拓延业务。2012年8月,当奇虎360开始同样向用户提供信息搜索服务——“360搜索”时,二者已经足以构成严格意义上的竞争者,因此,也自然可以构成我国《反不正当竞争法》第二条意义上的经营者,作为适格的诉讼双方主体。

另一方面,数字经济的发展和社会科技的进步促进了企业的规模化和多元化经营,也就使得市场竞争的范围更加广泛,从“大众点评诉百度”一案的法官意见中,不难看出,这种竞争关系认定范围的拓延。在此案中,大众点评是一家独立的第三方消费点评网站,主要向网络用户提供商户基本信息及点评信息,包括商户的地址、联系方式、简介等信息以及消费者对该商户服务、价格、环境等方面所发表的评论;同时用户也可以调用地图查询路线或部分团购服务。而被告方百度一方的百度地图和百度知道总括的来讲都可以被认为是提供信息搜索服务,从表面上看与大众点评的重合度并没有那么高,似乎是不会被认为存在上段中严格意义上的竞争关系。但在本案中,法官将竞争的本质落脚在对客户即交易对象的争夺上, 打破了相同行业、相同领域或相同状态模式等固化要素范围的局限,从经营主体具体实施的经营行为出发加以考量。即虽然两家公司的经营模式确实不同,但是用户通过大众点评可以接受的服务,完全可以通过百度知道和百度地图的综合应用而取得,而且用户一旦在百度搜索到满意的答案之后,自然是不会再点开大众点评的相关链接内容,无论百度是否会在本站页面内以后附的形式提供。因此,法官认定“存在竞争关系”的并逻辑并没有问题。

根据上述两个案例,不难得出,在数字经济社会,严格意义的同业、同领域经营者必然会构成反不正当竞争法上的竞争者,而其他的经营者虽然具体涉及领域不同,但也可能会因为行业的特殊性而大概率被认定为竞争者,对此的认定应当立足于法律经验的判断,而不是对于法条教义的死守。另外,在网络竞争中若要对竞争者的定义做出一个更大的扩张解释,其实也并非不是毫无理论与事实支持,哥伦比亚法学院的吴修铭教授提出的“注意力商人”这一概念,将一般人的注意力和时间商品化,便可以帮助法官从波斯纳式的实然的经济效益角度对双方关系做出一个恰当的判断。

(三)用户数据权属应当如何进行认定?

通过上一节已经可以对经营者之间的竞争关系做出一个判断,进一步地,对于数据爬取行为,一般会认为应当先对数据的权属作出一个分明的界定,这样可以方便判定不正当竞争行为,但是对于用户数据的权属究竟应在掌握在谁手中,目前仍然是理论和实务中的一大争议点。

有观点认为用户数据的权利应当归属于用户自身,毕竟这些数据都是用户在日常的互联网使用过程中产生的,这一主张似乎是无可厚非。实践中,对此种观点持支持态度最明显的当属18年5月开始实施的《通用数据保护条例》(GDPR)。GDPR中确定了用户的数据可携权(portability)制度,以这种形式赋予用户自决的能力,试图建构个体控制权以对抗互联网巨头对用户数据的掌控。对此,在Facebook、Twitter、Google和Microsoft推出了一个数据传输计划(DTP),目的在于方便用户可以在这几家企业的经营范围内实现个人数据的自决与互通,只是这几家之间的业务领域并不是太相同,所以很难说用户可以通过这个计划真正地扩大自己的选择范围,也就更不用说实现自己对于数据的自决权。因此,可以从实务的角度看出来,认定用户享有数据的权属可能确实是对于用户权益保障的一种考量,但是互联网行业内的情况才是会对此起到关键性作用的存在,毕竟,用户生产数据的基础仍然是互联网企业搭建出的技术平台,更何况用户生成的数据并不一定只是用户一个人付出劳动而得到的成果。

另一种观点就是用户数据的权利应当由互联网公司享有,理由也很简单,用户的数据产生的基础和可能都是互联网公司赋予,而且最后用户数据集成的数字档案也是互联网公司利用算法技术归整的,虽然不存在被著作权法保护的可能,但是作为一般的劳动成果还是可以当成公司的合法权益受到法律保护。在今日头条和腾讯因“多闪侵权”的问题而爆发争执之后的几日内,腾讯研究院就发布了一篇文章,整理了国内外多个法院做出的有利于认定公司数据权属的案件,如“大众点评诉爱帮网案”、“新浪诉脉脉案”、“淘宝诉美景案”、“Facebook诉Power公司案”,看起来是表明了无论立法层面是否有做出明确的规定,至少在当下法院的司法实践是对公司享有数据权益是认可的。但是,这明显是一份有价值倾向性的整理,在“LinkedIn与hiQ Labs爬虫软件”一案中加州北区联邦地区法院做出判决的逻辑明显不是这样,相反,法院认可了数字经济发展的自由性和互联网企业最初“非法兴起”的商业逻辑。国内判决的话,“百度诉奇虎360”一案中也有相应的逻辑与之佐证。所以,公司享有数据权属至少目前也不是一个真命题。

有人以科斯的“清楚界定的产权是市场交易的前提”向当下数据产权的划分不明提出质疑,但这样的质疑又在多大层面上值得探讨呢?所有的上层建筑都是立足于经济基础之上,欧盟境内没有太大的互联网巨头,在欧洲被广泛使用的互联网产品都是打上美国标签的,这自然为欧盟立法(GDPR)带来了价值上的取向,即限制美国互联网巨头的垄断,给本土企业创造一些机会;而中国、美国两国都是在很大层面上受益于新经济的产出与发展,也就无怪会对于企业数据权会做出一定程度的保护。更何况,对于数据而言,重要的是企业的访问与使用,只有对数据池的使用才能带来经济上的正外部效应,界定权属却不会带来实质性的经济产出,司法实践中对于数据权属的价值性判断如果也是以产生经济上的意义为目的,那么,在某一时刻就做出一个恒定的、具有普遍效力的权属认定便显得不是那么有必要了。

(四)如何认定数据爬取行为与不正当竞争之间的关系?

虽然对于数据的权属认定,仍然存在模糊的空间,或者说没有一个统一的判断,故而法院判决时一般也没有太过于强调数据权属本身,因此,也并不妨碍他们对于部分互联网企业的不正当爬取行为进行认定。

在“大众点评诉百度”一案的二审判决书中,法院落脚于百度的信息服务提供后会大幅度减少大众点评网的点击率,以此认定被告百度是“未经许可使用了他人劳动成果”,通过“搭便车”行为,完成了对于原告大众点评网的“实质性替代”,造成了“实质性损失”且破坏了“市场竞争秩序”,对消费者产生不利影响。“百度诉奇虎360”一案中的逻辑也是类似,法院认定构成不正当竞争的是奇虎360一开始“不言不语”的爬取替代行为和后期超出合理使用范围的“网页快照”的技术反制。可见,法院在实践中很巧妙地避开了数据权属确权的争议,而是以劳动成果为被爬取的企业正名化。基于这一个“劳动成果”的立足点,结合类似的判例,是可以归纳出几个常规的构成要件:1.存在“不劳而获”和“搭便车”行为;2.该行为明显超出合理受用的限制;3.对于原网站造成了实质性替代以至于损害其商业利益。

而对于通过OpenAPI开发合作获取用户信息的案件,法院也在“新浪诉脉脉案”给出了一种新的认定思路。法院认为脉脉利用OpenAPI的技术问题,抓取了本没有权限抓取的信息,便构成了不正当的竞争,并且在二审判决书中明确给出了“用户授权+平台授权+用户授权”的三重授权模式,以维护用户的相关权益与企业竞争优势相关的权益。需要注明,此处的权利仍然不是对于数据财产权的认定。本案中,爬虫抓取的数据是用户的个人信息,希望借此搭建出一个用户的社交网络,所以,就数据本身而言更多涉及到的是个人人格相关的权利而非是财产;就社交关系网而言,能够视为脉脉对于新浪经济投入及其相关权益的一种不正当竞争。因此,法院也愿意明确地认定一个三重授权的特殊逻辑,而不是以之前的“搭便车”逻辑一笔带过。

目前,国内数据爬取的案件审理中,法院大致的认定模式都是依托于以上两种逻辑,而且主要是以“搭便车”为主,这对时下互联网行业内部的数据合规会有一定的启发作用。但是,也不排除在新的互联网盈利模式的影响下,法院会随之产生新的判断模式。

(五)如何对数据被爬取方受到的损失进行认定及其与最终赔偿额的关系?

根据我国《反不正当竞争法》第十七条规定,不正当竞争的赔偿数额由受到损害的经营者的实际损失确定;如果损失难以确定,则可以按侵权人的侵权获益确定。但实际上,对于法院而言,如欲通过简单计算得出这一个损失金额或者获益金额还是比较困难的。不过,在“奇虎诉搜狗”一案中,奇虎公司通过提供艾瑞数据(mUserTracker)中搜狗助手月覆盖人数增量来证明被告搜狗的非法所得,倒是提供了一条思路。

由于免费提供基础设施,相关互联网公司的获利途径基本就是“增值服务”和“广告补贴”两大块儿,而这两块都与用户活跃度和覆盖量相关。对此,可以从一些专注于互联网数据分析的公司那儿购买公司的近期相关用户数据,就比如“奇虎诉搜狗”中的艾瑞公司,然后建立一个数学模型,作出一个大致的损失估算,供法院参考。

然而,从目前法院对于互联网不正当竞争案件的实际判定中,不难发现法院对于赔偿金额的大致判处思路,即按照当时段的“行情”再结合案件中的具体情况做一个简单的加减法。比如14年“百度诉奇虎360违反Robots协议”一案中,法院判处总计赔偿70万;15年“爱奇艺诉聚网视科技广告屏蔽”一案中,原告获赔总计36万;16年“新浪诉脉脉非法爬取数据”一案中,新浪获赔220万;16年“大众点评诉百度”一案中大众点评总计获赔323万,以15年与16年作为分水岭可以大致划成两个不同“行情”的赔偿额度范围:50万左右、200万左右。对于这种做法的合理性值得讨论,如百度、新浪一类的巨头公司确实不会太在意赔偿金额,可能更多是想通过诉讼在合法范围内拒斥其他公司的部分竞争行为;但是,部分受损巨大的小公司如果不能够通过诉讼获得至少相抵的赔偿额,极容易面临破产处境,从而会降低互联网行业内中小企业的存活能力和整体行业的竞争性。

总结

结合了相关的法院判决书,第二部分对当下网络非法爬取数据案件的四个争议点,做了简单的分析,其中对于大部分的司法实践逻辑予以了认可,也提出了部分质疑。总体来说,法院的做法出发点始终是保障整体市场的竞争和保护消费者的合法权益,且并没有囿于教条性的权利,是基于对互联网的商业逻辑尊重的基础上对相关焦点做出了最终的选择。这些做法可以认为是有经济效益的,而对于学理上的权益讨论,法院应当持一种审慎的态度,不能贸然地接受任何一种看法。

发表评论