数据产权市场主体的认知调查与矫正

时间：分类：经济论文浏览次数：

摘要呈现我国数字市场主体的数据产权观念是推进数据确权立法进程亟待解决的基础问题。选择连续8年入围中国互联网企业百强的21家企业主要业务与品牌的隐私政策等文本为样本，在46个样本文件中摘录324个与数据相关的样本资料，运用扎根理论方法在137个编号的基

　　摘要呈现我国数字市场主体的数据产权观念是推进数据确权立法进程亟待解决的基础问题。选择连续8年入围中国互联网企业百强的21家企业主要业务与品牌的“隐私政策”等文本为样本，在46个样本文件中摘录324个与“数据”相关的样本资料，运用扎根理论方法在137个编号的基础上获得98个初始概念、44个范畴，主轴编码后获得19个副范畴、14个主范畴。研究发现：我国数字市场主体的数据产权观念，整体上形成13项具体的权利和1项概括性权利、14种客体类型，主要形成企业和用户两类权利主体。其中，企业和用户均享有使用权、共享权、删除权、处理权，企业单独享有数据所有权等5项权利，用户单独享有更正权等5项权利，对企业和用户最重要的分别是数据使用权和数据删除权。当前企业几乎只在个人数据上给用户配置权利，但企业可以就个人数据和非个人数据享有权利，应该严格区分个人数据与非个人数据，并跳出“非此即彼”排他式确权逻辑，进而矫正数据市场主体的数据产权观念。

　　关键词数据产权权利观念个人数据非个人数据数字市场

数据产权市场

　　0引言

　　数据在我国已被视为生产要素，地方立法也曾尝试数据确权，如何可持续地大规模激活并释放数据要素的经济价值成为时代命题。然而“数据权”“数据权利”等概念在该问题上的解释力“捉襟见肘”，此时“产权”概念在数字经济市场重新得到重视，于是“数据产权”概念重新回归人们的视野。[1]

　　数据安全论文：关于构建数据安全生态圈的研究与实践

　　152在国内，现有研究成果主要从所有权视角分析，如吴江认为数据产权是指数据的拥有权、使用权、收益权、让渡权等权利[2]，汤琪认为数据的产权问题包括数据的所有权、使用权、收益权等问题[3]，陈一认为大数据产权转让可分为所有权、使用权、收益权3种交易模式[4]，姬蕾蕾认为数据产权集中于所有权并重点关注对数据的占有、使用、收益和处分的权利配置[5]。

　　也有从知识产权视角展开分析，如陈俊华认为“衍生数据”无法归入现有知识产权客体范畴，需构建包含标记权、存储权、使用权等具体权利的新型知识产权[6]。还有从确权路径展开分析，如司晓认为数据产权应不同于传统产权，不宜采取绝对权利的路径[7]。值得注意的是，尽管既有研究成果将所有权的权能——使用权、收益权与所有权并列而言，但也呈现出一种朴素的数据产权观念，其所指“所有权”应是指所有权的权能——占有权。在国外，现有研究成果很少直接论述数据产权。Schwartz提出以个人数据产权化模型来平衡所有权和使用权以便充分保障隐私信息[8]。

　　RobFrieden认为应赋予数据创建者个人数据保护的权利[9]。HoerenT等指出数据所有权正在被广泛讨论，必须从法律上界定数据本身、数据所能包含的信息和数据载体之间的关系[10]。BoerdingA等认为欧洲物权法为建立数据所有权的理论概念提供了框架，进而构建数据所有权概念维度，提出分配所有权的潜在标准，并分析积极的访问和消极的限制权利[11]。HenriqueSchneider认为生成数据的组织者有权对其生成的数据进行私有化，且可以选择保留数据或将其出售[12]。我国正处于产业数字化、数字产业化的关键期，《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》提出加快培育数据要素市场，研究根据数据性质完善产权性质。

　　尽管既有研究成果对数据产权展开了不同层面的讨论，但不管是数据产权的支持者，还是数据产权的否定者，都未通过实证方法呈现数字市场主体的数据产权观念到底如何。可能的原因在于，潜在样本中并未出现“数据产权”字眼，因而无法找到样本展开实证研究。然而，市场实践并不介意使用什么概念术语来描述数据产权，而是在于如何务实地描述业务场景所欲实现的目标。“数据产权体系是否形成，并不以法律文本中是否出现‘数据产权’字眼为标志。”[1]

　　346同样，数字市场主体的数据产权观念形成也不以相关文件中是否出现“数据产权”字眼为标志。毕竟在私法上创设产权的路径之一是“要至少有一种法定权利为基础，则可以形成某种产权”[1]117。由此，研究数字市场主体的数据产权观念，可以从样本文件中描述与数据相关的某种权利的实质内涵语句展开。在研究方法选择上，扎根理论方法适合规模大、碎片化样本的定量和定性分析，该方法已成熟运用于政府数据开放利用[13]、公共图书馆健康信息服务[14]、移动图书馆服务质量评价[15]等领域。鉴于此，本文基于扎根理论方法检视我国数字市场主体的数据权利观念并提出矫正建议。

　　1研究设计

　　1.1样本选取

　　2021年6月20日至7月15日，笔者以中国互联网协会2020年发布的中国互联网综合实力百强企业为范围，选择连续8年入围互联网企业百强的21家企业主要业务与品牌的“隐私政策”“服务协议”“法律声明”等文本为样本，检索出现“数据”字词的内容，并联系上下文语义，获取相关内容作为扎根理论的具体分析对象。如此确定样本，主要基于5个考虑：

　　其一，选择互联网企业，因为其是最主要的数字市场参与主体，能够代表数字市场主体;其二，选择“用户协议”“隐私政策”等文本，因为其往往是企业和用户之间的契约，除非违反法律的无效条款以外，具有约束双方的效力，其中对“数据”的相关约定至少能反映企业的意图;其三，选择“百强”，因为能进入百强企业一方面是综合实力的体现，另一方面其应担负起相应的社会责任，因而具有一定的代表性。

　　其四，时间限定为连续8年，因为如果企业能够自互联网百强企业排名开始，保持每年进入百强名单，说明其具有相当强的稳定性;其五，选择中国互联网协会发布的排名，因为其具有权威性——中国互联网协会成立于2001年5月25日，由国内从事互联网行业的网络运营商、服务提供商、设备制造商、系统集成商、科研和教育机构等70多家互联网从业者发起成立，是由中国互联网行业及与互联网相关的企事业单位自愿结成的全国性非营利性社会组织，现有会员1,000多个[16]。取样步骤分为三步：

　　第一步，将2013-2020年的各年度“中国互联网企业100强”汇总排序，筛选出连续出现8次的企业名称，由此确定连续8年入围互联网百强的21家企业(简称样本企业)。需要注意的是，部分企业名称在8年间的排行榜上发生变动，如“腾讯公司”变更为“深圳市腾讯计算机系统有限责任公司”，视为同一个企业;应避免名称含有同类主题词的企业并不是同一个企业，如“深圳市腾讯计算机系统有限公司”与“腾讯音乐娱乐集团”都含有“腾讯”，在整理检索结果时应注意区分。

　　第二步，如果样本企业有多个主要业务与品牌，仅选择2020年排名榜单中列明的第一个“主要业务与品牌”(简称样本业务与品牌)。如果在首个样本业务与品牌中一个样本文件都没有，则选择2020年排名榜单中列明的第二个“主要业务与品牌”，以此类推，直到找到样本文件。如果最终无法找到样本文件，则剔除该样本企业。

　　第三步，在样本业务与品牌的官网或品牌的应用中找出“隐私政策”“服务协议”“法律声明”等可能涉及“数据”的文件(简称为样本文件)，如果存在多个样本文件则都找齐。随后，对找齐的文件进行初步检索阅读，剔除不包含“数据”相关内容的文件，如《淘宝网儿童个人信息保护规则及监护人须知》未涉及“数据”，不纳入样本文件。共获取46个样本文件，累计出现“数据”频次为641次，涉及隐私政策、服务协议、注册协议、许可协议、个人信息保护政策、法律声明、知识产权声明等不同的文件类型。

　　1.2数据处理

　　数据和信息是两个不同的概念，二者之间的关系表现为：数据是信息的载体，信息是数据的映射[1]88-89。在我国立法实践中，《网络安全法》第37条将“个人信息”和“重要数据”并列表述，《数据安全法》第三条第一款将“数据”界定为“任何以电子或其他方式对信息的记录”，都说明立法层面就“数据不同于信息”达成了共识。

　　鉴于此，本文并不考虑“信息”相关问题，而只研究“数据”相关问题。在企业的系列文件中，有专门的“用户协议”或“隐私政策”，但并没有就“数据”相关问题作出专门规定。关于“数据”的规定是分散在企业的“隐私政策”“用户协议”或“法律声明”等文件之中，因此筛选样本文件时根据是否出现“数据”来判断，共摘录324个与“数据”相关的样本资料。因某些语段中“数据”字眼不只一次出现，因此与“数据”相关的样本资料数量(324)小于其中“数据”总词频(641)。

　　正因为样本文件内容繁多，且与数据相关内容占比较小，因此在编码前需要对样本资料进行数据清洗。有的样本文件虽然出现“数据”字眼，却与“数据产权”没有关联性。例如，“您可点击此处查看淘宝平台数据共享情况说明”，因此要剔除此类样本数据，不予以编号。逐一检索样本文件中的“数据”，定位到相应语句，再通过人工判断摘取与“数据产权”相关语句形成样本库，作为运用扎根理论方法的原始资料。

　　需要注意的是，原始资料摘录不仅仅只是摘录包含“数据”字眼的语句，根据情况还需要将能够帮助理解“数据”内容的上下文一同摘录(简称为“原始语段”)。清洗完样本文件后需要对原始资料进行定位编号，编号规则为“样本企业号+样本文件号+原始语段号+主题词号”。样本企业号的区位码为第1-3位，取自其中的01S到21S连续编号，分别代表不同样本企业，如“01S”表示其中的第一个样本企业“阿里巴巴(中国)有限公司”。样本文件号的区位码为第4-6位：第6位表示同一样本企业中出现的不同样本文件类型，从“A”开始连续编号;第4-5位表示在同一样本企业中同一类型样本文件出现的次数，从“01”连续编号。

　　如果在第一个样本企业出现了3个不同类型的样本文件，则按其被检索到的顺序编号为“A”“B”“C”，“A”代表与隐私相关的文件(可表述为隐私权政策、隐私保护指引等)，“B”代表与服务协议相关的文件(可表述为用户注册协议、用户服务协议、使用许可协议等)，“C”代表与法律声明相关的文件(可表述为法律声明等)，如“01S01A”“01S01B”“01S01C”;如果在第二个样本企业出现的两个样本文件落入前述三个类型之中则继续沿用“A”“B”“C”的编号，如“02S01A”“02S01B”;如果在后面的样本企业出现的样本文件超出了这三个类型，则继续编号为“D”，如在第八个样本企业中出现“个人信息保护政策”则编号“08S01D”，“D”就代表与个人信息保护相关的文件，以此类推。

　　如果同一样本企业的同一类型样本文件仅出现一次，则都是编号为“01”，如“01A”“01B”;如果同一样本企业的同一类型样本文件出现多次，则在“01”之后继续编号，如“01A”“02A”“03A”或“01B”“02B”“03B”，以此类推。原始语段号的区位码为第7-8位，从“01”开始连续编号，按照样本文件中出现“数据”的语段顺序编号(如“01S01A01”“01S01A02”)，每一样本文件的原始语段号重新开始连续编号(如“01S02A01”“01S02A02”，再如“1S01B01”“1S01B02”)。

　　主题词号的区位码为第9-11位，从“001”开始非连续编号，按照原始语段中“数据”在样本文件中出现的词频序号编号，“非连续编号”是相对于样本文件中出现“数据”的总词频数而言的，如“01S01A01001”表示阿里巴巴(中国)有限公司的隐私权政策中第一条关于“数据”的原始语段第一次出现“数据”的位置，“01S01A02004”表示阿里巴巴(中国)有限公司的隐私权政策中第二条关于“数据”的原始语段第四次出现“数据”的位置。这种非连续编码的优点在于，可以快速定位到样本文件中的原始语段。

　　2研究过程

　　2.1开放性编码

　　第一步，运用内容分析法逐一解构原始资料，对每一个原始资料的内容进行分析，并按照前述编号规则编号(便于追溯原始数据)，第二列“原始资料编号”，分析46分样本文件的共获得与“数据产权”相关的原始资料编号165个。由于开放性编码的资料丰富，限于篇幅，仅以第一个样本企业的全部原始资料示例编码过程。

　　第二步，运用扎根理方法论逐一对原始资料进行开放性编码，在对每一特定内容概念化时，不拘泥于每一个条文只归纳一个概念，并在此基础上再进行范畴化。在编码过程，尤其注意处理初始概念化与范畴化的关系，如“数据的知识产权和其他权利归属企业”初始概念标签，在范畴化时仅编码为“数据所有的权利归属企业”，而不再单独计量“数据的知识产权”。

　　因为原始资料的“所有的权利(注意不是“所有权”)”除了列举的知识产权以外，还包括其他未列举的权利，仅计量“数据的知识产权”有失偏颇。在开放性编码的过程中再次将无实质内容的部分去除，完成137个编号对应内容的开放性编码后，得到137个初始概念，合并重复内容之后获得98个初始概念，最终获得44个范畴。在初始概念基础上可解读出数据产权的内容，在范畴的基础上可解读出数据产权的“客体”观念。

　　与其他研究成果运用扎根理论方法不同，基于研究“权利”的特殊性，本研究在进行开放性编码时，注重两个方面的处理。其一，对原始资料的初始概念化并不追求绝对的简洁表述，而是尽可能用简短文字表述原意，为后续论述权能内容和功能服务。例如，分别体现数据使用权的“优化服务”和“维护交易安全”的内容和功能指向。其二，范畴化在追求简洁表述的同时确保包括“客体”“权能”“主体”三要素，因为这3个要素构成权利的基本内容。

　　例如，a1-a12的客体都是“数据”，权能都是“使用权”，主体都是“企业”，因此范畴化得到“A1数据使用权归企业”;a13-a19和a1-a12的权能、主体都一样，但不能范畴化为“数据使用权”或“数据使用权归企业”，而是要区分不同的客体——用户数据，因此范畴化得到“A2用户数据使用权归企业”。如此保留基本要素便于后续结论分析，至于A1和A2的进一步归纳整理，则是主轴编码的工作。

　　2.2主轴性编码

　　就研究数字市场主体的数据产权观念而言，由于权利基本要素的特殊性，范畴化编码时包括客体、权能和主体，因而在进行主轴编码时要注意区分副范畴和主范畴，即范畴、副范畴和主范畴分别相当于三级指标、二级指标和一级指标。其一，比较开放性编码中获取的44个范畴，将“客体”统一整理为“数据”，整理得到19个副范畴，在副范畴的基础上可解读出数据产权的“主体”观念。其二，比较主轴编码中获得的19个副范畴，将“主体”统一去掉，整理得到获得14个主范畴，在主范畴的基础上可以解读出数据产权的“权能”观念。

　　3研究结论

　　以互联网企业为代表的数字市场主体所形成的数据产权观念，尽管没有像学术研究那样直接使用诸如“数据删除权”“数据可携权”等严谨的表达方式，但通过扎根理论方法分析，在遵循原始资料原意的基础上按照学术表达建构，可呈现比较清晰的数据产权的权能、客体和主体格局。

　　3.1数据产权的权能配置

　　在企业的数据产权观念中，数据之上可以设定数据使用权、数据共享权、数据删除权、数据所有权、数据知识产权、数据处理权、数据更正权、数据可携权、数据访问权、数据权利、数据限制权、数据拒绝权、数据获取权、数据许可权。除“数据权利”属于数据所有的权利的概括性称谓外，共有13项具体的权利类型。

　　其中，排名前三的是数据使用权、数据共享权、数据删除权(简称为“数据产权权能整体排名”)，占比分别为31.39%、17.52%、12.41%，数据使用权分别是数据共享权、数据删除权的1.8倍和1.5倍;数据所有权、数据知识产权和数据处理权的占比(7.3%)虽并列第四名，但均未超过10%。可见，对企业和用户而言，在数字市场实践中，数据使用权是最重要的，其次分别是数据共享权和数据删除权，这三项权能能够满足数字市场参与主体使用、共享和删除数据的需求，故后续进一步分析仅围绕这三项权能展开。

　　4研究展望

　　当前我国数字市场主体已经形成主体、客体和权能三要素具备的数据产权观念，在主体方面基本已形成“企业-用户”的格局，因而主要从权能和客体两方面展开矫正。

　　4.1数据产权的权能观念矫正

　　在企业设定的13项具体的权利类型中，除根据业务实际需要设定“数据共享权”外，其余权利类型均可在既有权利观念中找到“原型”。在《通用数据保护条例》各项数据权利观念影响下设定数据删除权、数据更正权、数据可携权、数据访问权、数据限制权、数据拒绝权，在“可携权”的“获取”权能观念影响下设定数据获取权;在既有所有权、知识产权、许可权的权利观念影响下设定数据所有权、数据知识产权、数据许可权;在所有权的使用、处理的权能观念下设定数据使用权、数据处理权。

　　从实质意义看，许可数据关联(a71授权去标识化数据与其他数据关联)的前提是对数据享有占有的权利，故可归入“数据所有权”范畴。由此，可将数字市场主体的数据产权观念简化为数据所有权、数据知识产权、数据共享权，以及数据删除权、数据更正权、数据可携权、数据访问权、数据限制权、数据拒绝权。

　　4.2数据产权的客体观念矫正

　　以是否可以识别到特定自然人为划分标准，可以将数据分为个人数据和非个人数据，那么在统计意义上将“未区分个人的和非个人的数据”则可视为“数据”。在表7的基础上按此标准归纳整理可知，个人数据占比42.50%、非个人数据占比28.75%、数据占比58.39%。然而，在“数据”之上仅设定一项“用户可抛弃其游戏数据”，由于“未区分个人的和非个人的数据”实际上可以识别到特定主体，意味着企业在个人数据上为自己设定的权利占比71.53%。

　　从这个意义上而言，在没有法律明确规定的情况下，企业藉由其强势地位，几乎将个人数据视为己有。企业通过隐私政策、服务协议等文件为自己设定的数据产权时，应该进一步区分个人数据和非个人数据，在此基础上方可进一步根据业务场景设定具体的数据类型。企业可当然地在非个人数据上为自己设定权利，但应承认用户在其个人数据上享有权利，这并不是绝对地否定企业在个人数据上享有的权利，其前提是经过用户同意——法理基础在于“权利让渡”或“权利转让”。如此，有利于促进不同主体就“数据产权”达成最小共识。

　　参考文献：

　　[1]文禹衡.数据产权的私法构造[M].北京:中国社会科学出版社,2020.

　　[2]吴江.数据交易机制初探——新制度经济学的视角[J].天津商业大学学报,2015,35(3):3-8,20.

　　[3]汤琪.大数据交易中的产权问题研究[J].图书与情报,2016(4):38-45.

　　[4]陈一.我国大数据交易产权管理实践及政策进展研究[J].现代情报,2019,39(11):159-167.

　　[5]姬蕾蕾.大数据时代数据权属研究进展与评析[J].图书馆,2019(2):27-32.

　　[6]陈俊华.大数据时代数据开放共享中的数据权利化问题研究[J].图书与情报,2018(4):25-34.

　　[7]司晓.数据要素市场呼唤数据治理新规则[J].图书与情报,2020(3):7-8.

　　作者：文禹衡，贺亚峰

上一篇：局部供暖条件下农村居住建筑能耗的影响因素下一篇：数据驱动的电力系统运行方式分析