陕西国际商贸学院
随着数据挖掘和机器学习技术日渐成熟,数据价值日益凸显,数据交易逐渐兴起,数据交易的发展一方面使得数据所有者获得更具个性化的服务,另一方面又使数据购买者提高收益。区块链技术具有去中心化、不可篡改、可追溯等特性,为解决数据交易中的上述问题提供了新思路:利用区块链建立一个无第三方的数据交易平台,在交易双方建立信任机制,交易过程可以采用加密技术保护用户隐私,使用区块链存储交易信息保证数据所有者对数据始终具有控制权,跟踪数据使情况。基于这些优势,基于区块链技术的数据交易市场在业界掀起了一股研究和应用热潮。
一、区块链与数字交易
区块链是从比特币底层技术衍生出来的新型技术 ,它是一个由多方共同参与维护的分布式数据库,每一个参与维护的节点都保存了完整的区块链数据,这些节点之间通过运行一致性算法等形成共识,实现对账本状态的改变。每个区块分为区块头和区块体,区块头存储上一区块的哈希值,使得已经写入区块的数据很难被篡改,区块体存储详细的交易数据。区块链的多节点性、不可篡改性、强制执行性为解决数据交易中存在的问题提供了思路。1)多节点性:在区块链中进行的身份认证、数据交易和数据验证等过程都经过多个节点的验证,可以解决第三方服务平台的不可信问题。2)不可篡改性:使用区块链存储数据的访问控制列表和数据交易记录,可以提高访问控制的安全性,并为数据所有者提供真实可信的交易日志。3)强制执行性:数据代理和数据请求者使用智能合约制定交易规则,智能合约生效后自动执行,不被任何一方干预,为买卖双方建立信任关系提供了技术基础。
二、区块链下的数据交易
1、隐私保护
数据交易中的隐私泄露体现在两个方面,一方面是指数据代理未经用户同意就收集用户数据或是将数据出售至用户未许可的数据请求者,另一方面是指数据代理未对数据中的隐私信息进行处理和保护,导致用户隐私信息泄露。在集中式的数据交易模式下,大多数据代理混淆数据所有权和数据使用权,以服务换数据,未经数据所有者同意就采集和出售数据,导致数据所有者失去对数据的知情权和控制权。只能通过法律手段对数据代理和交易平台进行约束,但法律手段只能用于用户发现隐私泄露后的维权,并不能从技术上避免这种现象的发生。在基于区块链的数据交易模式下,数据代理发布数据时,区块链节点需要验证该数据已通过数据所有者授权才允许写入区块链。数据交易后,需要将交易记录存储在区块链上,确保用户的知情权和控制权。此外,区块链的匿名性也可以保护数据交易双方的身份信息。区块链平台需要访问整个待交易数据,这将带来数据泄露风险。
2、数据转卖
数据由于其特殊性——“所见即所得”,无复制成本,数据转卖成为数据交易中的一大难题。一些交易平台设置数据检测机制,将数据代理提供的数据与之前存在的数据进行对比检测,若重合率较高,则判定为数据转卖,但购买者只要对数据进行任意修改就可以绕过检测。在基于区块链的数据交易下,可以要求数据代理向区块链注册数据时提供数据来源,采用区块链技术可以对数据进行溯源,无论经过多少次复制、传播,都可追溯数据生产者和所有者,但该机制并不能阻止数据请求者在得到数据后在其他平台转卖数据。Dai等提出一种基于区块链的安全交易方法SDTE,交易中数据代理出售数据分析结果而非原始数据。数据处理过程在可信环境中执行,确保分析过程中原始数据不泄露,保证数据安全。但该机制未对智能合约进行限制,数据请求者可能编写特殊的智能合约使其直接输出原始数据。
3、交易公平
交易公平是数据交易的最后一道保障,要求数据交付和费用支付是“原子性”的,确保交易最终结果要么是数据请求者收到合法数据,数据代理收到付款;要么是数据请求者未收到或收到无效数据,数据请求者无需支付。在基于区块链的数据交易模式下,数据的有效性和完整性使用多节点检验,一定程度上提高了公正性。数据交易的“原子性”可以由智能合约来保障。为实现这一机制,Xiong等提出在交易前,数据代理和数据请求方需要在智能合约中支付与数据等金额的保证金,交易成功后智能合约将返还数据代理的保证金和规定比例的数据金额。如果交易存在争议,多个节点会对数据有效性进行验证,计算数据代理描述的特征向量与请求者收到数据的特征向量的马氏距离,如果验证未通过,智能合约将不会返还数据代理的保证金。该方案可以确保数据的有效性和交易的完整性。在基于区块链的交易平台下,可以利用区块链的多节点性、透明性和不可篡改性,结合密码学、机器学习等技术解决问题,增强用户对平台的信任。
三、问题与发展方向
1、隐私保护
区块链在隐私保护方面的弊端和前文提到的优势并不冲突。优势是指区块链与集中式平台相比,可以保证数据所有者对数据的知情权和控制权,不存在第三方隐藏交易或篡改数据;其弊端是指区块链存储的交易信息和访问控制列表是公开透明的,各个节点都可访问,各实体尽管大多以匿名的方式加入区块链,但被证明仍有被获取真实信息、追踪到真实个体的可能。解决区块链带来的隐私问题主要有两种方式。第一种是在现有区块链中增加匿名化,常用的有采用环签名技术。第二种方式是创建对现有区块改进的区块,可以实现交易双方、交易内容的完全保密。
2、身份认证
在数据交易中,各方实体向区块链发布事务时,数据访问控制都会用到身份认证技术,身份认证技术也在很大程度上影响着平台的安全性和可靠性。在区块链中,身份认证需要在多个节点进行,使用比较广泛的有传统公钥基础体系,通过证书验证身份,需要管理大量证书,尤其是区块链需要多节点验证,会产生信息冗余;基于身份的密码体制,可以通过用户公钥验证身份,但用户私钥由密钥生成中心生成,会产生密钥托管问题。LI等提出使用无证书密码技术,用户私钥由用户的身份和KGC不知道的某个参数生成,在解决密钥托管问题的同时避免了传统PKI技术带来的冗余;此外,区块链系统的公共账本为广播公钥提供了一种便捷方式,克服了无证书密码体制的缺点。但在这种管理访问控制时,会出现节点资源受限问题。
3、海量数据
大数据时代下数据量不断增加,数据加密存储和流通难度变大,尤其是在区块链技术下弊端更为明显,若将数据存储在区块链中,存储代价较高,可扩展性较差,而且一旦加密算法被攻破,区块链的透明性和不可篡改性将导致之前存入区块链的数据被全部泄露且无法挽回。若将数据存储在第三方,存在数据被修改的风险,且意味着访问控制需要由第三方实现。Liang等提出在云端存储时使用Merkle树结构存储数据。Li等提出利用边缘计算将用户在物联网设备中的数据加密存储在分布式哈希表(DHT)中,并将数据地址写入区块链。
4、未来方向
基于区块链的数据交易平台,主要解决未经授权就采集和转售数据等问题。实际上,基于区块链的数据交易平台还可以支持数据所有者获得持续的数据交易利益,激励其更加主动地共享数据。若在第三方平台实现该功能,不能保障数据代理诚实地根据销售情况向数据所有者返利。使用区块链平台,数据使用记录无法篡改,并可以利用智能合约实现自动返利。使用区块链实现价值转移,不仅可以在数据所有者和数据代理之间建立信任,创造良好的数据共享环境,打破各行业间的数据孤岛,还可以利用区块链技术直接进行点对点交易的特点,实现点对点的价值直接转移,即在集成数据交易过程中将其中个体数据的价值直接转移至个体数据所有者,以此鼓励数据共享和流通。采用区块链技术的隐私保护以及价值转移机制,就可能很好地处理患者隐私、数据所有权、数据价值合理分配等方面的问题,可以实现患者在获得一定收益的情况下让渡部分隐私信息,推进医疗数据共享共用。为降低用户隐私泄露的可能,未来应更加鼓励对数据分析产品的交易,以降低大数据的使用门槛。随着分析结果的多次出售,还可以缓解单次数据分析的计算成本。