数据交易

From GoToken's Wiki!
Jump to navigation Jump to search

TL,DR[edit]

  1. 目前数据在数字营销和品牌运营、金融风控等应用已经逐渐成熟。阿里在2019年有2,000亿左右的收入源自数字营销,并基于数据和算法在20于2017年6月推出了消费者用户数据平台——”数据银行“和基于数据的UNI-Marketing(全域营销)生态;金融方面基于数据和风控模型的消费贷规模已经超过二线城商行。
  2. 隐私计算解决方案的行业assumption是在web3阶段的数据层的开放Filecoin是数据的存储,TEE是数据的可信计算。目前包括阿里云在内的多个云服务厂商提供由单一数据存储到围绕数据基础设施搭建、数据分析服务等多维度的服务。阿里云数据存储服务目前为止还没有盈利。
  3. 数据孤岛问题的痛点不仅是现在互联网大厂构建的”围墙花园“之间,更多还在不同角色的数据收集商之间的:如阿里 vs 中国移动
  4. 金融场景中数据“变现”的作用更加明显。在P2p时代就形成了一条以数据驱动的获客、风控、放贷、催收的产业链。同时这个场景里面也是监管对数据隐私保护打击最严厉的场景。从规模上来看,2018年阿里巴巴旗下蚂蚁金服的消费贷款余额超过6,000亿元,这个规模超过招商银行、兴业银行浦发银行的2018年贷款规模,因此与五大行和国家开发银行。这其中阿里、微众和平安普惠是最主要的玩家。初次之外,银联、光大银行、恒丰银行等机构也搭建了数据平台。用于自身的业务风险检查或输出数据。由于互联网企业资本金来源有限,受制于监管机构对放贷资本金的要求。目前直接作为自己提供方的业务模式已经进入瓶颈。转而进入“信贷聚合”模式,即数据拥有方提供“数据”给银行做风控和放贷的决策,银行作为放贷的资金方。公开数据显示,2019年1-6月,蚂蚁金服旗下蚂蚁小微小贷的手续费净收入接近14亿元,远超2.5亿的利息净收入。平安普惠旗下的平安小贷,去年利息净收入7.28亿元,但手续费和佣金收入达28亿元,使得该公司“缩表”40%的同时,营收增加了近29亿元。信贷聚合模式一般为由金融科技公司搭建开放平台,将获客、数据、风控、增信、资金等业务节点中银行、保险等机构接入。在此模式下:
    • 银行的资金提供方成为“数据”的采购者
    • 互联网公司、数据分析和采集公司成为数据的“出售”者
    • 对中小银行而言,通过金融科技机构,以助贷或联合贷款方式投放贷款,几乎是“上量容易、不良又低”的不二买卖
    • 随着联合运营的深入,多方数据交互,增强学习的场景将逐步增加。
    • 聚合模式推进的同时,监管对于数据的监管也更加严格:整治大数据爬虫是第一波,清查违规数据来源是第二波,调查APP个人隐私数据获取是第三波,这对信贷聚合平台的隐私保护能力提出了很高的要求。一位股份制银行人士表示,当前银行对大数据风控很严,已经停掉了部分大数据合作。
  5. 安全问题的爆发和监管要求的趋严,会迫使数据使用方投入更多成本在隐私保护。GDPR区域针对于“隐私合规”的市场正在崛起:包括在欧洲、美国,专门提供隐私解决方案的初创公司的市场关注度猛增。在2019年下半年,该领域至少有5家初创公司完成了高额融资,主要用于研发和改进各类数据隐私、保护服务和合规产品目前普遍采用的隐私保护方案是数据加密转换和差分隐私。前者被攻击风险高,后者会降低数据的可用性。基于TEE/密码学的可信数据交互方案、边缘计算和联邦计算是目前普遍考虑的替代方案。
  6. Core Logic: 数据是资产,资产的交互使用需要保护。多方可信交互的方案在保证数据隐私(即资产安全)的前提下,实现资产的交换有较强的比较优势。但同时由于技术限制,对可以交易的“数据资产”的类型,目前还有较强的局限性。

数据行业的概览[edit]

近年来,大数据已从概念落到实地,在精准营销、金融、智慧医疗、影视娱乐、教育、体育、安防等领域均有大量应用。随着云计算、物联网、移动互联网等支撑行业的快速发展,目前我们已经可以用极低的成本存储和计算数据,各种场景中产生的数据量也在迅猛增长,可以预见在未来的10-20年中,数据将持续给经济和社会发展带来重大而深远的影响。

市场规模:新一代千亿美元级别的市场[edit]

根据几个公开信息源给出的数据,当前全球大数据市场的规模约在数百亿美元左右,预计在2025年将增长到千亿美元规模。Forbes 在中国,2018年中国大数据产业规模为4,384.5亿元,同比增长23.5%;到2021年,中国大数据产业规模将超过8,000亿元。 赛迪研究院

数据规模:5年数据规模增长超过50%,预计中国将成为全球最大数据圈[edit]

与此同时,智能商业的发展推动产生了大量的数据。国际数据公司(IDC)的监测数据显示,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2018年全球大数据储量达到33.0ZB,同比增长52.8%。而希捷科技的一项最新研究表明,到2025年全球数据量将会从2018年的33.0ZB上升至175ZB。

其中,中国数据圈增速最为迅速,平均每年的增长速度比全球快 3%。2018年,中国数据圈占全球数据圈的 23.4%,即 7.6ZB。预计到 2025 年将增至 48.6ZB,占全球数据圈的 27.8%,中国将成为全球最大的数据圈。IDC

同时,随时数字化进程从消费互联网正逐渐向产业互联网的方向演进,中国的企业级数据圈正在逐渐超过消费者数据圈,开始占据主导地位。根据IDC的调研,中国企业级数据的比例在2015年已经达到49%,近年来仍在不断增长。预计在2025年,该比例将会达到69%。IDC

数据量统计

行业结构: 多层产业结构基本形成,应用和服务层受技术和合规限制,待进一步突破[edit]

一般来说,大数据产业包含基础设施、数据服务和融合应用三个层面:

  • 其中基础支撑层是产业的基础设施,它包含了采集、传输、计算存储等硬件基础设施及云平台、系统开发、数据分析和展示等相关工具和服务支撑。
  • 数据服务层围绕各类应用和市场需求,提供前端的数据采集、中端的数据处理和数据挖掘及末端的数据可视化,以及贯穿始终的数据安全等辅助性的服务支撑。
  • 融合应用层包含了包括通用性的营销大数据及与互联网、政府、工业、农业、金融、电信等行业紧密相关的各类细分领域整体解决方案,是数据价值和场景结合落地应用的变现层。

进一步,行业可以细分成软硬件产品、数据基础设施、数据源、数据流通及数据应用等多个版块。

ASR数据市场细分.png

从数据来源看,当前市场中企业运营生成数据、政府数据整合共享和互联网数据爬取占据主导。未来随着5G和IoT应用的快速拓展,从传感终端获取的数据将愈发重要。大数据服务的内容涵盖范围较广,主要包括了大数据查询服务、大数据分析服务、大数据交易服务、大数据安全等。赛迪研究院

数据的流通是创造数据价值的关键一环。根据数据使用的不同需求,流通的数据包括原始数据集、加工后的衍生和脱敏数据。涉及包括数据API接口、数据报告、原始数据、技术算法、数据应用等多种数据资源商品。区块链在数据流通中的应用

针对数据在不同实体外部的流通,当前主要采用的流通方式有:

  • 基于中介和数据采产销服务机构的数据流通。典型项目包括各类政府主导的大数据交易所、Terbine、Infochimps、阿里数据超市、京东万象、数据堂等
  • 基于进一步加工处理和衍生的数据或在基于数据衍生应用场景中的流通。典型项目包含阿里的数据银行、腾讯的数字广告平台、美国在线房产交易公司Zillow、美国癌症数据公司Flatiron Health等
  • 数据的黑市交易,多为敏感的个人信息数据

目前企业内部不同业务和部门之间的数据管理和流通,主要通过构建数据中心,搭建数据中台系统等方式完成,典型项目包括明略科技、数澜科技、神策科技、诸葛IO等。

当前的数据流通面临着诸多问题,核心原因包括数据隐私保护方案不完善、数据的易复制性导致二次倒卖问题严重以及数据流通过程不透明导致流通信任成本过高等。受上述问题限制,目前数据流通市场的体量较小。而与之相对的是,目前任何的单一机构,都无法掌握全量的数据,越来越多的机构需要与行业伙伴,或产业链上下游之间进行数据流转,以精准刻画目标对象的画像、完善基于数据的分析和决策模型等。各个应用场景之间也需要相互的数据进行补充,如金融信贷场景往往需要业务场景中的数据来完善风控模型,支撑信贷决策。数据流通的强大需求和数据可信流通方案滞后之间的矛盾日益凸显。

数据产生的价值[edit]

宏观层面[edit]

宏观层面来说,数据给企业带来了多方面改变:

  • 企业开始更多重视相关性,而非因果性。

例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。

  • 决策由人为主体,转变为数据为和引擎为主体。

以淘宝为例,当用户在淘宝上通过关键字搜索自己想要的商品时,第一次想看到什么,第二次点击之后会看大什么,都是由数据智能算法自动形成的,不存在人为干预。而在广告行业,程序化广告的出现,也让传统广告模式由代理人决策变成数据程序自动决策。
在数据和算法的驱动下,一旦用户在互联网上面搜索的关键词,下一秒闪现谁的广告,这个广告的售价是多少,都是由相关性、广告竞拍等相关数据和算法来实时决定。

  • 商业模式的变革,由标准化生产转化为满足用户个性化需求的商业模式。

在数据的支撑下,企业服务和产品开始以面对"不确定性“为出发点,商业模式从B2B,B2C,C2C转化为C2B。即消费者提出要求,制造者根据此设计消费品、装备品和服务。用户从商品的被动接受者变成主动参与者,甚至是决策者。在过去,如果让企业和一个个用户来进行交互,了解用户的实际需求,成本太高,性价比非常低。但消费互联网时代,企业和用户可以实现高效率、低成本的连接和互动,过程中亦沉淀了大量的数据。基于数据和算法,企业可以在足够短的时间内,持续进行产品的迭代和优化,以很快的学习和逼近用户的需求。 以阿里为例,阿里曾经包下美的、九阳、苏泊尔等10个品牌的12个生产线,专门为天猫提供小家电定制服务。能够实现规模化定制的前提,就是基于天猫基于自己掌握的数据,描绘用户的需求画像,指导这些生产线的研发、设计、生产和定价。与此同时,天猫还开启了数据共享计划,将收集到的行业数据,如价格分布、关键属性、成交量、消费者评价等分享给厂商。以指导厂商的研发、设计和生产,使更多的厂商收益于数据的价值。

  • 管理和协作模式的变革。

从具体的行业应用来看,2018年,互联网、政府、金融和电信是大数据最主要的应用领域,合计占比82.1%。(赛迪研究院)互联网、金融和电信三个行业由于信息化水平高,研发力量雄厚,在数字化转型业务发展方面处于领先地位。电信行业中,三大运营商拥有庞大的个人位置数据,精准营销、信用评估等是大数据技术主要的应用的方向。政府大数据行业,随着近年来数字政府和新型智慧城市建设的兴起而快速成长,其在社会信用、公共安全防控、 市场监督管理、数据整合共享等领域的应用逐步成为建设焦点。健康医疗大数据和工业大数据作为新兴热点市场空间大,诸如辅助诊疗、健康管理、设备故障诊断和预测等服务未来增长潜力可观。

微观案例[edit]

  • 数字营销

数字网络广告行业开启了大规模、自动化地利用数据改善产品和提高收入的先河。随着消费者线上参与度和使用粘度的增加。当前的互联网在线平台已经不只是一个销售渠道,而是一个汇聚消费者洞察的高效工具。根据中国互联网网络信息中心统计,中国网络广告市场规模已经从2013年的1096亿元增长到2018年的3717亿元,年均复合增长率达到27.7%。市场中包含以BAT为首的互联网公司,以及如亿玛在线、木瓜移动、蓝色光标等专门从事数字网络广告的公司。其中阿里巴巴2019年数字营销服务收入月1,456亿人民币,占到阿里巴巴收入的40%左右,阿里巴巴的数字营销主要通过其 ”变现平台“ 阿里妈妈实现。

从财报中可以看出,数字广告部分的收入在2017到2018年实现了近50%的增长。这主要受益于阿里巴巴的数据及其算法技术,是基于阿里数据强化消费者个性化的营销方式带来的红利。

数据来源:阿里巴巴港股上市招股书

通过用户的数据和画像可以,阿里可以使得用户看到的内容更依赖于系统基于TA的数据和画像进行的推荐,而非产品的销量以及客户的历史购买记录,也就是所谓的:”千人千面“。商家无法通过刷销量来获得流量,不得不付费向阿里购买广告。事实上,从2018年开始,阿里的的两项业务收入支柱商户服务营收增速(Costomer management)与佣金营收(Commission)增速已经进入低增长状态,分别为27%与23%,已经远低于总营收增速。而与此同时,以数据支撑的C2M模式的新零售承担起了营收增长的任务。

阿里妈妈是我们的变现平台。通过数据匹配商家、品牌和零售商的推广需求与阿里巴巴旗下以及第三方媒体资源。阿里妈妈使我们核心商业及数字媒体及娱乐业务所提供的价值得以变现。阿里妈妈通过展示照片、图像和视频,支持以关键词搜索排名为基础的P4P(Pay for Performance)营销服务。阿里妈妈平台上的展示营销工具根据我们数字经济体中的商业活动和用户活动而形成的数据具有相关性和全面性,阿里妈妈借此可以将最相关的信息推送给用户

此基础上,阿里还于2017年6月推出了消费者用户数据平台——”数据银行“和基于数据的UNI-Marketing(全域营销)生态。所谓全域营销,是指以消费者为核心,以数据为能源,实现全链路、全媒体、全数据、全渠道的一种营销方式。通过消费者精准定位和用户全链路营销和运营的结合,帮助品牌商定位和挖掘更具有价值的潜在消费者。截止目前,阿里的数据银行已经有7,500个品牌使用数据银行的解决方案。

   数据银行的营销案例:2016年年底,针对圣诞和春节的特别时段,英国科技公司戴森发布了针对中国市场的限量版红色吹风机。产品在天猫首发,戴森希望借助阿里妈妈的营销工具,在短时间内让提高品牌知名度,并带来好的销售转化。在三天的撒网时间里,戴森触达到超过2200万的新用户,这些用户在此后也得到了全链路追踪。对于单价较高的戴森而言,效果并非是立竿见影的,在投后的15天左右,回搜点击和收藏、购买的用户数量有了一个集中爆发。负责戴森数字营销及电商的总监Andy Li曾在《天下网商》主办的2017新网商营销大会”上透露,凡是对戴森品牌有意向的人群中,37%的人对曾被戴森的品销宝(注:阿里妈妈的品牌营销产品)触达过,在戴森的品牌树立和转化过程中,阿里妈妈的品销广告居功甚伟。(来源:https://www.maijia.com/news/article/357127)
信息来源:阿里数据银行营销材料

数据营销面临的挑战:

  1. 围墙花园”:真正意义上的“全域营销”的实现受限于当前互联网中一个现实的障碍围墙花园。由于围墙花园的存在,阿里的数据和流量在现阶段很难和腾讯打通。所以当前阿里仅能实现自我生态内部的“全域营销”。

在阿里的全域营销生态构建计划中,可以看到阿里也在试图拓展生态伙伴。最先开始拓展生态边界的工具便是全域广告投放工作台(Uni Desk)。 Uni Desk是阿里的Trading Desk,其基础架构是阿里提供给广告主的ad serving。任何支持第三方广告伺服的广告,理论上都可以用阿里的Uni Desk。使用阿里的ad serving的架构将可以享受到阿里数据和广告管理系统的支持。目前已经有包括阳狮传媒集团、群邑中国、AdMaster等多家广告服务商加入了阿里Uni Desk生态。

    • 高额的流量获取成本和低迷的广告投入之间的矛盾:移动互联网人口红利的衰退和视频流量入口的兴起使得阿里和Google这类互联网的头部生态的流量获取成本越来越高。电商平台都在专注做两件事,a)稳住现有的用户,提高 app 用户停留时长,购买频次;b)稳住平台上的商家
      • Google 2019年广告收入中,流量获取成本占据70%
      • 2018年4季度开始阿里的商户服务营收增速有所下滑,表明商户在淘宝天猫平台投入广告营销费用的意愿并不太强烈。2019年3季度有短暂回升,但4季度开始继续下滑。但与此相对的是阿里的获客成本由2018年的53元/人上升到78元/人。导致阿里的核心商业的利润率持续下降。2018年Q1:63%,2019年Q4:35%。

What is Blockchain Projects doing: Origin Protocol: 去中心化电商基础设施

  • 金融

金融的核心是风控,金融机构的风控水平直接影响坏账率、营收和利润。经过长期的数字化改造,金融机构积累了大量的信息系统,通过这些系统积累 了海量的数据,除此之外,金融机构还会再国家政策允许的范围内获得部分第三方数据数据。目前大数据已经充分被运用在包括企业及个人的信贷评估和授信决策、信息验证、资产估值定价、债务存续期管理等多个场景中。

蚂蚁小贷是中国第一款智能金融产品。它实现了贷款业务的数据化、风控评估的算法和模型化以及数据智能和贷款场景无缝融合的产品化。基于阿里的数据能力,蚂蚁小袋可以获得潜在客户的诸多数据,比如淘宝卖家的商品销售情况,店铺的经营情况,以及是否有过不诚信行为等。基于这些数据,蚂蚁小贷可以构建机器学习的算法模型对客户的偿债能力、偿债意愿、信用评估和信贷定价等进行评估。进而解决了小微企业和个人的信贷和风险评估的问题。在此之前,因为这些企业和个人基本没有财务报表和信用记录,也没有有价值的抵押物,因此很难获得信贷支持。

公开资料显示,2018年阿里巴巴旗下蚂蚁金服的消费贷款余额超过6,000亿元,这个规模超过招商银行、兴业银行浦发银行的2018年贷款规模,因此与五大行和国家开发银行。

从资产质量来看,商业银行的资产质量:资产质量方面,2018年间不良信贷资产规模持续增加,整体风险平稳可控。2018年末商业银行不良贷款余额为人民币2.03万亿元,较上年末增加人民币0.32万亿元,上涨18.7%,整体平均不良贷款率与2017年末相比,增加0.09个百分点至1.83%,不良贷款小幅上扬。(毕马威报告)相对比, 蚂蚁金服旗下产品的不良率约为1.65%。

但是受资本金和监管机构对杠杆率控制的影响,大部分的普惠金融提供商无法扩大贷款规模。

”缩表”当下,“助贷”及联合运营模式速度增长
21世纪经济报道记者独家获取的数据显示,2019年1-6月,蚂蚁金服旗下蚂蚁小微小贷的手续费净收入接近14亿元,远超2.5亿的利息净收入。平安普惠旗下的平安小贷,去年利息净收入7.28亿元,但手续费和佣金收入达28亿元,使得该公司“缩表”40%的同时,营收增加了近29亿元。

  • 银行的资金提供方成为“数据”的采购者
  • 互联网公司、数据分析和采集公司成为数据的“出售”者
  • 对中小银行而言,通过金融科技机构,以助贷或联合贷款方式投放贷款,几乎是“上量容易、不良又低”的不二买卖
  • 随着联合运营的深入,多方数据交互,增强学习的场景将逐步增加。
    • 采购数据模型
    • 银行记录贷款存续期的信贷记录
    • 数据模型提供方根据银行的信贷记录结合自己的数据强化模型
    • 获得更精准的风控评估

衍生出来的“信贷聚合”模式 信贷聚合模式一般为:由金融科技公司搭建开放平台,将获客、数据、风控、增信、资金等业务节点中银行、保险等机构接入。

聚合模式推进的同时,监管对于数据的监管也更加严格:整治大数据爬虫是第一波,清查违规数据来源是第二波,调查APP个人隐私数据获取是第三波,这对信贷聚合平台的隐私保护能力提出了很高的要求。一位股份制银行人士表示,当前银行对大数据风控很严,已经停掉了部分大数据合作。

随之相对的是数据驱动的贷款从个人向小B迁移:近期网商贷从联合25家银行助力小店经济到垫资500亿元为淘宝商家缩短账期,在这次疫情中存在感大增。网商贷是蚂蚁金服主导成立的网商银行旗下拳头产品,定位于中小微企业贷款,比起小贷牌照,银行牌照显然更加“好用”,蚂蚁金服持有网商银行30%的股份,不过很多时候其他股东的存在感并不强。网商贷也在积极拓展下沉用户,2019年9月网商银行推出发票贷,仅、扫描增值税发票二维码后,授权提供税务信息即可查询自己的贷款额度并贷款。这也意味着,即使是没有在阿里体系内沉淀数据的商户,也有可能获得贷款。source

可能的衍生场景:随着线上交易的物品的价值的上升(飞机、房子etc...),基于“线上”的货款流的“信用证”。阿里同时也将这些资产做成了abs对资本市场销售,当前这些资产是在有第三方担保公司担保的情况下,获得了市场AAA的评级,如果数据的风控信息可以通过可信交互的模式给投资者调用,则可以对这些ABS增信,降低资金回笼成本source

数据隐私保护[edit]

隐私和个人数据[edit]

  1. 定义:对于隐私这个词,科学研究上普遍接受的定义是“单个用户的某一些属性”,只要符合这一定义都可以被看做是隐私。定义中着重强调的是“单个”用户。所以一群用户的某一些属性,可以认为不是隐私。
  2. 个人数据的定义
    • 欧盟定义,是指通过乙识别或可识别的自然人的相关的任何数据,包括姓名、身份证号、定位数据、网络标识符以及特定的身体、心理、基因、精神状态、经济、文化、社会身份等识别符能够直接或间接识别到身份的自然人。
    • 中国定义,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
      • 需要注意的是,我国目前没有针对个人隐私的明确法律。2005年时,《中华人民共和国个人信息保护法》(专家意见稿)就提交了国务院,但是法律草案却迟迟没有面世。sourcesource

GDPR法案[edit]

  1. 关于:欧盟通用数据保护法案(General Data Protection Regulation, 679/2016, 下简称「GDPR」)通过于 2016 年,是欧盟为解决互联网时代用户数据的收集、使用问题而制定的。2016 年 GDPR 获批通过后,为给科技公司一定缓冲时间,将生效时间定于2018年5 月 25 日。它是保护欧盟个人数据的法律,将取代95年发布的“数据保护指令”,适应云计算、互联网、大数据。GDPR 是目前全球在保护个人数据方面,规定最为严格、处罚最为严厉的法规之一。source违反GDPR的处罚
  2. GDPR的罚款:违反一般条款:处以1000万欧元~2%企业年收入。 违反关键条款:处以2000万欧元~4%企业年收入。(取两者中的较高者)以腾讯为例,按照2017年经营收入计算,最高可能被罚款95亿元人民币。
  3. GDPR 保护范围:
    • 基本的身份信息,如姓名、地址和身份证号码等;
    • 网络数据,如位置、ip地址、cookie数据和RFID标签等;
    • 医疗保健和遗传数据;
    • 生物识别数据,如指纹等;
    • 种族或民族数据;
    • 政治观点;
    • 性取向。

当前普遍使用的隐私保护手段[edit]

  1. 基础的数据加密方案,普遍使用,但是数据被破解的成本低,隐私泄露风险高。这主要是因为大数据的多样性带来的多源数据融合使得传统的匿名化和模糊化技术几乎无法生效。source
    • k-anonymity(k-匿名化)
    • l-diversity(l-多样化)
    • t-closeness
  2. 差分隐私
    • 差分隐私的主要做法是在原始数据集中增加噪声,在不影响统计分析的前提下,防止个人隐私数据泄露。 举个例子,比如说一个数据公司提供了一万个人的年龄数据,如果不加噪声或者差分隐私,那么黑客就可以轻松反推出其他的数据,反之,如果加上噪声或者差分隐私就没有办法反推隐私,进而保护了个人隐私。
    • 优点是数据保护程度高,缺点是数据可用性降低
  3. 硬件的可信数据交互环境(区块链intereacted):TEE
    • 现在很多手机都有指纹识别或者人脸识别,但是指纹识别是需要原始的指纹数据的,厂商是不能把指纹数据上传到云的,所以他们开发了一个硬件区域,通过RAM的协议保护指纹数据,甚至可以把机器学习、深度学习模型放进去,进而保护数据安全。
    • 基于TEE的区块链隐私保护项目:Platon(自研硬件)、Trias、Phala (Intel SGX)
  4. 密码学的安全多方数据可信交互方案(MPC)(区块链intereacted):
    • 安全多方计算是另外一类数据加密技术,其核心操作是在分布式环境下基于多方参与者提供的数据计算出相应的函数值,并确保除了参与者的输入以及输出信息外,不会额外地暴露参与者的任何信息
    • 安全多方计算的概念在 1980 年代以经典的「姚期智百万富翁难题」,而得到了广泛的关注:两个百万富翁街头邂逅,他们都想炫一下富,比比谁更有钱。但是出于隐私,双方都不想让对方知道自己到底拥有多少财富。如何在不借助第三方的情况下,让两位富翁知道他们之间谁更有钱?
    • 安全多方计算的目标是能够让参与计算的双方(两位富翁)在不暴露输入值(双方的财富值)的情况下一起根据双方输入值和函数进行计算。双方可以在不向对方揭露自己的真实财富的前提下比较出谁更有钱。和大多数加密方法的目标不同,安全多方计算保护参与双方的隐私不向对方暴露,而不是专为保护通信渠道不被第三方窥探而诞生。
    • 例如,安全多放计算可以解决加密货币主要问题之一——交易所透明度。比如 Blockstream 进行了比特币储备金证明的尝试,目的是能够让交易所的财政进行自我监管,从而确保客户在交易所的存款有充足的准备金作为偿付储备。类似 QuadrigaCX 出现偿付问题而破产的情况将逐渐消失,交易所将在此过程中获得更多的监管信任。
    • 基于密码学的隐私保护项目:Platon、ARPA、Suter、Midu

可信数据交互的需求来源[edit]

  1. 法律法规要求:数据隐私
  2. 多方数据交互过程中“保护数据”的需求
  3. 品牌和用户
  4. 拓展大数据使用场景的需求:比如医疗保障和研究领域中,如何挖掘个人临床数据而又不存在保险歧视的风险,如何配送人性化基因药物而不存在医疗数据的误用等;
  5. 推动更多机构和个人“开放”数据
  6. 数据量提高之后,缓解数据存储压力进行边缘计算的推动

基于区块链的数据交互方案的优势[edit]

  1. 解决多方交互中的信任问题,实现数据不出“域”的交互方式
  2. 天然和边缘计算方案结合,对于IoT之后更大的数据量计算处理优势更明显
  3. 激励相容的设计可以有效实现数据拥有者、数据使用者、数据保存者、数据开发者等多方数据利益相关提之间的利益分配和流转
  4. 追溯审计:追溯审计是数据流通的坚实后盾。对已经流通的数据建立完善的追溯审计体制,使违规侵权行为被及时追踪发现。技术要能够满足以下需求:
  5. 对参与数据流通各方实体的行为做到透明日志记录,方便数据拥有者查阅其数据使用记录。能够及时检测日志中出现的异常 行为并快速定位异常情况,追溯到行为源头。

基于区块链的数据交互方案的挑战[edit]

  1. 在分布式的场景下,数据计算能力有限。在当前的技术条件下,只能处理计算相对简单的数据关系,和相对简单的归回和分类模型
  2. 数据的存储和计算开销高
  3. 数据的时效性差:由于计算时间长,导致计算结果的时效性差

其他背景信息[edit]

获得数据的场景[edit]

  1. 自有数据
    1. 互联网企业的自有数据:京东万象,阿里云API...
    2. 企业数据中台中的自有数据
  2. 采集和清洗数据
    1. 数据的采集和标注商:Testin云测、数据堂、龙猫数据、星尘纪元..
    2. 数据标注众包平台:京东众智、百度众测、数据堂、龙猫众包..
  3. 代理数据:受大数据来源方委托,为其开发,开放数据,代替其在数据市场交易数据 (如twitter和它的代理商的关系)

数据中台系统[edit]

  1. 神策, 融资情况
  2. 数澜, 融资情况
  3. 诸葛IO融资情况
  4. Growingio,融资情况
  5. 友盟融资情况

当前的数据交易市场[edit]

  1. 数据交易所
  2. 交易平台属性
    • 大数据交易平台的主体主要分为两类:一类是以企业为主导的大数据交易平台,这些交易平台多为企业独资或合资运营,以阿里云、京东万象、浪潮天元数据、数据堂为代表,约占82%;另一类是由政府主导的大数据交易中心,这些中心多为政府/国企独资,或国企与民企合资,如贵阳大数据交易所和上海数据交易中心等,约占15%,其中60%左右为政府控股。
    • 国内目前大数据交易业务涉及的行业主要为金融征信、交通地理、移动通讯、企业管理及医疗数据等,这与国内大数据企业主要业务方向基本一致,其中金融征信及企业管理数据交易近两年增长迅速。
    • 盈利模式为提供平台服务、撮合交易收取佣金、销售自有数据、提供增值服务等。虽然大数据交易市场的规模逐渐增大,但大部分平台仍处于推广阶段,收取平台费用及交易佣金的平台相对较少,整体交易行业营收偏低
    • 交易的流程
      1. 卖方主导:会员申请 -> 资格审核 -> 成为会员 -> 发布产品 -> 安全审核 -> 产品上线 -> 交易请求 -> 交易撮合 -> 交易清算 -> 数据配送 -> 产品反馈
      2. 买方主导(多了一个发布需求的流程):会员申请 -> 资格审核 -> 成为会员 -> 发布需求 -> 发布产品 -> 安全审核 -> 产品上线 -> 交易请求 -> 交易撮合 -> 交易清算 -> 数据配送 -> 产品反馈
  3. 交易的标的
    1. 预处理的大数据产品:解决数据的无序性(数据清理,梳理,打标签)和数据的敏感性(数据脱敏:可恢复类脱敏和不可恢复类脱敏)
    2. 大数据分析产品:已经对预处理的大数据进行了分析、建立了数学模型,进行可视化等深加工之后的大数据产品
  4. 交易的数据类型
    • 个人大数据:未经允许售卖个人数据违法,但是没有对自己售卖自己的数据有任何规定
    • 商业大数据:有不同的分类方式,典型的分类包括:
      1. 医疗大数据:病例、就诊、医药
      2. 金融大数据:企业、个体、个体户
      3. 企业大数据:中小微企业、外资企业
      4. 电商大数据:商品交易、药品流通
      5. 能源大数据:石油、天然气等
      6. 交通大数据:停车场、车辆位置
      7. 商品大数据:电子标签、商品物流
      8. 消费大数据:个人消费、个人征信
      9. 教育大数据:学习轨迹、交易消费
      10. 社交大数据:与社交相关的所有数据
      11. 社会大数据:与社会管理、政府管理相关的数据
    • 政府大数据
  5. 平台的交易方式
    • 只提供交易渠道,满足大数据交易的最低要求 (将数据脱敏),如上海数据交易中心,只连接买方和卖方,不存储也不传输隐私数据
    • 除了提供交易功能之外,还有进一步挖掘大数据价值的功能,如贵阳大数据交易所,它不交易原始数据,交易的是经过清洗,脱敏,分析等流程后形成的大数据产品
    • 不提供大数据价值功能,而是通过爬虫或者向大数据来源方购买来获得大数据产品,再进行售卖。如数据堂,这种形式更类似于大数据的卖方身份
  6. 数据交付方式
    • 数据包
    • API
    • 分析结果
  7. 业态类型
    • API接口平台
    • 淘宝式平台
    • 结合云服务的平台
    • 数据采集、分析、售卖一条龙服务的平台

Reference[edit]

  1. https://zhuanlan.zhihu.com/p/32579749
  2. https://zhuanlan.zhihu.com/p/105604980
  3. 国内外大数据交易平台调研分析
  4. https://blog.naaln.com/2019/12/report-data-transaction/
  5. http://www.cbdio.com/BigData/2016-06/02/content_4965656_all.htm
  6. http://www.cac.gov.cn/wxb_pdf/baipishu/dashuju020180418587931723585.pdf
  7. https://zhuanlan.zhihu.com/p/32579749
  8. https://mp.weixin.qq.com/s?src=11&timestamp=1584267616&ver=2218&signature=gGwwgeKGvyTUh2XTqFhfKcQXKJYByNwZ7b3TI3Fv4VFeKj88i*Hxu4uPehyxHrxxOhWiC-RYchYUrWiyv1JjQ2LvhL9RZaVoA575gZiBga71dkAu6osj7VCt8HhVLQCx&new=1
  9. http://www.gbdex.com/website/resources/download/2016.pdf
  10. https://mp.weixin.qq.com/s/VSbkAzho0-2J0pIiKMkOIg
  11. https://m.huxiu.com/article/254275.html?f=pc_new_share_article_wechat
  12. https://www.adquan.com/post-2-228687.html
  13. https://www.lagou.com/lgeduarticle/58861.html 滴滴大数据在汽车金融中的应用
  14. https://assets.kpmg/content/dam/kpmg/cn/pdf/zh/2019/08/2019-mainland-china-banking-survey.pdf 开放金融调研报告
  15. http://www.capwhale.com/newsfile/details/20191127/2b746d279a204249a1eedbdb3e860b28.shtml 拆解联合信贷模式
  16. https://mp.weixin.qq.com/s/ZZ9qRVBhGT2ZexuVoydW_w