人工智能,数据保护和区块链

—一个解决数据问题的有前途的分布式AI平台

作者:PlatON创始人冯小博士

很荣幸有机会在AI会议上分享我的想法。 在过去的五年中,我一直在研究区块链。 我投资了区块链并推广了其应用。 所以今天我想谈谈区块链。 当然,由于这是AI会议,因此我将以与人工智能紧密相关的方式来讨论区块链。

区块链技术可用于帮助解决AI目前面临的一些最具挑战性的数据问题。 实际上,这些数据问题主要与数据意识的提高有关—数据所有权,估值和隐私,这与AI的发展密切相关,甚至源于AI的发展。

2016年的第三次人工智能浪潮使我们惊讶于使用数据创造如此高的价值的方式。 我们不禁要问:我的个人数据存储在哪里? 我的数据是否得到有效管理或保护? 如果我的数据用于创造价值,我可以分享股票吗?

经过如此多的质疑和讨论,我确定了与数据隐私,评估和共享有关的数据问题的主要领域:

首先, 数据所有权 。 我认为会议室中的大多数人都在Internet上留下了一些数据,这引起了几个问题:i)我们如何识别在Internet或其他平台上留下的个人数据? ii)谁拥有所有这些数据? 是我们吗 互联网上的平台? 或者我们和那些平台都保留我们的个人数据的所有权。 就医疗平台而言,我们是否保留数据的所有权,例如基因信息和医疗记录?

第二, 数据隐私 。 没有人希望他的个人数据在互联网上公开发布甚至出售。 这就是为什么我们需要谈论数据保护的原因。

第三, 协作数据计算 。 如果不使用数据,一文不值,因此对于数据计算而言,它变得越来越重要。 但是,缺少一个单一平台可以在其上计算和“生成”多元和多维数据来满足AI算法的需求。 每个平台,无论是电子商务平台还是社交平台,都有自己的数据库。 试着想象AI如何从这些海量数据库的统一中受益!

但是,在互联网时代,没有人愿意交出他的数据,因为这是“所有人的一次”。 似乎无法保证这些数据不会泄漏或流通。 此外,由于在技术上是不可能的,因此不能确保他们在良好的意图下得到有效的保护。 因此,对于公司而言,要赢得共享数据的信任并协同计算这些多元和多维数据以进行AI培训以产生更大的收益仍然是一个挑战。

第四, 数据价值分配 。 如果我的数据用于创造巨大的商业价值,我可以分享股票吗? 答案是否定的,不是在互联网环境中。 您可能会说:“我可以免费享受一些服务。” 一些平台确实释放了替代收入来源,例如免费服务以交换客户数据,这代表了间接识别数据价值。 但是,一种更直接的分配数据价值的方式又如何鼓励数据共享呢? 这种激励机制是协作数据计算的基础,因为在这些激励下,我们愿意共享我们的私有数据,科学家或商业组织可能会使用这些私有数据来训练机器人,优化算法并得出一些结论。

当前如何使用数据是人工智能研究人员和从业人员中的热门话题。 实际上,人工智能的发展引起了与数据应用有关的所列问题,但人工智能本身并非旨在解决这些问题。 如果没有适当的解决方案,他们将成为AI的致命弱点,特别是在缺乏数据共享激励机制的情况下。

例如,在收集一万例特定疾病的情况下,科学家如果去医院就很难完成这项任务。 但是在区块链技术的帮助下,结合了智能合约,隐私保护算法和基于数字货币的激励机制的分布式AI平台使科学家有可能从1万名陌生人处获得疾病病例,因为他们的共享费用得到了保障该算法保护的智能合约和隐私。

如果实现了这种分布式AI平台,则AI的格局和主题将发生巨大变化。 如今,人工智能研究人员和从业人员谈论人工智能的事实是,我们用于构建人工智能系统的技术和方法以核心模型为中心。 AI项目的整个周期主要从大型集中式数据集开始。 这只是收集数据的一种方式,可以通过分散式方法来补充,以达到集中式解决方案无法提供的数据。

许多密码学家一直致力于数据安全性并取得了良好的结果,这在一定程度上有助于分散数据收集方法。

哈希函数可以验证数据是否被篡改。 哈希函数用于将任意大小的输入转换为固定大小的数据,无论是段落还是书本。 如果一本书中的标点符号改变了,那本书的哈希值也将改变。 散列通过确定文件是否被更改来确保数据安全。 无需写保证书或签订合同,我们只需要运行一个哈希算法,计算该数据的哈希并将其与给定的哈希值进行比较即可。

非对称密码术 (也称为公钥密码术)有助于确保数据安全性,完整性和匿名性,并以私有密钥只有所有者知道的方式确认数据所有权。 在区块链中,私钥是所有权的唯一证明,密钥持有人可以使用该私钥解锁帐户并声明其中的价值对象和数据。

零知识证明使证明者可以向验证者证明加密的某事是真实的,而不会泄露该真实情况的任何信息和内容。

同态加密将数据转换为可以进行分析和处理的密文,从而生成加密结果,该结果只能由密钥持有者解密。 由于分析服务提供商使用加密的数据而不是原始数据或纯文本数据,因此减少了隐私问题。

与同态加密一样, 多方计算(MPC)允许您对加密值进行计算。 这种方法使各方可以在对其输入保持保密的同时共同计算其功能。 例如,在如上所述收集一万例特定疾病的案例中,患者可能会参与他们提供的数据的计算或由其他方完成工作。 没有透露有关各方输入的信息,每个参与者共享计算结果。

尽管加密算法历史悠久,但直到最近两年才在新兴的数据安全性工作以及随后的协作计算步骤中使用它们。

但是光靠密码算法无法帮助AI充分利用数据。 除了数据安全性,还应解决数据所有权,真实性,大写和收集问题,以便充分发挥数据对AI开发的潜力。 确定数据所有权需要其他技术。 至于数据的真实性 ,哈希函数有助于识别数据是否已更改,但不能确保数据不可逆,不可更改或可跟踪。

数据价值的确定是基于数据资本化的工作,没有这些数据,就无法进行数据评估和交易以及数据回收。 作为交易数据的基础,将数据作为资产的评估又以确定数据所有权为前提。

最后的挑战是数据收集 。 激励机制对于鼓励多个实体共享其数据至关重要,尤其是在执行分散式计算时,或者我们将其称为以对等网络为特征的分布式和协作计算。 密码算法无法解决这种激励机制,该机制有助于识别数据的分布并为数据提供者提供奖励。

那么,什么可以用来补充加密算法并解决上述数据问题呢? 有些人可能认为互联网是其中之一,但事实并非如此。

首先,很难信任互联网技术来确保数据隐私和安全。 据报道,几天前,一家著名酒店集团经营的酒店的个人数据和信息被泄露,影响了数千万的客户。 根据今天的报告,“数据窃贼”在出售数据之前被及时抓获。 同样,我们看到了互联网在数据保护方面的弱点。

其次,个人信息是由代理机构收集并用于牟利的,这些代理机构几乎不关心数据的隐私和所有权。

两党的期望之间存在冲突。 我们希望完全拥有我们发布并留在互联网上的数据,并分享数据利润,而互联网上的平台或公司希望对这些数据拥有所有权。

互联网技术也面临着管理数据的挑战。 以前,据报道,一家有影响力的物流公司的工程师意外删除了其中一个数据库。 在存储系统之前,该公司瘫痪了长达590分钟。

因此,很明显,互联网无法帮助密码算法解决所列数据问题。

现在让我们备份一下,重新考虑上一个问题-我们如何解决数据问题? 答案在于区块链 。 区块链经常被吹捧为“下一个互联网”,但我认为尽管有一些相似之处,但它与互联网有很大不同,主要是在以下方面:

互联网首次出现时,被美国媒体报道为“ 信息网 ”。 互联网使获取信息变得更加容易,因为它降低了生产,交换和传播信息的成本,以致边际成本为零,并允许更快的通信。 另一方面,区块链被视为“ 事实机器 ”,因为它不仅通过在主寄存器上记录数据,而且在连接的分布式寄存器系统上记录数据,从而有助于保证数据的有效性,通过该系统只能添加数据并且撤销或篡改是不可行的。 事实机器显然对AI的发展更有利

互联网采用集中式信任机制 ,这意味着您必须信任平台或公司,并相信它们将保护您的数据免遭利用。 但是现实是这不会发生。 但是,区块链代表一种去中心化的信任机制 ,它最小化了来自任何单个参与者(它是另一个用户,组织或机构)的信任量。 区块链背后是一组算法,它们不会窥视或利用您的数据。 由区块链共识算法实现的分布式信任机制似乎比集中式机制好得多。

与互联网不同,区块链开发了一种激励兼容机制 ,该机制允许寻求大量计算资源的数据所有者,算法提供商,计算服务提供商和AI公司仅根据自己的真实喜好采取行动即可达到最佳效果。

一个应用程序在互联网上运行, 而去中心化应用程序(dapp)区块链上运行。 那么应用程序与dapps之间的主要区别是什么? 让我这样说吧。 作者可以从传统出版商处获得该书零售价的10%作为特许权使用费。 如果他通过领先的在线文学平台中国文学等互联网平台发行该书,则预计他将为该平台贡献25%的利润,并获得75%的份额。 但是,如果作者将自己的作品发布在dapp上,由于没有中介人,他可以获得100%的利润。 Dapps基于分散的业务模型,我们称其为分布式业务。

公司寻求收集数据并从其数据库中获利,因此我们不能期望它们交换数据。 这增加了收集大量数据的难度,并阻碍了AI的发展。 但是在完全向任何人开放的分布式分类账的区块链上, 数据共享是可行的,因为分类账记录了所有交易并将其复制到所有参与者。

数字货币在区块链网络上用于数据交易,并作为提供数据,算法和分析服务的激励措施。 在互联网环境中,微信或支付宝可能会完成付款工作。 但是它们两者都来自不同的系统,无法确保数据提供商获得承诺的利润。 但是,在区块链网络上,智能合约(一组编码条件)旨在强制执行合约。 买方启动智能合约,在其中确定数字货币的相关条款。 提供的数据将基于同意的计算机程序进行计算和估计。 如果合同诺言已经履行或完成,则将触发付款过程,并且各方都将根据计算结果获得其应得的收益。 在这种情况下,数字货币是“可编程货币”,而不是固定数字。

简而言之,通过比较互联网和区块链,很明显,后者和加密算法将是解决数据问题的有效组合。 首先,基于区块链的数据库保证了数据的真实性。 不同于互联网-信息网,作为事实机器的区块链可以防止双重支出-这意味着未经许可就不能免费复制数据。

区块链是一种价值互联网,其中存在着实际的价值交换而不是信息交换。 我们发送电子邮件时会交换信息,这些信息可以复制到其他收件人。 但是,如果我们以发送电子邮件的方式发送诸如比特币之类的价值,比如说,我们将相同的比特币复制给1万人,那么整个世界将一片混乱。 区块链技术通过实施确认机制来解决双重支出问题。 如果用户决定从其区块链钱包中发送比特币,则系统将确保该比特币将从其帐户转移至指定的接收者。 同样,它不能复制到一千(如果不是一万)个人。 消除重复支出是数据资本化的基础,而在没有成本和许可的情况下复制和传播信息的互联网上是不可行的。

区块链也是一种点对点网络,允许每个参与者拥有自己的数据并参与交易,这可以抵抗数据垄断。

如上所述,分散式信任机制可确保数据安全。

可编程货币带来的数据协作的一种新的激励机制与加密技术的发展完美匹配。

最后,我想简要总结一下区块链和密码算法领域的一些趋势。

高校中越来越多的密码学家正在加入区块链初创公司。 我遇到了来自斯坦福大学,麻省理工学院,马里兰州和伯克利大学的一些密码学家。 他们都加入了该行业,致力于数据保护和协作计算。

从我们的对话中,我注意到密码学的重点领域发生了巨大的变化-下一届国际密码学会议和中欧密码学会议的组织者收到的有关论文和提议的一半左右涉及多方计算。 数据隐私已成为该领域中最激烈,最重要的话题。 我开始的PlatON项目还致力于将密码算法与区块链技术相结合,以解决MPC问题。 我们已经实现了2PC,并期望在2019年实现三方计算,并最终实现MPC。

区块链和加密算法的结合将通过帮助解决AI目前面临的一些数据问题并满足其对数据的特殊需求,来极大地促进AI的发展。 在参与者之间共享数据计算结果的同时,将确保数据保护,共享数据的激励机制,数据价值的确定和适当的数据管理。 在三到五年内,将出现去中心化和分布式的AI平台,它将不再依赖于集中式组织提供的数据。 科学家可以启动智能合约,要求数据提供者,算法所有者和分析服务提供者共同进行科学研究。 我真的相信,这样的分布式平台将在三到五年内出现。

◆◆◆

单击下面的链接在其他地方找到PlatON

PlatON网站/ PlatON Github

PlatON Twitter / PlatON Linkedin / PlatON电报