论数据伦理:与香农-马库拉应用伦理学中心的访谈

“优秀的数据科学家……永远不要忘记数据背后的人，以及他们应得的道德尊重。”

杰夫Kampfe

欢迎来到“饼干、咖啡和数据伦理”!我叫杰夫·坎普夫，是圣克拉拉大学经济学和哲学专业的大四学生。雷竞技最新app我也是Hackworth研究员马库拉应用伦理学中心本文是系列访谈的第二篇，涉及热咖啡、美味的烘焙食品和复杂的数据伦理问题。这些访谈的目的是了解具有独特和深刻观点的个人可以教我们什么领域的数据伦理，它的发展方向，以及我们在前进的道路上可能面临的挑战。谢谢你过来!

以下是经过编辑的与香农·瓦洛教授的对话记录。

Shannon Vallor是里吉斯和黛安·麦肯纳哲学系教授雷竞技最新app谷歌的AI伦理学家/访问研究员。她的专业的研究领域是伦理和技术哲学，科学哲学和现象学。她目前的研究项目主要集中在新兴技术的影响，特别是那些涉及人工智能和机器人技术，对人类的道德和智力习惯，技能和美德。她也是非营利基金会负责机器人的执行领导团队成员，也是哲学与技术协会的前任主席。Vallor教授对工业和工程/计算机科学教育的伦理整合特别感兴趣，并与学术界内外的一系列利益相关者进行了这一主题的公共宣传，包括政府、工业、法律、媒体和公共政策专业人员和倡导者。

你能告诉我一些你过去在数据科学方面的经验吗?

我的研究领域实际上是技术伦理，所以我是新兴技术的哲学家和伦理学家。在过去的5到10年里，随着该领域的发展和深度机器学习的出现，我的专业领域包括人工智能伦理和数据伦理。虽然我自己并不是一名机器学习研究人员，但每当有一项新的技术进步带来重大的伦理影响时，我都会跟踪和撰写相关文章。机器学习是人工智能研究最近取得许多进展的原因，直到过去十年左右，人工智能研究的进展都比较缓慢。这是人工智能的一种形式，正在迅速融入数据实践和社会。

数据分析和数据科学与其他技术有什么不同之处吗?

我当然认为，数据科学侧重于预测洞察的方面提出了一些特殊的问题。对未来做出推断的能力是非常敏感的，而这种能力是由一个系统产生的，它不理解它所处理的任何数据，不理解数据所代表的世界，也不关心生成数据的人。我们正在过渡到这样一个地方，以前的数据洞察是由人来完成的，人们知道数据代表什么，有社会背景来理解数据的含义，现在是由机器来完成的。因此，要弄清楚我们在多大程度上、在什么条件下依赖于对事件、事态和行为的预测，而这些预测是机器自己无法理解的，这是一个真正的挑战。

“优秀”数据科学家的美德或价值观是什么?在实践中是什么样子的呢?

首先是谦逊的美德。确保作为一名数据科学家，你不只是专注于你能预测什么，你能控制什么，你能测量什么，你能分析什么。你需要知道你不能衡量，你不能控制。必须了解您正在使用的工具的局限性，并了解工具并不总是能够提供我们希望它们能够提供的见解。一个优秀的数据科学家必须了解仪器和算法的行为方式是不可预测的，它们可能会产生我们意想不到的影响，并且谦卑地理解我们作为研究人员不是神。我们会犯错误，其中一些错误可能会造成伤害。我们必须负责任地、有节制地使用我们的权力。

第二个重要的概念是理解数据是关于人的能力。数据点不是抽象的主题，不是可以被当作电子表格上的单元格来处理的。数据代表对人类生活和活动的观察和指示。它揭示了个人的道德地位、尊严和被平等对待的权利。我认为优秀的数据科学家永远不会忘记这一点。他们永远不会忘记数据背后的人，以及他们所应得的道德尊重。

你能解释一下把人描述成数据点是如何影响他们的尊严的吗?

我认为，当我们忽略异常值，并将落在曲线之外的数据点视为无关紧要时，我们总是会看到这种情况。这些并不总是噪音或错误;他们通常代表着人类的经历和故事，这些经历和故事可能和代表统计规范的人一样有意义，可能和代表统计规范的人一样能告诉我们很多东西。理解数据背后的人意味着理解不能简单地删除不方便的数据。你不能将这些数据所代表的东西与人类独特而特殊的故事和经历分离开来。我们给数据贴上的标签总是比较粗糙，它们所描述的东西不如我们想要的那样具有代表性。在单一标签下对待候选人，无论是性别标签，还是年龄群体，无论是特定产品的消费者，还是患有特定疾病的人，都会导致人们被视为可互换和可替代的数据点。每个被贴上这个标签的人都是独一无二的，都有权作为一个人受到尊重。

你对数据所有权有什么看法?围绕这个主题需要解决的最大问题是什么?

事实上，我们的数据是在公共领域收集的，是在我们选择与某些其他人共享的环境中收集的，或者是以符合使用条款协议的方式收集的，这并不一定意味着我们应该被视为放弃了我们数据的所有权。数据的所有权与数据是我们生活和经验的延伸有关。如果没有我们的行动和努力，世界上就不会有这些数据。我们产生的这些点可以揭示我们有权不以我们无法控制或选择的方式揭示的自己的部分。因此，数据所有权的一部分是关于对我们个人的控制，对讲述我们的故事的控制，以及对可以知道的关于我们的东西的控制。数据的意义是产生数据的人永远无法真正完全脱离的东西。从某种程度上来说，数据代表了我们自身不可分割的方面，从某种程度上来说，数据可以用来造福我们，伤害我们，暴露我们，或保护我们，那么我们必须有能力理解传输这些数据的风险。必须有真实的条件，有意义的条件，才能使用它。如果假设我们不拥有我们的数据，或者假设我们在可见空间中生成数据的那一刻，它就与我们分离，成为其他人的财产，那么就很难有这些条件。

组织(包括公司、政府、非营利组织等)无限期保存数据集是否合乎道德?如果不是，该如何解决这个问题?

我认为(无限期保存数据集)是一种方便的习惯，它带来了巨大的风险，在许多情况下是不合理的。值得注意的是，计算机协会，最大的计算机专业人员组织，更新了他们的道德规范这个夏天是几十年来的第一次。他们所做的其中一个改变是在道德准则中包含了对数据收集和存储的最低限度方法的承诺。默认的做法是“收集一切，储存一切，为了什么目的我们不知道，但让我们把它放在手边，以便我们以后找到一个目的时可以使用它”ACM道德规范．我认为这是一个迹象，表明这是一个数据实践的老习惯，可能从来没有被证明是正确的。我们现在很清楚其中的风险，知道这是不负责任的做法。

那么这些风险是如何显现的呢?

一个明显的方法就是隐私风险。如果你有关于很多人的大型数据集，这些数据集可能被用来识别个人，或者即使它们是匿名的，它们可以与其他数据集结合并去匿名化的事实意味着没有办法安全地存储关于个人的数据。数据暴露的可能性总是存在的。你不会无限期地储存燃料或爆炸物等具有固有风险的东西;如果没有充分的理由，你就不会把它存储在网站上。数据也是如此。它应该被视为具有固有风险的东西，拥有数据不仅要求你能够保护它的收集，还要求你能够保护它的存储方式和保存时间。

作为一个社会，我们如何在数据分析给我们带来的好处(在医疗保健、安全、效率和创新方面)与它对隐私和自主权构成的一些潜在威胁之间取得平衡?

我认为答案来自于谁是“我们”。从数据实践中受益的“我们”并不总是与从数据收集实践中面临风险的“我们”相同的人。所以当你说“我们能不能通过我们所获得的利益来证明风险是合理的”，听起来是同一群人。但事实往往并非如此。通常处于风险中的人根本没有从数据中受益，而且通常情况下，他们对自己的数据发生了什么没有发言权。所以我认为我们需要的一部分是一个自下而上的过程，在这个过程中，那些因数据而面临风险的人在对话中有适当的声音，可以说应该有最大的声音。然而，从数据中受益的人应该只有在那些处于风险中的人同意的情况下才能受益。目前，这不是系统设计的方式。

有什么方法可以让那些受到数据科学影响的人有更大的发言权?

我认为其中一个途径就是监管。如果监管机构能够对公民做出回应，能够对所有利益相关者做出回应，能够充分了解技术，能够从公共利益出发，那么监管机构就可以从这些利益相关者那里征求意见。他们可以与倡导团体合作，包括隐私倡导者，也可以与那些往往受到不负责任的数据实践不成比例影响的特定个人团体合作。这些人可以在监管过程中有发言权，但你必须能够相信，你没有被监管捕获的情况。基本上，当监管机构只代表和倾听有偿游说者的意见，而不是真正受到最直接影响的利益相关者时，似乎就有问题了。政治进程应该以这样一种方式运作，即人们可以通过发表意见来表达自己的声音。

我们还可以向企业施压。有很多来自团体和个人的基层努力，他们觉得他们受到了这些技术的不平等影响，并处于风险之中，而没有补偿的好处。这些人可以向公司施加压力，要求他们做得更好，或者向学术研究人员和数据科学家施加压力，要求他们对自己的实践更负责任。公开批评那些明显代表粗心或不道德数据操作的研究或产品可能相当有效。

当然，教育也很重要，这样受影响的社区才能更好地了解他们的权利，更好地了解参与数据经济所涉及的权衡。但越来越多的人在没有被要求的情况下参与到数据经济中，所以我们越来越多地生活在一个数字监控状态中，我们的信息正在以我们不明确同意的方式被收集。因此，这就是政治进程需要发挥作用的地方，以限制这些形式的越权。

有关本系列的前一篇文章，请参见“数据伦理:雅各布·梅特卡夫访谈。”

2019年1月10日

数据伦理:Shannon Vallor访谈

“优秀的数据科学家……永远不要忘记数据背后的人，以及他们应得的道德尊重。”

订阅我们的博客