计算机错误的人力成本-马库拉应用伦理学中心

迈克尔·麦克法兰，SJ

政府机构和私人公司都拥有庞大的数据库，其中包含数千万或数亿人的非常敏感和非常个人的信息。例如，联邦调查局的国家犯罪信息中心(NCIC)保存逮捕记录、未执行的逮捕令、犯罪历史和其他可能用于调查犯罪的数据。它目前平均每天处理750万笔交易。¹当受试者被警察拦下时，他们的身份通常会与NCIC进行核对，以确定他们目前是否因犯罪而被通缉，是否在缓刑中，或是否被视为危险人物。在私营部门，大型信贷机构，如TransUnion和Equifax，保存了近1亿人的计算机化信用历史。每天有成千上万的订阅者对这些网站进行数十万次的搜索，无论客户要求任何类型的信贷，无论是申请贷款还是只是进行信用卡支付。²

这些数据库被用于做出许多影响人们生活的关键决定。某人可能会被逮捕和拘留，或者根据存储在他们身上的数据拒绝抵押贷款或使用信用卡。然而，这些数据库的庞大规模，以及用于收集、处理和维护其中数据的程序，确保了它们将包含许多不准确之处。肯尼斯·劳登为技术评估办公室(OTA)做的一项研究发现，联邦调查局身份识别部门发送的记录中，只有25.7%是“完整、准确和明确的”。NCIC的犯罪历史记录中，符合这些标准的比例更高，约为46%。劳登将联邦调查局存档的公开逮捕令样本与逮捕令发出地当地法院的记录进行了对比，发现其中超过15%的逮捕令是无效的，要么是因为根本没有逮捕令记录，要么是因为这些逮捕令已经被清除或撤销了。因此，记录在案的搜查令中，有15%会让被拘捕者面临无正当理由被逮捕的风险。^3.

信用数据库也有记录在案的问题。例如，根据大卫·伯纳姆(David Burnham)的说法，在1980年，天合每年收到35万份来自消费者的投诉，他们认为自己的信用报告不准确，导致10万份记录被更改。而这些仅仅是受试者发现并得到公司承认的错误。⁴消费者联盟1990年的一份信用报告样本发现，其中19%的报告存在“重大错误”。⁵2004年，美国国家公共利益研究小组协会在一项对消费者信贷报告的研究中估计，多达79%的报告可能存在错误，25%的报告可能存在严重到足以导致信贷被拒绝的错误。⁶同样是在2004年，联邦储备银行对信用数据的可靠性进行了一项全面研究，尽管承认数据中普遍存在错误，但发现错误对受影响消费者信用评分的总体影响是“适度的”。然而，报告也指出，负面影响不成比例地落在那些最脆弱的人身上，因为“信用记录评分相对较低的人或档案较薄的人，在数据问题出现时更有可能受到重大影响。”⁷

这些庞大的数据库中的错误，无论是在公共部门还是私营部门，都可能具有相当大的破坏性。例如，Burnham描述了Michael DuCross的案例，他因为常规交通违规而被拦下，当时NCIC的检查显示他是海军陆战队的擅离职守。DuCross被逮捕并关押了5个月，后来才发现他根本没有擅离职守，而是被合法解雇了。⁸伯纳姆还讲述了Lucky Kellener的故事，他在帮哥哥付了房租后，哥哥被赶出公寓，而他的名字却被错误地列在了法庭文件上。当Lucky去为自己租一套新公寓时，他被几个潜在的房东拒之门外，直到他最终发现，因为他在驱逐通知中被点名，所以他被房东经常使用的调查服务标记为不受欢迎的房客。⁹另一个例子是，一个名叫查尔斯·齐默尔曼的人被收取了比他应该支付的医疗保险费多25%的费用，因为保险公司用来调查风险因素的数据库错误地将他认定为一个酒鬼。¹⁰

不准确的数据可能来自简单的数据输入错误，来自源头草率的数据收集，或者来自对信息的误解或误读，无论是在其来源还是在其使用地点。考虑到涉及的数据量，其中一些是不可避免的;但是，那些收集和维护数据的人，由于他们糟糕的或根本不存在的审计和控制程序，对数据做出了贡献。例如，OTA的一项研究发现，联邦机构很少对数据质量进行审计，而且他们对准确性的标准通常很低。¹¹当天合因传送不准确的信用报告而被起诉时，它辩称自己没有法律义务确保从其来源收到的信息的准确性。¹²另一方面，一旦信息被输入数据库，使用它的人很少质疑它的有效性。我们的态度是，如果它在计算机中，它一定是正确的。例如，对齐默尔曼的医疗保险收取过高费用的公司后来承认，它没有进行自己的调查，以核实数据库中关于他的数据，尽管根据维护数据库的局的政策，它应该进行调查。¹³

数据也可能因为不完整而出现错误或误导。有时，存储在数据库中的基本事实可能是准确的，但一些关键的支持材料被遗漏了，要么是因为它被忽略了，要么是因为它不适合数据库设计。例如，信用记录可能显示客户有未支付的信用卡账单，但没有添加重要的资格，即账单有争议，这就是他们未支付的原因。根据数据库中的资料，客户可能被不公平地标记为不良信用风险。数据也可能是不完整的，因为没有添加与案件有关的更近期的事实。犯罪数据库可能会显示对某人的未执行逮捕令，但却没有显示指控已被撤销，因此逮捕令不再有效。

另一个错误来源是欺诈。“身份盗窃”是指犯罪分子收集受害者的足够多的个人信息，以便伪装成他们，这已被确定为美国增长最快的犯罪。¹⁴犯罪分子可以从各种来源获得这些信息。¹⁵最有吸引力的目标是信用卡号码。社会安全号码也很有用，因为它们与通常很容易获得的姓名和出生日期结合在一起，可以用来以别人的名义开立账户或获得其他凭据。这些信息可以通过侵入受害者的个人电脑获得;但闯入一个存储了数千条信息的企业数据库，效率要高得多。或者你可以从第三方那里购买，他们已经完成了这些肮脏的工作。¹⁶所谓的“卡片”网站使这特别方便。¹⁷有时，这些数据被其保管人错误地公开，由于某些错误或疏忽而被放在Web上，供任何想要访问它的人使用。¹⁸低技术含量的解决方案也同样有效。信用卡号、社会保险号和其他身份数据通常可以在随意丢弃的记录中找到(“垃圾箱潜水”)，或者通过打电话给受害者并冒充银行或其他可信的代理并要求身份证明(“网络钓鱼”)获得。¹⁹然后，窃贼利用受害者的数据冒充他们，以他们的名义获得信用，积累大量账单，破坏受害者的信用评级。通常情况下，骗局不会被发现，除非受害者在某个地方被拒绝信贷，并决定进行调查。修正记录需要更长的时间。^20.有时，当冒名顶替者被抓到犯罪时，就会使用这些虚假身份，给受害者留下不应有的犯罪记录。

一般来说，在数据库中检测错误是很困难的。通常，识别和证实错误的责任落在了数据所指向的主体身上。让数据库管理员进行更改就更加困难了。此外，由于数据在计算机之间共享和从一个数据库传播到另一个数据库的方式，有时纠正原始数据库中的数据是不够的。在所谓的修正之后，糟糕的数据依然存在。举个例子，福里斯特和莫里森讲述了一个男人被错误逮捕的故事，因为有人偷了他的钱包，盗用了他的身份，随后犯下了罪行。即使在受害者被洗清罪名后，在接下来的14个月里，他又被逮捕了5次。随后，他收到了当地当局的一封信，信中解释说他不是犯罪嫌疑人，但在其他州旅行时仍然遇到了执法部门的麻烦。经过长时间的法庭斗争，才根除了所有错误记录的痕迹。²¹在这种情况下，数据似乎有了自己的生命，甚至那些最初负责它的人也无法控制。

即使数据是正确的，它也可能被误解，因为它已经从原始上下文中删除了。例如，一名男子可能会在激烈的家庭纠纷中对分居的妻子提起诉讼，作为报复。当地社区的执法官员很可能知道这一点。但如果她在其他地方旅行，官员们查看了她的记录，他们只会看到她受到了指控。在这种情况下，他们可能会对她另眼相看。问题是，一旦信息被输入计算机系统，它就脱离了它的来源，脱离了赋予它意义的上下文。因此，信息可能会被滥用，人们也会因此受到虐待。断章取义的危险的一个例子发生在马萨诸塞州，一位老年妇女因为她的银行账户余额超过了医疗补助计划允许的最大资产而终止了她的医疗补助福利。然而，她的部分余额被信托用于丧葬费用，根据法律，这部分不应计算在她的资产中。然而，这些资产的来源和用途并没有出现在银行记录中，只有余额; and based on what was in the record she was denied the benefits to which she was entitled.²²

迈克尔·麦克法兰，s.j.，计算机科学家，拥有丰富的文科教学经验，对技术和伦理的交叉有特殊的兴趣，担任圣十字学院的第31任校长。

1.http://www.fbi.gov/about-us/cjis/ncic
2.Burnham, 43-45页。
3.Kenneth C. Laudon，“大型组织间记录系统中的数据质量和正当程序”，ACM通讯，29(1)(1986, 1): 4-11。
4.伯纳姆，44-45页
5.斯图尔特·西尔弗斯坦(Stuart Silverstein)，《申请者:过去可能会困扰你》;由于担心工作场所犯罪，越来越多的雇主开始使用背景调查。这些公司经常在候选人不知情的情况下梳理法庭、伤害记录或保存数据库(有时是错误的数据库)。”洛杉矶时报(1995年3月7日):A1。
6.Alison Cassady和Edmund Mierzwinski，“错误确实会发生:消费者信用报告中的错误”，国家公共利益研究小组协会(2004年6月)，www.uspirg.org．
7.Robert B. Avery, Paul S. Calem和Glenn B. Canner，“信用报告的准确性和信贷的可获得性”，美联储公报，(2004年夏刊)，第297-322页，第321页。
8.Burnham，第33-34页。
9.同上，第34-35页。
10.加里·a·塞德曼:“这就是你的生活，史密斯先生……:保险数据库无所不知。但是谁在使用它?如果是错的呢?”《纽约时报》(1993年8月1日):7。
11.Roger A. Clarke，“信息技术与数据监视”，ACM通讯，31(5) (1988): 498-512, p. 506。
12.伯纳姆，第44页。
13.塞德曼
14.Rebecca T. Mercuri，“身份盗窃的范围:计算机在身份盗窃事件中的作用可能因高估报告的损失而被错误估计。”ACM通信49(5)(2006年5月)，第17-21页。
15.亚当·科恩，《互联网不安全:身份窃贼无处不在——有人可能正在监视你》。为什么你的网络隐私处于危险之中，你能做些什么，”时间,(2001年7月2日)，页45-51。
16.路透社，“黑客承认大规模窃取卡号，”《纽约时报》(二九年九月十二日)http://www.nytimes.com/2009/09/12/
科技/互联网/ 12 hack.html吗?_r = 1 ref =技术．
17.Robert McMillan，“与身份窃贼一起卧底三年:FBI的网络行动和资源融合单位渗透到网络欺诈网站DarkMarket”，PCWorld，(2009年1月20日)，http://www.pcworld.com/article/158005/
three_years_undercover_with_the_identity_thieves.html．
18.凯文·j·德莱尼，《身份盗窃更容易了》《华尔街日报》(二五年三月二十九日)，第B1页
19.Mindy Fetterman，“大多数身份盗窃都发生在线下，”《今日美国》，(2005年1月27日)，第5B页。
20.Tom Forester和Perry Morrison，计算机伦理:计算机中的警示故事和伦理困境，马萨诸塞州剑桥:麻省理工学院出版社(1990)，第89-90页。
21.同上，第90-91页。
22.Spiros Simitis，《信息社会的隐私回顾》宾夕法尼亚大学法律评论，135(1987): 707-746，页718。

2012年6月1日

计算机错误的人力成本

互联网道德故事

有偏见的人能设计出有偏见的算法来促进人类繁荣吗?