数据伦理项目数据集目录-马库拉应用伦理学中心

马库拉应用伦理学中心有一个数据集列表，可用于介绍和解决研究生和本科生机器学习和数据分析课程中的伦理问题。

马库拉中心为SCU学生发布数据集的联系方式:Subbu文森特（svincent@scu.edu）

住房抵押贷款披露法案

这个研究就绪的美国住房抵押贷款申请数据集是基于联邦政府规定的住房抵押贷款披露法案的数据。2014年是可获得数据的最近一年，7062家金融机构报告了约1170万笔贷款记录。这些记录包括购房申请、房屋修缮申请和再融资申请。

潜在伦理相关分析:

探索这个美国国家抵押贷款数据集，并建立贷款批准或拒绝的预测。

检查a)它是否可以用于预测贷款批准;b)如果可以，确定数据偏差效应，如果有，以及它如何影响公平性。c)如果存在不公平，请概述具体情况以及可以改变的地方。

可用性:

针对SCU学生:根据要求(由马库拉中心授权)

为他人:https://www.propublica.org/datastore/dataset/home-mortgage-disclosure-act

假释决定中的再犯风险分析

在全国范围内，法官、缓刑和假释官员越来越多地使用算法来评估刑事被告再次犯罪的可能性。相关数据包括:一个数据库，其中包含布劳沃德县2013年至2014年被告的犯罪史、入狱和服刑时间、人口统计数据和COMPAS风险评分;R和Python代码;Jupyter笔记本;以及分析所需的其他文件。)

潜在伦理相关分析:

一种计算再犯风险的商业算法被发现对某些人群有偏见。对数据进行自己的探索，识别风险，看看你的数据、算法或模型中可以改变什么(包括可能要求数据所有者提供什么)，以使你的预测表现得比其他情况更公平。(你需要明确地定义问题。)警告/注意事项:ProPublica在2016年3月报告了他们的分析。18年11月，杜克大学的研究人员发表了一篇论文，证实了ProPublica在逆向工程COMPAS算法中的方法存在问题。他们还指出了公平定义、COMPAS算法缺乏透明度等更深层次的问题。如果你正在使用这个数据集，请查看这篇文章:

再犯预测中的秘密和不公平时代:辛西娅·鲁丁，卡罗琳·王，博·科克

https://arxiv.org/abs/1811.00731

可用性:(此数据集是免费的)

数据集:https://www.propublica.org/datastore/dataset/compas-recidivism-risk-score-data-and-analysis

Github网站:https://github.com/propublica/compas-analysis/

小企业贷款

美国小企业管理局(Small Business Administration)的7a项目为无法通过传统渠道获得融资的小企业主提供贷款。该计划通过私营部门贷款机构运作，这些贷款机构提供的贷款反过来又由小企业管理局担保。SBA7a项目本身没有直接贷款或赠款的资金。数据包含有关获得贷款的企业的信息，包括地址和行业代码、贷款银行、贷款金额以及(如果适用)贷款是全额偿还还是冲销。

潜在伦理相关分析:

探索这个小企业贷款数据集，检查a)它是否可以用于预测贷款批准;b)如果可以，识别数据偏差影响(如果有的话)以及它如何影响公平性c)如果存在不公平，概述具体细节以及可以改变什么?

可用性:

针对SCU学生:根据要求(由马库拉中心授权)

为他人:https://www.propublica.org/datastore/dataset/home-mortgage-disclosure-act

预测新闻媒体来源的报道真实性和偏见

麻省理工学院的一个团队开发了一个ML支持向量机模型(纸)，在网站层面检测新闻的真实性和党派(偏见)。对于一个给定的域名，它们将预测网站的党派倾向(左、极左、中间、右、极右)和“真实性”。研究人员对该网站进行了爬行https://mediabiasfactcheck.com/这是一家人工审查的网站评级服务，提供新闻和虚假信息网站的详细定性摘要，以创建他们的数据集。

潜在分析和伦理相关工作:

重复他们的研究。识别可替代支持向量机的模型以提高精度。通过抓取有关这些域的网络资源，在数据集中创建额外的特征，并探索是否可以提高准确性。探究是否有特定类型的合法新闻网站因这种方法而处于不利地位。

可用性:

SCU学生:应要求(马库拉中心)

其他:数据在麻省理工学院的Github上，需要安全凭证才能访问。

学分:

第一个试飞员被淘汰了瓦尔达斯2018年春季在圣克拉拉大学开设FNCE 3雷竞技最新app490班。2019年的春天也随之而来。CSCI 180 (Sukanya Manna, 19年冬季)的学生也使用了这个清单。

学生通常做什么:

很好地定义他们的问题，特别是在道德方面的考虑，如偏见识别、去偏见数据、调整管道、衡量公平性与准确性的权衡
跨多个模型、数据集变体执行分析
用发现和建议做一个演示，或者写一份项目发现报告(取决于教师)