1

2

机器学习模型能克服有偏见的数据集吗?

日期:: 2022年2月21日
来源:: 麻省理工学院
简介:: 研究人员已经应用神经科学的工具来研究人工神经网络何时以及如何克服数据集中的偏差。他们发现数据的多样性，而不是数据集的大小，是关键，并且在训练过程中出现的某些类型的神经元在神经网络克服数据集偏差的能力中起着重要作用。
分享:: 脸谱网推特 Pinterest LinkedIN 电子邮件

完整的故事

人工智能系统也许能够快爱博网投官方网站速完成任务，但这并不意味着它们总是公平地完成任务。如果用于训练机器学习模型的数据集包含有偏见的数据，那么系统在实际决策时很可能会表现出同样的偏见。

例如，如果一个数据集主要包含白人男性的图像，那么用这些数据训练的面部识别模型对女性或不同肤色的人可能不太准确。

麻省理工学院的一组研究人员与哈佛大学和富士通有限公司的研究人员合作，试图了解机器学习模型何时以及如何能够克服这种数据集偏差。他们使用神经科学的一种方法来研究训练数据如何影响人工神经网络是否能够学会识别它以前从未见过的物体。神经网络是一种机器学习模型，它模仿人类大脑的方式，包含处理数据的相互连接的节点层或“神经元”。

新的研究结果表明，训练数据的多样性对神经网络是否能够克服偏差有重要影响，但同时数据集的多样性也会降低网络的性能。他们还表明，神经网络是如何训练的，以及在训练过程中出现的特定类型的神经元，可以在它是否能够克服有偏见的数据集方面发挥重要作用。

“神经网络可以克服数据集偏差，这是令人鼓舞的。但这里的主要收获是，我们需要考虑数据的多样性。我们需要停止这样的想法:如果你只是收集大量的原始数据，那就会让你有所成就。我们首先需要非常小心地设计数据集，”脑与认知科学系(BCS)和大脑、思想和机器中心(CBMM)的研究科学家、该论文的资深作者泽维尔·博伊斯(Xavier Boix)说。

共同作者包括前研究生Spandan Madan(通讯作者，目前正在哈佛大学攻读博士学位)，Timothy Henry, Jamell Dozier, Helen Ho和Nishchal Bhandari;前访问科学家、现富士通研究员佐佐木智武(Tomotake Sasaki);电气工程与计算机科学教授、计算机科学与人工智能实验室成员弗拉克萨多·杜兰德(fr do Durand);爱博网投官方网站以及哈佛大学工程与应用科学学院计算机科学教授汉斯佩特·菲斯特。这项研究今天发表在自然-机器智能爱博网投官方网站。

像神经科学家一样思考

Boix和他的同事通过像神经科学家一样思考来解决数据集偏差问题。Boix解释说，在神经科学中，在实验中使用受控数据集是很常见的，这意味着研究人员尽可能多地了解其中包含的信息。

该团队建立了包含不同姿态的不同物体图像的数据集，并仔细控制组合，因此一些数据集比其他数据集更具多样性。在这种情况下，如果数据集包含更多只从一个视点显示对象的图像，那么它的多样性就会减少。一个更多样化的数据集有更多从多个视点显示物体的图像。每个数据集包含相同数量的图像。

研究人员使用这些精心构建的数据集来训练神经网络进行图像分类，然后研究它在训练过程中没有看到的视点(称为out- distribution combination)中识别物体的能力。

例如，如果研究人员正在训练一个模型来对图像中的汽车进行分类，他们希望模型了解不同的汽车是什么样子的。但是，如果训练数据集中的每一辆福特雷鸟都是从正面显示的，那么当训练模型得到一张从侧面拍摄的福特雷鸟图像时，它可能会对其进行错误分类，即使它是在数百万张汽车照片上进行训练的。

研究人员发现，如果数据集更多样化——如果更多的图像显示来自不同视角的物体——网络就能更好地泛化到新的图像或视角。Boix说，数据多样性是克服偏见的关键。

“但这并不是说数据多样性越多越好;这里有一种紧张。当神经网络在识别它没有见过的新事物方面做得更好时，它就会更难识别它已经见过的东西。”

测试培训方法

研究人员还研究了训练神经网络的方法。

在机器学习中，训练网络同时执行多个任务是很常见的。这个想法是，如果任务之间存在某种关系，那么如果将它们一起学习，网络将学会更好地执行每一个任务。

但研究人员发现，事实恰恰相反——单独训练每个任务的模型比同时训练两个任务的模型更能克服偏见。

“结果非常惊人。事实上，我们第一次做这个实验的时候，我们以为这是一个bug。我们花了几个星期才意识到这是一个真实的结果，因为它太出乎意料了。”

他们深入研究神经网络，以了解为什么会发生这种情况。

他们发现神经元的特化似乎起了主要作用。当神经网络被训练来识别图像中的物体时，似乎出现了两种类型的神经元——一种专门识别物体类别，另一种专门识别视点。

Boix解释说，当神经网络被训练去单独执行任务时，那些专门的神经元会更加突出。但如果一个神经网络被训练成同时完成两项任务，一些神经元就会被稀释，不会专注于一项任务。他说，这些非特化的神经元更容易混淆。

“但现在的下一个问题是，这些神经元是如何到达那里的?你训练神经网络，它们从学习过程中出现。没有人告诉神经网络在其结构中包含这些类型的神经元。这是一件令人着迷的事情。”

这是研究人员希望在未来工作中探索的一个领域。他们想看看是否能迫使神经网络发展出具有这种专门化的神经元。他们还想把他们的方法应用到更复杂的任务中，比如具有复杂纹理或不同照明的物体。

Boix感到鼓舞的是，神经网络可以学会克服偏见，他希望他们的工作可以激励其他人对他们在人工智能应用中使用的数据集更加深思熟虑。

这项工作得到了美国国家科学基金会、谷歌教师研究奖、丰田研究所、大脑、思想和机器中心、富士通实验室有限公司和麻省理工学院-商汤人工智能联盟的部分支持。爱博网投官方网站

故事来源:

材料所提供的麻省理工学院。亚当·泽维(Adam Zewe)原创。注:内容可能会根据风格和长度进行编辑。

期刊引用：

Spandan Madan, Timothy Henry, Jamell Dozier, Helen Ho, Nishchal Bhandari, Tomotake Sasaki, fr do Durand, Hanspeter Pfister, Xavier Boix。cnn何时以及如何推广到分布外的类别-视点组合。自然-机器智能爱博网投官方网站， 2022 doi:10.1038 / s42256 - 021 - 00437 - 5

引用此页：

麻省理工学院。“机器学习模型能克服有偏见的数据集吗?”《科学日报》。科学日报，2022年2月21日。< www.koonmotors.com/releases/2022/02/220221115403.htm >。

麻省理工学院。(2022年2月21日)。机器学习模型能克服有偏见的数据集吗?《科学日报》。2023年6月17日检索自www.koonmotors.com/releases/2022/02/220221115403.htm

麻省理工学院。“机器学习模型能克服有偏见的数据集吗?”《科学日报》。www.koonmotors.com/releases/2022/02/220221115403.htm(2023年6月17日访问)。