环球科创网

脸书的人工智能检测文本中的性别偏见

更新时间:2022-02-11 22:07:09

导读 在本周发表的一篇技术论文中,脸书的研究人员描述了一个框架,该框架将文本中的性别偏见分解为几个维度,他们用它来注释数据集和评估性别偏

在本周发表的一篇技术论文中,脸书的研究人员描述了一个框架,该框架将文本中的性别偏见分解为几个维度,他们用它来注释数据集和评估性别偏见分类器.如果实验结果有任何迹象,该团队的工作可能会从性别角度揭示攻击性语言,甚至控制自然语言处理(NLP)模型中的性别偏见。

研究人员表示,所有数据集、注释和分类器都将向公众发布。

这是公开的秘密。人工智能系统及其训练语料库经常反映性别陈规定型观念和其他偏见。事实上,谷歌最近在谷歌翻译中引入了针对性别的翻译,主要是为了解决性别偏见。科学家们提出了一系列方法来缓解和测量这种情况,最近的一种方法是领导委员会、挑战和一套称为立体声系统的措施。但是几乎没有——被广泛使用。

脸书团队表示,他们的工作考虑了人类如何合作和社交来建立语言和性别认同。也就是说,它解释了(1)来自被谈论者性别的偏见,(2)来自被谈论者性别的偏见,(3)来自说话者性别的偏见。这个框架试图捕捉这样一个事实:描述女性的形容词、动词和名词与描述男性的不同;接受者的性别如何影响他们与他人交谈的方式;以及性别对一个人身份的重要性。

利用这一框架和脸书的ParlAI,一个用于训练和测试自然语言处理模型的开源Python工具集,研究人员开发了一个分类器,将句子的偏见分解成维度——来自讨论者性别的偏见等等。包括不属于男女双重结构的性别信息。该团队在从维基百科、Funpedia(维基百科的一个不太正式的版本)、Yelp评论、开放字幕(电影对话)、LIGHT(聊天幻想对话)和其他来源提取的一系列文本上训练分类器,所有这些都是因为它们包含了作者和接收者的性别信息,可以为模型的决策提供信息。

研究人员还建立了一个专门的评估语料库——MDGender——。通过收集两个志愿者演讲者之间的对话,每个人都获得了一个包含性别信息的角色描述,并负责采用该角色并就维基百科的传记部分进行对话。评论员被要求重写对话的每一个回合,以明确他们在谈论一个男人或一个女人,以男人或女人的身份说话,以及与一个男人或一个女人说话。比如“你今天好吗?我刚下班”可能改写成“嘿,我和朋友还有她的狗去喝咖啡了。

在实验中,该小组将性别偏见分类器与MDGender进行了比较,并测量了男性、女性和性别的百分比准确性。他们发现,性能最好的模型,即所谓的多任务模型,77%的时间正确分解了所有数据集,81.82%的时间仅在维基百科上。

在另一组测试中,研究人员使用最佳性能分类器来控制生成文本的性别,检测维基百科中有偏见的文本,并探索攻击性内容和性别之间的互动。

他们报告说,该分类器是在一组数据集上训练的,其中包含来自Reddit的25万个文本片段,因此它可以在命令中生成性别化的句子,例如“A wwwwww,听起来很棒”和“你能行的,兄弟!”此外,该模型对一组传记中的段落进行评分,以确定哪些是“大约”维度中的男性(74%是男性,但分类器在女性页面中更有信心,这表明女性传记包含更多的性别文本)。最后,经过训练,并将该分类器应用到一个带有明显性别色彩的热门词汇语料库中,他们发现25%的男性词汇属于“攻击性”范畴,如“性内涵”。

“在一个理想的世界里,我们认为描述男性、女性和其他性别身份的人的文本没有任何区别,除了代词或名字等明确的性别词汇。因此,机器学习模型将无法理解性别标签之间的统计差异(即性别偏见),因为这种差异不存在。不幸的是,我们知道事实并非如此,”合著者写道。“我们为此提供了一个更细粒度的框架,分析了模型和数据中的性别偏见,并通过发布工具来增强其他人的能力,这些工具可用于解决许多基于文本的用例中的这些问题。

免责声明:本文由用户上传,如有侵权请联系删除!