数据和人工智能领域的领先专家表示,由模型训练数据驱动的生成式人工智能偏差仍然是组织面临的一个大问题。这些专家建议亚太地区组织在将生成式人工智能用例投入生产时采取积极主动的措施来规避或消除偏见。
埃森哲高级董事总经理 Teresa Tung 告诉 TechRepublic,生成式人工智能模型主要是根据英语互联网数据进行训练的,具有很强的北美视角,并且可能会延续互联网上流行的观点。这给亚太地区的技术领导者带来了问题。
“仅从语言的角度来看,只要你不是英语基础——如果你在中国或泰国和其他地方——你就看不到模型中所代表的语言和观点,”她说。
童说,非英语国家的技术和商业人才也处于不利地位。缺点之所以出现,是因为生成式人工智能的实验主要是由“英语使用者以及以英语为母语或能使用英语工作的人”完成的。
尽管特别是在中国,该地区的某些语言并未涵盖。她说:“除了传播[互联网]数据集中的一些主导观点之外,可访问性差距将会变得很大,而且在某种程度上也是有偏见的。”
人工智能偏见可能会产生组织风险
SAP 澳大利亚和新西兰人工智能主管 Kim Oosthuizen 指出,偏见还延伸到了性别上。合而为一彭博社对稳定扩散生成图像的研究尽管女性在这些职业中的实际参与率较高,但在医生等高薪职业中,女性的比例却严重不足。
“人工智能系统造成的这些夸大的偏见被称为代表性伤害,”她在最近于澳大利亚悉尼举行的 SXSW 音乐节上对观众说。 “这些危害通过强化现状或放大刻板印象来降低某些社会群体的地位,”她说。
“;如果我们向这些系统提供错误的数据,它只会放大这些结果,并且它会继续不断地这样做。当数据和技术开发人员对世界没有代表性的看法时,就会发生这种情况。”
看:为什么在没有业务主管理解的情况下生成式人工智能项目会面临失败的风险
如果不采取任何措施来改善数据,问题可能会变得更糟。乌修仁引用了专家的预测,即大部分互联网图像可以在短短几年内人工生成。她解释说,“当我们未来将某些人群排除在外时,这种情况还会继续发生。”
在性别偏见的另一个例子中,乌修仁引用了一个人工智能预测引擎,该引擎分析了肝癌的血液样本。人工智能最终发现男性患病的可能性是女性的两倍,因为该模型在用于生成结果的数据集中没有足够的女性。
童说卫生设置,因为根据有偏见的结果推荐治疗可能会很危险。相反,如果没有人员参与和负责任的人工智能镜头的补充,人工智能在工作申请和招聘中的使用可能会出现问题。
AI 模型开发人员和用户必须围绕 AI 偏见进行设计
企业应该调整设计生成式人工智能模型或将第三方模型集成到其业务中的方式,以克服有偏见的数据或保护其组织免受偏见的影响。
例如,模型制作者正在努力通过注入新的相关数据源或创建合成数据来引入平衡,从而微调用于训练模型的数据。性别的一个例子是使用合成数据,这样模型就具有代表性,并且产生的“她”和“他”一样多。
Tung 表示,人工智能模型的组织用户需要以与对软件代码进行质量保证或使用第三方供应商的 API 相同的方式来测试人工智能偏差。
“就像运行软件测试一样,这会让你的数据正确,”她解释道。 “作为一名模型用户,我将进行所有这些验证测试,以寻找性别偏见、多样性偏见;它可能纯粹是为了准确性,确保我们有很多东西来测试我们关心的事情。”
看:
除了测试之外,组织还应该在人工智能模型之外实施防护措施,以便在将输出传递给最终用户之前纠正偏差或准确性。 Tung 举了一家公司使用生成式人工智能生成代码来识别新的 Python 漏洞的例子。
“我需要利用这个漏洞,并且我将请一位了解 Python 的专家生成一些测试 - 这些问答对显示什么是好的,以及可能是错误的答案 - 然后我将进行测试模型来看看它是否能做到这一点,”Tung 说。
“如果它不能以正确的输出执行,那么我需要围绕它进行设计,”她补充道。
人工智能技术行业的多样性将有助于减少偏见
Oosthuizen 表示,为了改善人工智能领域的性别偏见,女性“在谈判桌上占有一席之地”非常重要。这意味着将他们的观点纳入人工智能之旅的各个方面——从数据收集到决策制定,再到领导力。她说,这需要提高女性对人工智能职业的看法。
看:
董建华认为,提高代表性非常重要,无论是性别、种族、年龄还是其他人口统计数据。她表示,拥有多学科团队“确实很关键”,并指出人工智能的优势在于“如今并不是每个人都必须成为数据科学家或能够应用这些模型。”
“很多内容都在应用程序中,”Tung 解释道。 “因此,实际上是非常了解营销、财务或客户服务的人,而不仅仅局限于人才库,坦率地说,人才库并不像需要的那样多样化。因此,当我们思考今天的人工智能时,这确实是一个能够扩大多样性的绝佳机会。”