Applause推出新AI解决方案 致力于解决算法偏见
应用测试公司Applause最近推出了新的人工智能(AI)解决方案,承诺帮助解决算法偏见,同时提供AI训练所需的庞大数据。
Applause已经为其应用程序测试解决方案建立了庞大的全球测试社区,该解决方案受到谷歌、Uber、PayPal等品牌的信任。现在,该公司正在利用这个相对独特的地位,来帮助克服AI发展面临的某些最大障碍。
11月底,Applause公司产品副总裁克里斯汀・西莫尼尼(Kristin Simonini)在北美AI博览会上发表主题演讲之前曾接受采访,谈到了该公司最新解决方案及其对行业的重要意义。
西莫尼尼解释称:“我们的客户始终需要我们在数据收集领域提供额外的支持,以支持他们的AI开发,培训他们的系统,然后测试功能,而后半部分更符合他们传统上对我们的期望。”
Applause主要与语音领域的公司合作,但他们也越来越多地扩展到收集和标注图像以及通过OCR(优化字符识别)运行文档等领域。
在当今AI最常用的领域中,这种现有的经验广度使Applause及其测试人员处于非常有利的位置,能够就哪些方面可以做出改进提供真正有用的反馈。
具体地说,Applause的新解决方案跨越五种独特的AI活动类型:
语音:源发声以训练支持语音的设备,并对这些设备进行测试,以确保它们能够准确地理解和响应;
OCR:提供文档和对应的文本来训练识别文本的算法,并比较打印文档和识别文本的准确性;
图像识别:交付预定义对象和位置的照片,并确保正确识别图片和识别对象;
生物识别:获取生物特征输入,如人脸和指纹,并测试这些输入是否会产生易于使用且实际有效的体验;
聊天机器人:给出样本问题和不同的意图让聊天机器人回答,并与聊天机器人互动,以确保它们能像人类那样准确地理解和响应。
西莫尼尼说:“我们有准备充分的全球社区,能够大规模地把某个组织可能在寻找的任何信息汇集起来,并以这种广度和深度相结合的方式进行,这使得引入截然不同的数据来训练AI系统成为可能。”
西莫尼尼提供了部分例证,其中包括语音话语、特定文档和符合设定标准的图像(如“街角”或“猫”),这些数据类型是由Appleause的全球测试员提供的。缺乏这样具有多样性的数据集是当今面临的最大障碍之一,也是Applause希望帮助克服的一个障碍。
重大责任
参与开发新兴技术的每个人都负有重大责任。AI特别敏感,因为每个人都知道它将对世界上大多数社会都能产生巨大影响,但没有人能真正预测如何产生影响。
AI将取代多少工作岗位?它会被用于杀人机器人吗?它会不会决定是否发射导弹?面部识别将在多大程度上应用于整个社会?这些都是重要的问题,没有人能给出完全肯定的答案,但围绕着《一九八四》和《终结者》这样的电影肯定影响公众的想法。
关于AI的主要问题之一是偏见。算法正义联盟等机构所做的工作,揭示了面部识别算法的有效性取决于每个人的种族和性别之间的巨大差异。例如,IBM的面部识别算法在用于浅色皮肤的男性时,准确率为99.7%,而对于深色皮肤的女性,准确率仅为65.3%。
西莫尼尼强调了她最近读到的另一项研究,其中算法识别白人男性的语音准确率超过90%。然而,对于非裔美国女性来说,这一比例刚刚接近30%。
解决这种差异至关重要,不仅可以防止诸如无意中自动化种族定性或给予社会的某些部分相对于其他部分的优势等事情,而且也是为了让AI充分发挥其潜力。
虽然有很多顾虑,但只要是以负责人的态度进行开发,AI就拥有巨大的力量。AI可以提高效率,减少对环境的影响,让人腾出更多时间与亲人在一起,并从根本上改善残疾人的生活。
公司不能对自己的发展承担责任将导致过度监管,而过度监管又会导致创新减少。在被问及是否相信稳健的测试将减少过度监管的可能性时,西莫尼尼称:“在某些情况下,人们可能会试图进行监管,但如果你真的能证明已经做出了努力,以达到高水平的准确性和深度,那么我认为这种可能性就会降低。”
人类测试仍必不可少
Applause并不是唯一一家致力于减少算法中偏见的公司。例如,IBM有个名为Fairness 360的工具,它本质上是一种AI系统,用于扫描其他算法以寻找偏见存在的迹象。
在被问及为何Applause认为人类试验仍然必不可少时,西莫尼尼评论说:“人类在他们将如何对某事做出反应、他们将以何种方式去做、他们如何选择与这些设备和应用程序进行互动方面是不可预测的。我们还没有看到在没有人为因素的情况下能够有效地做到这一点的迹象。”
语音识别经常遇到的一大挑战是,所说的各种语言及其地区方言。许多美国语音识别系统甚至在识别英格兰西南部的口音方面存在问题。
西莫尼尼补充了关于俚语的另一个考虑因素,以及语音服务需要与不断变化的词汇表保持同步。她解释说:“现在的青少年喜欢某些热门或炫酷东西的时候,喜欢用‘Fire’(火)这样的词汇。我们能够将这些设备带入家庭,并真正试图理解其中一些细微差别。”
西莫尼尼随后进一步解释了理解这些细微差别的背景所面临的挑战。在她的“Fire”例子中,显然需要理解什么时候根据字面意思进行解释,什么时候有人是在称赞某些东西很酷。西莫尼尼说:“你如何区分火灾等紧急情况?音调、语气以及其他关于如何使用相同的语音命令的东西都会有所不同。”
AI应用和服务增长
Applause在传统的应用程序测试领域建立了自己的业务。考虑到AI应用和服务的预期增长,西莫尼尼被问及是否相信其AI测试解决方案将变得与其目前的应用测试业务一样庞大,甚至可能更大。
对此,她回应称:“我们确实谈到了这一点。你知道,这会以多快的速度增长?我不想一直谈论语音,但如果你从统计数据上看,相对于移动设备的增长和采用,语音市场的增长正在以快得多的速度发生。我认为它将在我们的业务中占据越来越大的份额,但我不认为它肯定会取代任何东西,因为这些渠道(如移动和桌面应用)仍将存在,并相互补充。”
西莫尼尼还表示:“我们选择谈论的角度实际上是人类和AI之间的交集,以及为何我们不相信它会成为替代品,而是它如何发挥作用并相互补充。基本上,从测试的角度来看,以人为中心的需求仍然非常高。”(选自:artificialintelligence-news 作者:Ryan Daws 编译:网易智能 参与:小小)