赤虎新闻
您的位置:  首页 > 财经 >著名分析师 Benedict Evans:人脸识别与AI伦理

著名分析师 Benedict Evans:人脸识别与AI伦理

2019-10-25 15:45:01 2770次阅读
[摘要] 今年3月31日,全通教育称将以15亿元收购杭州巴九灵公司96%的股份。要求全通教育结合巴九灵对吴晓波个人影响力的依赖度、吴晓波个人ip的价值变化及可持续性等说明巴九灵业务模式的稳定性、持续性。深交所两

神一局是一个36氪以下的编辑团队。它专注于科学技术、商业、工作场所、生活等领域。重点介绍国外的新技术、新观点和新趋势。

编者按:对于人脸识别,不同的地方监管政策是不同的。显然,欧盟的这一部分要严格得多,但我们在这里似乎没有太多顾虑。应该如何看待这项技术,如何对其进行监管?A16z著名vc本尼迪克特·埃文斯提出了自己的观点。最初的标题是:人脸识别和人工智能的伦理。36kr由两部分组成并出版。这是第一部分。

咖啡馆里的男人胡安·格里斯

本尼迪克特·埃文斯:面部识别和人工智能伦理(2)

我们对人脸识别的关注就像对数据库一样——我们担心如果其中有坏数据会发生什么,我们担心被坏人利用。

我们在这个问题上的观点容易陷入二元论。然而,这个区域实际上有一个很大的灰色区域。我们还没有就什么是“坏”达成明确的共识,也不知道我们是否太担心,因为这不仅是我们不熟悉的新东西,也是不同的东西。

就像机器学习一样,人脸识别正在迅速成为一种商业化的技术,许多人可以并且将会使用它来开发各种东西。“人工智能伦理”委员会可能会推迟一段时间,但这不是一个完整的解决方案,监管(将采取多种形式)会更进一步。但是中国公司有自己的道德委员会,并且已经出口了他们的产品。

早在20世纪70年代和80年代初,科学技术产业就创造了革命性的新技术,为政府和企业提供了对我们所有能力的前所未有的跟踪、分析和理解。关系数据库意味着理论上小范围内的可能首次在实践中大规模成为可能。每个人都担心这个问题,并就此写了许多书。

许多书表达了对数据库的担忧。

具体来说,我们担心这两个问题:

我们担心这些数据库会包含错误的数据或错误的假设,尤其是它们可能无意中将我们社会中存在的偏见和偏见编码成机器。我们担心每个人都会把事情搞得一团糟。

此外,我们担心人们会故意开发和使用这些系统来做坏事。

换句话说,我们担心如果这些系统不能正常工作会发生什么,我们也担心如果它们能够正常工作会发生什么。

我们当前关于人工智能(或者更恰当地说,机器学习)的对话也是如此,尤其是人脸识别的问题,因为只有机器学习才有可能。此外,我们担心同样的事情——我们担心如果它不起作用会发生什么,我们担心如果它起作用会发生什么。我想我们也在试图找出这是一个新问题的程度,我们有多担心它,以及我们为什么要担心它。

首先,“当每个人都搞砸了”。

人们对数据库的看法是错误的。我们可能都听说过关于不同版本税务局的老笑话,说他们写错名字后更容易改你的名字。另一个一点也不好笑的问题是,你和通缉犯的名字一样,总是被警察拦住,或者你和恐怖分子的名字一样,然后你就被列入禁飞名单或者更糟。另一件事是,今年春天,一名安全研究员声称已经将“空”注册为一个自定义的驾照地址,现在他已经收到了数百张停车罚单。

这些故事说明了三个不同的问题:

系统可能包含错误数据(名称拼错)......

要么存在错误,要么关于如何处理它的假设不正确(null不能被视为名称,否则scunthorpe会触发淫秽过滤器)

此外,系统是由未经培训、不面向流程、缺乏机构结构或授权人员处理的,因此他们没有意识到错误的发生并采取了相应的措施。

当然,所有官僚机构都会受到这一系列问题的影响,这些问题可以追溯到第一张穿孔卡片诞生前的几千年。数据库为我们提供了这个问题在不同尺度上的新表达,当前的机器学习也是如此。然而,机器学习引入了各种各样的失败方式,而这些都是其自身操作方式中固有的问题。

例如,假设您想要一个能够识别猫照片的软件系统。旧的做法是建立一系列逻辑步骤——首先开发能够检测边缘的东西,然后开发能够检测敏锐耳朵的东西,以及眼睛检测器、腿计数器等等...最后,需要数百个步骤,结果总是不令人满意。事实上,这就像试图建造一匹机械马——理论上可能,但实际上太复杂了。有些计算机科学问题是这样的——对人们来说做起来很容易,但对我们来说解释我们是如何做的是困难的或不可能的。机器学习已经把这些问题从逻辑问题变成了统计问题。你不必写下你如何识别x光照片,而是提供100,000张x光照片和100,000张非x光照片,然后使用统计引擎生成(“训练”)一个可以在某种程度上区分它们的模型。然后你给它一张照片,它会告诉你它是符合还是不符合,以及它符合多少。你不必告诉计算机规则,计算机会根据你提供的数据和答案给出规则(“这是x,那不是x”)。

资料来源:franç ois chollet,机器学习不同于一般编程。

这种方法对包括人脸识别在内的一整类问题都非常有效,但它会在两个地方导致错误。

首先,您的培训数据是什么(在本例中为x和非x)?你确定吗?这些样本集中还有什么?

我喜欢一个可以解释哪里出错的例子。这是一个基于皮肤照片识别癌症的项目。一个明显的问题是不同肤色样本的分布比例可能不合适。然而,另一个可能的问题是皮肤科医生经常在癌症照片中放上天平(用于测量)。因此,如果所有“癌症”样本都有刻度,而所有“非癌症”样本都没有刻度,则刻度的统计显著性可能比那些小污点显著得多。您无意中设置了标尺标识符,而不是癌症标识符。

如何从解构的意义上理解这一点?我们需要理解这个系统并不理解我们所看到的——它没有皮肤、癌症、颜色或性别、人类,甚至图像的概念。它对这些事情的理解和洗衣机对衣服的理解没有什么不同。这只是数据集的统计比较。然后,再问一遍——你的数据集是什么?它是如何选择的?你没有注意到什么东西可能在里面(即使你看了看)?在小组会议中会出现哪种误导方式?您的数据中哪些东西与人无关,没有预测价值,但会影响结果?你所有的“健康”照片都是在白炽灯下拍摄的吗?所有“不健康”的照片都是在led灯下拍摄的吗?你可能不知道,但是电脑把它当作一个信号。

第二点更微妙——“匹配”是什么意思?我们都熟悉的计算机和数据库通常会给出“是/否”的答案。这个车牌被偷了吗?这张信用卡有效吗?有余额吗?航班预订被确认了吗?这个客户号有多少订单?然而,机器学习没有给出是/否的答案。它给出了“也许”、“也许不是”和“也许”的答案。它给出了概率。因此,如果您的用户界面显示“可能”为“是”,这可能会导致问题。

在最近的节目中,你可以看到这两个问题的表现:训练人脸识别系统识别罪犯的人脸照片(只有罪犯的),然后给一个诚实正派的人(通常是政治家)照片,并问他们是否匹配,故意以相对较低的置信度,系统会说是!-然后那个政客和一个银行抢劫犯“匹配”。

对计算机科学家来说,这可能就像蓄意破坏——你故意使用扭曲的数据集,故意将精确度设置得太低,然后将概率结果(错误地)表达为对成功匹配的肯定回答。你可以用小猫的照片而不是罪犯的照片再做一次,即使是卷心菜的照片——如果你让电脑“在这些卷心菜照片中找到最接近这张照片的匹配”,它会说“嗯,这颗卷心菜是他最接近的”这个系统注定要失败——就像撞到墙上说,“看!它击中了!”好像你已经证明了什么。

当然,你已经证明了一些事情——你已经证明了汽车可以被撞毁。这种练习很有价值,因为当人们听到“人工智能”时,他们认为它是智能的——它是“人工智能”和“数学”,而计算机和“数学没有偏见”。数学没有偏见,但数据有偏见。这表明这项技术就像数据库一样,可能会出错。事实上,它非常有价值。人们也将以这种方式建立人脸识别系统,而不理解为什么他们不能产生可靠的结果,然后把这些产品卖给警方,并说,“这是人工智能——永远不会错。”

这些问题是机器学习的基础。必须强调的是,它们与人类相关数据无关。您可以开发一个系统来识别燃气轮机即将发生的故障,但是您可能没有意识到您的样本数据偏向于西门子传感器遥感数据。与此同时,机器学习确实非常强大——它可以真正识别计算机在吃饭前从未识别的东西,并有各种极其有价值的用例。然而,正如我们必须理解数据库非常有用,但也可能“出错”,我们也必须理解它们是如何工作的,以避免出错,并确保每个人都理解计算机仍然可能出错。机器学习在做某些事情上比人好得多,就像狗在寻找毒品上比人好得多,但是我们不会根据狗的证据定罪。此外,狗比任何机器学习都聪明。

译者:博西


推荐
热点
最新