近日,谷歌 DeepMind
团队发现了一种新的方式对深度学习算法进行调整,新算法可以只通过一个例子就能识别出图像中的物体,该算法被称为“单次学习”。

北京时间11月4日上午消息,计算机算法通常需要成千上万个例子才能学会一件事情,但谷歌DeepMind的研究人员却找到一种绕过这一流程的方法。

澳门新葡亰 1

我们多数人看过某个东西一两次后都能认出这种物体。但计算机视觉识别和语音识别算法却需要成千上万个例子才熟悉一种新的图形或单词。

一套算法通常需要训练大量数据才能“学会”一件事情,尤其是在计算机视觉和语音识别方向,通常在一个模型内需要喂给成千上万的图像和语音数据才能识别出某个图像/语音,而且图像和语音训练数据的获取本身就较为麻烦。

谷歌DeepMind研究人员现在找到了一种新的方法,他们对深度学习算法进行了一些调整,使之只需通过一个例子便可认出图像中的物体或其他东西——他们称之为“单次学习”。该团队针对大量添加了标签的图片以及手写字体和语言对此进行了验证。

Facebook M
研发人员曾提到,在人工客户的指引下,计算机虚拟客服仍旧需要重复甚至百万次才能明白用户某一个简单的需求。

最好的算法的确能够可靠地识别物体,但由于需要庞大的数据,所以非常耗费时间和金钱。例如,想要让算法识别出道路上的汽车,就需要为其提供成千上万个例子才能在无人驾驶汽车中实现可靠的准确率。但要收集如此多的数据通常并不实际——例如,不可能为了让一个机器人在一套不熟悉的房子里行走而为其提供长时间的学习机会。

针对学习成本和过程复杂这一问题,谷歌的 DeepMind
团队研究员奥里奥尔·温亚尔斯(Oriol
Vinyals)在深度学习系统中增加了一个记忆组件,当然,这套系统仍然需要事先分析数百种图片,训练好成型的学习模型,但此后却可以学会通过一张照片识别新的物体。

谷歌DeepMind研究员奥里奥尔·温亚尔斯在深度学习系统中增加了一个记忆组件。该团队利用一个名为ImageNet的标记图片数据库对该系统的能力进行了验证。

那么它是如何做到分析一张图片就能完成物体的检测和识别的?其实这套系统本质上是通过分析图片中的独特元素来完成识别任务。这种算法只需要看一个例子,便可达到近似于传统深度学习系统的准确率。

这套软件仍然需要分析数百种图片,但此后却可以学会用一张照片识别新的物体。它本质上是通过分析图片中的独特元素来完成识别任务的。这种算法只需要看一一个例子,便可达到近似于传统深度学习系统的准确率。

除了谷歌的“单次学习”之外,目前较为热门的“迁移学习”也是提高数据训练效率的一种方式,它可以事先把一个预先训练好的模型挪到一个类似的任务上使用,节省了训练时间。

温亚尔斯称,如果能够快速识别出一个新单词的意思,这项技术的用途便会得到明确体现。这对谷歌非常有用,因此该公司可以借此快速学习某个新的搜索项的含义。

深度学习的某些任务中拥有庞大的数据集,而有些相似的任务却没有那么大数据集。在这种情况下可以从前者训练好的模型中抽掉最后几层,在后者上只另外训练最后几层。如语音识别领域,当研究人员拥有大量英语数据,却缺乏葡萄牙语数据时,但由于两者均受拉丁语影响,有着一定的共性,研究者可事先拿英语语音数据训练模型,基于这个模型在葡萄牙语上训练模型的最后几层,然后对这几层的参数进行微调。

之前也曾有人开发过单次学习系统,但通常不兼容深度学习系统。“我认为这是一种很有趣的方法,它提供了一种新颖的方式对大规模的数据库进行单次学习。”韩国先进科技学院大脑和机器智能实验室主任Sang
Wan
Lee说,“这为人工智能社区做出了技术贡献,计算机视觉研究人员可能非常重视此事。”

澳门新葡亰 2

但也有人对这项技术的用途提出质疑,毕竟它与人类的学习方法存在很大差异。例如,哈佛大学脑科学系副教授山姆·格什曼表示,人类通常是通过理解一张图像的组成元素来学习的,这需要一些实际的知识或尝试。例如,“赛格威可能看上去与自行车或摩托车大不相同,但它却可以使用相同的零件。”

澳门新葡亰,杨强教授曾在雷锋网承办的 CCF-GAIR
大会中提到一点,大数据设计出来的模型用于小数据上,它的副产品就是个性化。这就是迁移学习的目的。

不过,格什曼和Sang Wan
Lee都表示,机器要在学习能力上比拼人类仍然要经过一段时间的发展。“我们远远没有揭开人类单次学习的秘密。”他说Sang
Wan Lee说。

网站地图xml地图