推荐:深度学习简史
2017-12-21 20:48 文章来自:IFTN浅谈网 收藏(0) 阅读(3153) 评论(0)

深度学习作为机器学习的一个分支,使用算法来处理数据和模拟思维过程,或者开发抽象。深度学习(DL)使用多层算法来处理数据,理解人类的语音,以及视觉识别物体。信息通过每层传递,前一层的输出为下一层提供输入。网络中的第一层称为输入层,而最后一层称为输出层。两者之间的所有层被称为隐藏层。每一层通常是一个简单的,统一的算法,包含一种激活函数。

特征提取是深度学习的另一个方面。特征提取使用一种算法来自动构造数据的有意义的“特征”,用于训练,学习和理解。通常情况下,数据科学家或程序员负责特征提取。

深度学习的历史可追溯到1943年,沃尔特皮茨(Walter Pitts)和沃伦麦卡洛克(Warren McCulloch)创建了一个基于人脑神经网络的计算机模型。他们使用算法和数学的组合,他们称之为“阈值逻辑”来模拟思维过程。从那时起,深度学习稳步发展,只有两个突破性的发展。两者都与臭名昭着的人工智能冬天挂钩。

亨利J凯利(Henry J. Kelley)在1960年发展了连续反向传播模型的基础知识。1962年,斯图尔特德雷福斯(Stuart Dreyfus)开发了一个仅基于链式规则的简单版本。尽管在20世纪60年代早期存在反向传播的概念(用于培训目的的错误的后向传播),但是这种概念笨拙而且效率低下,直到1985年才变得有用。

开发深度学习算法的最早努力来自1965年的Alexey Grigoryevich Ivakhnenko(开发了数据处理的群组方法)和Valentin Grigorevich Lapa(控制论和预测技术的作者)。他们使用具有多项式(复杂方程)激活函数的模型,然后进行统计分析。从每一层,最好的统计选择功能,然后转发到下一层(一个缓慢的手动过程)。

在二十世纪七十年代,第一个艾滋病冬季开始了,承诺的结果是无法保持的。这种缺乏资金的影响限制了DL和AI的研究。幸运的是,有些人没有资金进行研究。

Kunihiko Fukushima使用了第一个“卷积神经网络”。福岛设计了具有多个汇集层和卷积层的神经网络。 1979年,他开发了一种名为Neocognitron的人工神经网络,它使用了分层的多层设计。这种设计使计算机能够“学习”识别视觉模式。这些网络类似于现代版本,但接受了多层次重复激活的强化策略训练,随着时间的推移,这种强化策略获得了增强。此外,福岛的设计允许通过增加某些连接的“重量”手动调整重要功能。

Neocognitron的许多概念继续被使用。自上而下的连接和新的学习方法的使用已经允许实现各种神经网络。当同时呈现多个模式时,选择性注意模式可以通过将注意力从一个模式转移到另一个模式来分离和识别个体模式。 (当多任务时,我们许多人都使用这个过程)。现代的新识别器不仅可以识别缺少信息的模式(例如,不完整的数字5),还可以通过添加缺少的信息来完成图像。这可以被描述为“推论”。

反向传播,在深度学习模式训练中使用错误,在1970年发生了显着变化。当时,Seppo Linnainmaa写了他的硕士论文,其中包括反向传播的FORTRAN代码。不幸的是,这个概念直到1985年才被应用于神经网络。当时,Rumelhart,Williams和Hinton在神经网络中证明了反向传播可以提供“有趣”的分布表示。在哲学上,这个发现揭示了认知心理学中人类理解是依赖于符号逻辑(计算主义)还是分布式表征(连接主义)的问题。 1989年,Yann LeCun在贝尔实验室首次提供了反向传播的实践证明。他将卷积神经网络与反向传播结合起来,读取“手写”的数字。这个系统最终被用来读取手写检查的数量。

这一次也是第二次AI冬季(1985 - 90年代)的时候,这也影响了神经网络和深度学习的研究。各种过分乐观的人夸大了人工智能的“直接”潜力,打破了预期,激怒了投资者。愤怒如此激烈,“人工智能”一词达到了伪科学地位。幸运的是,有些人继续从事AI和DL工作,取得了一些重大进展。 1995年,Dana Cortes和Vladimir Vapnik开发了支持向量机(一种映射和识别类似数据的系统)。 Sepp Hochreiter和Juergen Schmidhuber于1997年开发了用于递归神经网络的LSTM(长期短期记忆)。

深度学习的下一个重要发展步骤发生在1999年,当时计算机开始在数据处理和GPU(图形处理单元)的开发上变得更快。 GPU处理图片的处理速度更快,在10年的时间内将计算速度提高了1000倍。在此期间,神经网络开始与支持向量机竞争。尽管与支持向量机相比,神经网络可能较慢,但神经网络使用相同的数据提供了更好的结果。随着更多的训练数据的增加,神经网络也具有持续改进的优势。

在2000年左右,出现了消失的渐变问题。发现下层形成的“特征”(教训)没有被上层学习,因为没有学习信号到达这些层。对于所有的神经网络来说,这不是一个基本的问题,只有那些基于梯度的学习方法。问题的根源原来是一定的激活功能。许多激活函数会压缩它们的输入,从而以某种混乱的方式降低输出范围。这产生了大范围的输入映射在一个非常小的范围。在这些投入领域,大的变化将减少到产出的小变化,导致渐变的消失。用来解决这个问题的两个解决方案是逐层预训练和长期短期记忆的发展。

在2001年,META集团(现称为Gartner)的一份研究报告描述了数据增长的挑战和机遇。该报告描述了随着数据源和类型的增加,数据量的增加和数据的增长速度。这是一个呼吁,准备迎接刚刚开始的大数据的冲击。

2009年,斯坦福大学AI教授Li Fei-Fei Li推出了ImageNet,组建了一个免费的超过1400万张标签图像数据库。互联网充满了未标记的图像。需要标记的图像来“训练”神经网络。李教授说:“我们的愿景是,大数据将改变机器学习的方式。数据驱动学习“。

到2011年,GPU的速度显着提高,从而可以训练“没有”逐层预训练的卷积神经网络。随着计算速度的提高,深度学习在效率和速度方面具有显着的优势。 AlexNet就是一个例子,它是一个卷积神经网络,其架构在2011年和2012年赢得了多次国际比赛。整数线性单位被用来提高速度和辍学率。

同样在2012年,Google Brain发布了一个称为“猫实验”的不寻常项目的结果。这个自由奔放的项目探索了“无监督学习”的难点。深度学习使用“监督式学习”,这意味着卷积神经网络使用标记数据(来自ImageNet的图像)进行训练。使用无监督学习,卷积神经网络被给予未标记的数据,然后被要求寻找循环模式。

猫实验使用了分布在1000台计算机上的神经网络。从YouTube随机抽取1000万个“未标记”图像,显示给系统,然后允许训练软件运行。在训练结束时,发现最高层中的一个神经元对猫的图像有强烈的反应。该项目的创始人Andrew Ng说:“我们还发现了一个对人脸的反应非常强烈的神经元。”无监督学习仍然是深度学习领域的重要目标。

“猫实验”在处理未标记的图像方面比其先行者的工作效率高出约70%。然而,它认识到用于训练的对象不到16%,而对于旋转或移动的对象则更糟糕。

目前,大数据处理和人工智能的发展都依赖于深度学习。深度学习仍在不断发展,需要有创造性的想法。



原文链接:http://www.dataversity.net

作者:By Keith D. Foote

编译:IFTN浅谈网