人工智能通过学习数据中出现的不同模式,从大量数据中提取信息。深度神经网络——一种学习区分这些数据模式的人工智能形式,10年前开始超越传统算法。由于有足够的数据和处理能力,这成为可能。如今,神经网络渴望更多的数据和能力。训练数据集需要仔细调整数十亿个表征这些网络的参数值。通过“优化”的过程,可以找到数据集的理想值,但是训练数据集来实现同样的理想值并不容易。
“培训可能需要几天,几周,甚至几个月,”他说佩Velickovic他是伦敦DeepMind公司的一名研究科学家广达电脑杂志.
Boris Knyazev和他的同事已经建立并训练了一个“超级网络”,它有其他的神经网络,可以加速训练过程。超网络预测了一种新的、未经训练的深度神经网络的模式和参数,这种神经网络是为某些任务而设计的,只需几分之一秒。超级网络在某些规范中表现非常好,但仍有增长空间。
随机梯度下降(SGD)是一种用于最小化给定任务网络中的错误的技术。例如,在图像识别的情况下,SGD算法可以通过大量的标记数据来调整参数和减少误差。但这种技术只适用于人们必须优化的网络。工程师们必须依靠经验法则来构建具有多层人工神经元的初始神经网络。这种结构可以根据神经元层数的不同而有所不同。
体系结构需要以程序员可以从所有优化的体系结构中获得最好的方式进行优化。但是这样的训练需要大量的时间,因为训练和测试每个候选网络架构将是一项艰巨的任务。因此,在2018年,任志强和他在多伦多大学的前同事克里斯·张以及他们的顾问拉奎尔·乌尔塔松一起尝试了不同的方法.他们使用图超网络(Graph Hyper Network)来找到解决某些任务的最佳架构,因为深度神经网络的架构可以被认为是一个数学图。节点表示计算单元——神经网络的一层,边表示这些层之间的连接方式。Ren的团队已经说明了他们的方法可以用来找出最佳的候选架构。
Knyazev的团队发现Ren团队的想法非常好,他们意识到他们可以在此基础上继续发展。他们的新论文有相关的插图。他们不仅找到了最佳的架构,而且使用GHN来预测最佳网络的参数。“这是一份非常可靠的论文。(它)包含了比我们所做的更多的实验,”任航谈到新作品时说。
Knyazev和他的团队提到他们的超网络为GHN-2,改进了Ren团队构建的Graph Hypernetwork的两个因素。首先,他们依靠Ren的技术将神经网络的架构作为一个图。他们借鉴的第二个想法是他们用来训练超网络对新的候选架构进行预测的技术。对于每个体系结构,都使用了这两个模型。从图开始,利用图超网络进行参数预测,并利用预测的参数初始化人工神经网络。然后,人工神经网络可以用来执行特定的任务,如图像识别。然后计算人工神经网络造成的损失。不是更新人工神经网络的参数来做出更好的预测,而是首先更新超网络的参数来进行预测。然后对数据集中的每张图像进行迭代。它减少了每一步的损失机会。
Knyazev的团队采用了这些想法,然后从头编写了自己的代码,并对其进行了改进。Knyazev的团队创建了一个包含100万个架构的独特数据集,以确保GHN-2能够学习预测各种神经网络架构的参数。该测试由Knyazev的团队执行,他们试图预测给定任务的参数,例如对数据集中的图像进行分类。他们还测试了它预测任意随机候选架构参数的能力。这样的随机候选可能与训练数据集中的数百万个架构具有类似的属性。在前一种情况下,架构被称为分布。在后一种情况下,它不在分布范围内。在非分布数据上测试GHN -2非常重要。
该团队使用经过充分训练的GHN-2预测了500个随机目标网络架构的参数。对于CIFAR-10图像数据集,GHN-2在分布中的准确性约为66.9%。对于非分布架构,准确率约为60%。所以,它在分销网络外表现得很好。