Add Adam Optimizer with eager mode (#689)

manrajgrover · Nikhil Thorat · commit d52d02377229 · 2018-02-14T09:33:57.000-05:00
diff --git a/src/index.ts b/src/index.ts
@@ -38,7 +38,6 @@ export {Graph, SymbolicTensor} from './graph/graph';
 export {GraphRunner, GraphRunnerEventObserver, MetricReduction} from './graph/graph_runner';
 // tslint:disable-next-line:max-line-length
 export {ConstantInitializer, Initializer, OnesInitializer, RandomNormalInitializer, RandomTruncatedNormalInitializer, RandomUniformInitializer, TensorInitializer, VarianceScalingInitializer, ZerosInitializer} from './graph/initializers';
-export {AdamOptimizer} from './graph/optimizers/adam_optimizer';
 export {AdamaxOptimizer} from './graph/optimizers/adamax_optimizer';
 export {CostReduction, FeedEntry, Session} from './graph/session';
 export {MathBackendCPU, NDArrayMathCPU} from './kernels/backend_cpu';
@@ -50,6 +49,7 @@ export {Model} from './model';
 export {LSTMCell} from './ops/lstm';
 export {AdadeltaOptimizer} from './optimizers/adadelta_optimizer';
 export {AdagradOptimizer} from './optimizers/adagrad_optimizer';
+export {AdamOptimizer} from './optimizers/adam_optimizer';
 export {MomentumOptimizer} from './optimizers/momentum_optimizer';
 export {Optimizer} from './optimizers/optimizer';
 export {RMSPropOptimizer} from './optimizers/rmsprop_optimizer';
diff --git a/src/optimizers/adam_optimizer.ts b/src/optimizers/adam_optimizer.ts
@@ -0,0 +1,211 @@
+/**
+ * @license
+ * Copyright 2018 Google Inc. All Rights Reserved.
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ * =============================================================================
+ */
+
+import {ENV} from '../environment';
+import {keep, tidy} from '../globals';
+import {Node} from '../graph/graph';
+import {SessionRuntime} from '../graph/session';
+// tslint:disable-next-line:max-line-length
+import {SummedTensorArrayMap, TensorArrayMap} from '../graph/tensor_array_map';
+import {NDArrayMath} from '../math';
+import {scalar, zerosLike} from '../ops/ops';
+import {Scalar, Tensor, Variable} from '../tensor';
+import {variable} from '../tensor';
+import {NamedVariableMap} from '../types';
+
+import {Optimizer} from './optimizer';
+
+export class AdamOptimizer extends Optimizer {
+  private c: Scalar;
+  private eps: Scalar;
+  private beta1: Scalar;
+  private beta2: Scalar;
+  private accBeta1: Variable;
+  private accBeta2: Variable;
+  private oneMinusBeta1: Scalar;
+  private oneMinusBeta2: Scalar;
+  private one: Scalar;
+
+  private accumulatedFirstMoment: NamedVariableMap = {};
+  private accumulatedSecondMoment: NamedVariableMap = {};
+
+  constructor(
+      protected learningRate: number, beta1: number, beta2: number,
+      epsilon = 1e-8, specifiedVariableList?: Node[]) {
+    super(learningRate, specifiedVariableList);
+    this.c = keep(scalar(-learningRate));
+    this.eps = keep(scalar(epsilon));
+    // b1, b2 keep initial value of beta* hyperparameters.
+    this.beta1 = keep(scalar(beta1));
+    this.beta2 = keep(scalar(beta2));
+    // accB* will be updated by batch.
+    this.accBeta1 = variable(scalar(beta1));
+    this.accBeta2 = variable(scalar(beta2));
+    this.oneMinusBeta1 = keep(scalar(1 - beta1));
+    this.oneMinusBeta2 = keep(scalar(1 - beta2));
+    this.one = keep(scalar(1));
+  }
+
+  applyGradients(variableGradients: NamedVariableMap) {
+    tidy(() => {
+      const oneMinusAccBeta1 = this.one.sub(this.accBeta1);
+      const oneMinusAccBeta2 = this.one.sub(this.accBeta2);
+
+      for (const variableName in variableGradients) {
+        const value = ENV.engine.registeredVariables[variableName];
+        if (this.accumulatedFirstMoment[variableName] == null) {
+          const trainable = false;
+          this.accumulatedFirstMoment[variableName] =
+              variable(zerosLike(value), trainable);
+        }
+        if (this.accumulatedSecondMoment[variableName] == null) {
+          const trainable = false;
+          this.accumulatedSecondMoment[variableName] =
+              variable(zerosLike(value), trainable);
+        }
+
+        const gradient = variableGradients[variableName];
+        const firstMoment = this.accumulatedFirstMoment[variableName];
+        const secondMoment = this.accumulatedSecondMoment[variableName];
+
+        const newFirstMoment =
+            this.beta1.mul(firstMoment).add(this.oneMinusBeta1.mul(gradient));
+        const newSecondMoment =
+            this.beta2.mul(secondMoment)
+                .add(this.oneMinusBeta2.mul(gradient.square()));
+
+        const biasCorrectedFirstMoment = newFirstMoment.div(oneMinusAccBeta1);
+        const biasCorrectedSecondMoment = newSecondMoment.div(oneMinusAccBeta2);
+
+        this.accumulatedFirstMoment[variableName].assign(newFirstMoment);
+        this.accumulatedSecondMoment[variableName].assign(newSecondMoment);
+
+        const newValue = this.c
+                             .mul(biasCorrectedFirstMoment.div(this.eps.add(
+                                 biasCorrectedSecondMoment.sqrt())))
+                             .add(value);
+        value.assign(newValue);
+      }
+
+      this.accBeta1.assign(this.accBeta1.mul(this.beta1));
+      this.accBeta2.assign(this.accBeta2.mul(this.beta2));
+    });
+  }
+
+  beforeBatch(
+      math: NDArrayMath, batchSize: number, runtime: SessionRuntime,
+      activationArrayMap: TensorArrayMap,
+      gradientArrayMap: SummedTensorArrayMap) {
+    super.beforeBatch(
+        math, batchSize, runtime, activationArrayMap, gradientArrayMap);
+
+    if (this.firstMomentGraph.size() === 0) {
+      this.variableNodes.forEach(node => {
+        this.firstMomentGraph.set(node.output, Tensor.zeros(node.output.shape));
+      });
+    }
+
+    if (this.secondMomentGraph.size() === 0) {
+      this.variableNodes.forEach(node => {
+        this.secondMomentGraph.set(
+            node.output, Tensor.zeros(node.output.shape));
+      });
+    }
+  }
+
+  afterBatch(
+      math: NDArrayMath, batchSize: number, runtime: SessionRuntime,
+      activationArrayMap: TensorArrayMap,
+      gradientArrayMap: SummedTensorArrayMap) {
+    tidy(() => {
+      const oneMinusAccBeta1 = this.one.sub(this.accBeta1);
+      const oneMinusAccBeta2 = this.one.sub(this.accBeta2);
+
+      this.variableNodes.forEach(node => {
+        const oldVariable = activationArrayMap.get(node.output);
+        const gradient = this.variableGradients.get(node.output);
+
+        const oldFirstMoment = this.firstMomentGraph.get(node.output);
+        const oldSecondMoment = this.secondMomentGraph.get(node.output);
+
+        const newFirstMoment = math.scaledArrayAdd(
+            this.beta1, oldFirstMoment, this.oneMinusBeta1, gradient);
+        const newSecondMoment = math.scaledArrayAdd(
+            this.beta2, oldSecondMoment, this.oneMinusBeta2, gradient.square());
+
+        const biasCorrectedFirstMoment = newFirstMoment.div(oneMinusAccBeta1);
+        const biasCorrectedSecondMoment = newSecondMoment.div(oneMinusAccBeta2);
+        const variable = math.scaledArrayAdd(
+            this.cGraph,
+            biasCorrectedFirstMoment.div(
+                this.eps.add(biasCorrectedSecondMoment.sqrt())),
+            this.one, oldVariable);
+        activationArrayMap.set(node.output, keep(variable));
+        node.data = variable;
+
+        this.firstMomentGraph.set(node.output, keep(newFirstMoment));
+        this.secondMomentGraph.set(node.output, keep(newSecondMoment));
+
+        oldVariable.dispose();
+        gradient.dispose();
+        oldFirstMoment.dispose();
+        oldSecondMoment.dispose();
+      });
+      this.accBeta1.assign(this.accBeta1.mul(this.beta1));
+      this.accBeta2.assign(this.accBeta2.mul(this.beta2));
+    });
+
+    this.variableGradients.dispose();
+    this.variableGradients = new TensorArrayMap();
+  }
+
+  dispose() {
+    super.dispose();
+    this.c.dispose();
+    this.eps.dispose();
+    this.beta1.dispose();
+    this.beta2.dispose();
+    this.accBeta1.dispose();
+    this.accBeta2.dispose();
+    this.oneMinusBeta1.dispose();
+    this.oneMinusBeta2.dispose();
+    this.one.dispose();
+
+    if (this.firstMomentGraph != null) {
+      this.firstMomentGraph.dispose();
+    }
+
+    if (this.secondMomentGraph != null) {
+      this.secondMomentGraph.dispose();
+    }
+
+    if (this.accumulatedFirstMoment != null) {
+      Object.keys(this.accumulatedFirstMoment)
+          .forEach(name => this.accumulatedFirstMoment[name].dispose());
+    }
+
+    if (this.accumulatedSecondMoment != null) {
+      Object.keys(this.accumulatedSecondMoment)
+          .forEach(name => this.accumulatedSecondMoment[name].dispose());
+    }
+  }
+
+  // Average of gradient
+  private firstMomentGraph = new TensorArrayMap();
+  // Average of squared gradient
+  private secondMomentGraph = new TensorArrayMap();
+}
diff --git a/src/optimizers/adam_optimizer_test.ts b/src/optimizers/adam_optimizer_test.ts
@@ -14,33 +14,96 @@
  * limitations under the License.
  * =============================================================================
  */
-import {InputProvider} from '../../data/input_provider';
-import {ENV} from '../../environment';
-import * as dl from '../../index';
-import {Tensor1D} from '../../tensor';
-import * as test_util from '../../test_util';
-import {Graph} from '../graph';
-import {Session} from '../session';
+import {InputProvider} from '../data/input_provider';
+import {ENV} from '../environment';
+import {Graph} from '../graph/graph';
+import {Session} from '../graph/session';
+import * as dl from '../index';
+import {ALL_ENVS, describeWithFlags, expectArraysClose} from '../test_util';
 import {AdamOptimizer} from './adam_optimizer';
 
-describe('adam optimizer', () => {
+describeWithFlags('AdamOptimizer', ALL_ENVS, () => {
   it('basic', () => {
+    const learningRate = .1;
+    const beta1 = .8;
+    const beta2 = .9;
+    const optimizer = dl.train.adam(learningRate, beta1, beta2);
+
+    const x = dl.variable(dl.tensor1d([2, 4]));
+
+    const f = () => x.square().sum() as dl.Scalar;
+
+    let numTensors = dl.memory().numTensors;
+
+    let cost = optimizer.minimize(f, /* returnCost */ true);
+
+    // Cost & 2 accumulators should be the only additional arrays.
+    expect(dl.memory().numTensors).toBe(numTensors + 3);
+    // new_first_m = [
+    //    beta1 * old_first_m_w1 + (1-beta1) * grad_w1,
+    //    beta1 * old_first_m_w2 + (1-beta1) * grad_w2
+    // ] = [.8, 1.6]
+    // new_second_m = [
+    //    beta2 * old_second_m_w1 + (1-beta2) * grad_w1**2,
+    //    beta2 * old_second_m_w2 + (1-beta2) * grad_w2**2
+    // ] = [1.6, 6.4]
+    // m = [new_first_m/(1-acc_beta1)] = [4, 8]
+    // v = [new_second_m/(1-acc_beta2)] = [16, 64]
+    // x = [x - lr * m / sqrt(v)] = [1.9, 3.9]
+    //
+    expectArraysClose(x, [1.9, 3.9]);
+
+    cost.dispose();
+    numTensors = dl.memory().numTensors;
+
+    cost = optimizer.minimize(f, /* returnCost */ false);
+
+    // new_first_m = [
+    //    beta1 * old_first_m_w1 + (1-beta1) * grad_w1,
+    //    beta1 * old_first_m_w2 + (1-beta1) * grad_w2
+    // ] = [1.4, 2.84]
+    // new_second_m = [
+    //    beta2 * old_second_m_w1 + (1-beta2) * grad_w1**2,
+    //    beta2 * old_second_m_w2 + (1-beta2) * grad_w2**2
+    // ] = [2.884, 11.884]
+    // m = [new_first_m/(1-acc_beta1)] = [3.888888, 7.88889]
+    // v = [new_second_m/(1-acc_beta2)] = [15.1789, 62.5473]
+    // x = [x - lr * m / sqrt(v)] = [1.8000001, 3.8002]
+    //
+    expectArraysClose(x, [1.8000001, 3.8002]);
+    // There should be no new additional Tensors.
+    expect(dl.memory().numTensors).toBe(numTensors);
+
+    expect(cost).toBe(null);
+
+    x.dispose();
+    optimizer.dispose();
+
+    // There should be no more Tensors.
+    expect(dl.memory().numTensors).toBe(0);
+  });
+
+  it('graph', () => {
     const math = ENV.math;
 
     const inputProvider: InputProvider = {
       getNextCopy() {
-        return Tensor1D.new([2, 4]);
+        return dl.tensor1d([2, 4]);
       },
       disposeCopy(example) {}
     };
 
     dl.tidy(() => {
+      const learningRate = .1;
+      const beta1 = .8;
+      const beta2 = .9;
+
       const g = new Graph();
       const x = g.placeholder('x', [2]);
       const w = g.variable('w', dl.zeros([1, 2]));
       const b = g.variable('b', dl.zeros([1]));
       const y = g.reduceSum(g.add(g.matmul(w, x), b));
-      const optimizer = new AdamOptimizer(0.1, 0.8, 0.9);
+      const optimizer = new AdamOptimizer(learningRate, beta1, beta2);
       const session = new Session(g, math);
       // w = reduce_sum(w_1*x_1 + w_2*x_2 + b)
       // new_first_m = [beta1*old_first_m_w1 + (1-beta1)*grad_w1,
@@ -59,7 +122,7 @@ describe('adam optimizer', () => {
       //
       session.train(y, [{tensor: x, data: inputProvider}], 1, optimizer);
       const dydw = session.activationArrayMap.get(w).dataSync();
-      test_util.expectArraysClose(dydw, new Float32Array([-0.1, -0.1]), 1e-5);
+      expectArraysClose(dydw, new Float32Array([-0.1, -0.1]), 1e-2);
       // new_first_m = [beta1*old_first_m_w1 + (1-beta1)*grad_w1,
       //                beta1*old_first_m_w2 + (1-beta1)*grad_w2]
       //             = [0.8*0.4 + 0.2*2, 0.8*0.8 + 0.2*4]
@@ -77,7 +140,7 @@ describe('adam optimizer', () => {
       //            = [-0.2, -0.2]
       session.train(y, [{tensor: x, data: inputProvider}], 1, optimizer);
       const dydw2 = session.activationArrayMap.get(w).dataSync();
-      test_util.expectArraysClose(dydw2, new Float32Array([-.2, -.2]), 2e-5);
+      expectArraysClose(dydw2, new Float32Array([-.2, -.2]), 1e-2);
     });
   });
 });
diff --git a/src/optimizers/optimizer_constructors.ts b/src/optimizers/optimizer_constructors.ts
@@ -18,6 +18,7 @@
 import {doc} from '../doc';
 import {AdadeltaOptimizer} from './adadelta_optimizer';
 import {AdagradOptimizer} from './adagrad_optimizer';
+import {AdamOptimizer} from './adam_optimizer';
 import {MomentumOptimizer} from './momentum_optimizer';
 import {RMSPropOptimizer} from './rmsprop_optimizer';
 import {SGDOptimizer} from './sgd_optimizer';
@@ -71,6 +72,22 @@ export class OptimizerConstructors {
         undefined /** @deprecated specifiedVariableList */, epsilon);
   }
 
+  /**
+   * Constructs a `AdamOptimizer` that uses the Adam algorithm.
+   * See https://arxiv.org/abs/1412.6980
+   *
+   * @param learningRate
+   * @param beta1
+   * @param beta2
+   */
+  @doc({heading: 'Training', subheading: 'Optimizers', namespace: 'train'})
+  static adam(learningRate = 0.001, beta1 = 0.9, beta2 = 0.999, epsilon = 1e-8):
+      AdamOptimizer {
+    return new AdamOptimizer(
+        learningRate, beta1, beta2, epsilon,
+        undefined /** @deprecated specifiedVariableList */);
+  }
+
   /**
    * Constructs a `AdadeltaOptimizer` that uses the Adadelta algorithm.
    * See https://arxiv.org/abs/1212.5701
diff --git a/src/train.ts b/src/train.ts