(論文まとめ)ELECTRA : Pre-training Text Encoders As Discriminators Rather than Generators

簡易的に読んだ論文についてのメモを垂れ流していく。
掲載する図や表は特筆がない限り、元の論文から引っ張ってきたものになる。

概要

事前学習のイメージ

主に2つのネットワークを学習させる様子。

どちらもTransformerベースのモデルを使用していそう。

$p_G(x_t | \boldsymbol{x}) = exp(e(xt)^T h_G(\boldsymbol{x})t) / \sum_{x} exp(e(x)^Th_G(\boldsymbol{x}_t))$

Generatorで設定されている損失はMasked Language Modelingにしたがっている。
一定確率(15%ほど)でマスキングされた単語が何かを予測する。

損失は、マスキングされた単語を正しい単語だと予測した確率の負の対数。

Discriminatorは各トークンについて、そのトークンが入れ替えられたものかどうかを予測する。
そのため、最後の活性化関数はSigmoidになっている。

$D(\boldsymbol{x}, t) = sigmoid(w^T h_D(\boldsymbol{x})_t)$

損失は置き換えられたトークンにおけるBinary-cross entropyの平均。

基本的にモデル構造は DiscriminatorについてはBERT-Baseのものと一致させている。
GeneratorについてはDiscriminatorよりも小規模のものを使用したほうが精度が出るらしい。

使ったベンチマークは以下の通り

事前学習に使ったデータセット(BERT-Baseと一致
させている)

合計33億トークン

DiscriminatorとGeneratorのパラメータは単語のEmbedding層とPositional Embedding層(場所ごとに与えられる埋め込み層)は共通のものにしている。

Smallがついているものは

の設定で行ったものの様子。

ELECTRA-SmallについてはGPUでも十分行える設定にはなっている。

FLOPについては後述。

ALBERTの計算量の多さに少々驚いた。A Lite BERTとは何のことだったんだ・・？と思いたくなる結果だったが、どうやら設定としてxxlargeのものを使っている様子。

計算量の評価でTensorFlowでも使えるFLOPという指標を使っているらしい。

この辺りの原則を使っているようだ。自分の解釈にミスはあるかもしれない。

BERT系列のモデルをGANチックに学習させましたよという内容の論文だった。

Discriminatorは事前学習済みのもの使えばこの辺り結構良い感じに転移学習が楽かもしれないなあとかぼんやり考えたり。

ただ、やはり計算量で殴ってきますなあ、Googleさん。