AIの学習能力は、選択的に“忘れさせる”ことで高まる:最新研究

機械学習モデルのトレーニング中に重要な情報を一度消去することで、モデルは新たな言語を迅速かつ容易に学習できるようになると、人工知能(AI)の研究者たちが報告している。
AIの学習能力は、選択的に“忘れさせる”ことで高まる
ILLUSTRATION: VALENTIN TKACH/QUANTA

あるコンピューターサイエンティストのチームが、これまでよりも機敏で柔軟な機械学習モデルを開発した。どうやって? 学習したことを定期的に忘れさせたのだ。この新たなアプローチが最大規模のアプリに用いられる巨大なモデルを置き換えることはないだろうが、そうしたプログラムがどうやって言語を理解しているのかを明らかにしてくれる可能性はある。

最新の研究が「この分野に大きな進歩が起きた」ことを示していると、韓国の基礎科学研究所で人工知能(AI)エンジニアとして活動するジェア・クォンが説明する。 現在使われているAI言語エンジンのほとんどは人工ニューラルネットワークを利用している。このネットワークでは、どの「ニューロン」もほかのニューロンからシグナルを受け取り、なんらかの演算を行ない、複数のニューロン層を介してシグナルを送る数学的関数とみなされる。

初めのうちは、情報の流れは多かれ少なかれランダムなのだが、トレーニングを続けるうちにネットワーク上のデータが増え、ニューロン間を行き来する情報の流れが改善されていく。例えば、バイリンガルモデルを構築するつもりなら、AI研究者は両言語のテキストを大量に用いてそのモデルをトレーニングすることになる。そうすることで、ニューロン間のつながりが調節され、結果として一方の言語のテキストがもう一方の言語の同様の言葉と結びつく。

しかし、このトレーニングには大量の演算力が必要となる。モデルがうまく機能しない場合や、ユーザーがのちに変更を必要とした場合に、うまく適応させるのも難しい。「例えとして、100の言語をカバーするモデルがあって、あなたが必要とする1言語がそこに含まれていないと考えてみましょう」と、最新の研究論文の共著者でAI系スタートアップであるRekaの創業者でもあるミケル・アルテツェが言う。「最初からつくりなおすこともできますが、それが理想的だとは言えません」

抽象的な情報が第2言語の学習に寄与?

アルテツェとその仲間たちは、この問題を回避する方法を探すことにした。数年前、アルテツェらはひとつの言語でニューラルネットワークをトレーニングし、その後ニューラルネットワークにおける単語の構成要素である「トークン」を消去した。トークンは、ニューラルネットワークの最初の層である「埋め込み層」と呼ばれる場所に格納されている。それ以外のレイヤーには、何もしなかった。最初の言語のトークンを削除したのち、チームは同じモデルを第2の言語で再トレーニングした。モデルは埋め込み層をその言語から集めた新しいトークンで満たした。

すると、その時点では不一致を含む情報を抱えているにもかかわらず、そのモデルは新しい言語を学習および処理できたのだ。つまり、再トレーニングがうまくいったのである。研究チームは、埋め込み層にはその言語で用いられる単語に関する情報が集められる一方で、ネットワークのもっと深いレベルでは人間の言語そのものに関する、より抽象的な情報が集められていて、それが第2言語の学習に利用されたのではと推測している。

「わたしたちはひとつの同じ世界に生きています。さまざまな言語が、同じものを異なる単語を使って概念化しているわけです」と、語るのは、最新の論文で筆頭著者を務めたイホン・チェンだ。「それが、このモデルに同様の高い思考能力がある理由です。リンゴはただの単語ではなく、甘くてジューシーな何かなのです」

“定期的に忘れさせる方法”の底力

この「忘れさせる」という方法は、すでにトレーニングされているモデルに新しい言語を追加するのには効果的な方法だったが、その一方で、再学習には依然として多くの言語データや演算力が必要だった。そこでチェンはひらめいた。トレーニングして、埋め込み層を消して、それから再トレーニングするのではなく、最初のトレーニングの際に定期的に埋め込み層をリセットすればいいのではないだろうか。「そうすることで、モデル全体がリセットに慣れてくるのです」とアルテツェは説明する。「そうなれば、別の言語でそのモデルを拡大するのも、いつもやっていることですから、容易になります」

研究チームは広く利用されている言語モデル「RoBERTa」を「定期忘却法」を用いてトレーニングし、それを忘却をともなわない標準的な方法でトレーニングしたRoBERTaと比較してみた。一般的に利用されている言語の正確さを測るツールでは、従来のモデルが86.1ポイント、忘却モデルが85.1ポイントで、忘却モデルがわずかに劣っていた。その後、両モデルを別の言語で再トレーニングしてみた。ただし、今回は最初のトレーニングで用いた700億トークンよりもはるかに少ない500万トークンのデータセットのみを用いた。すると、標準モデルの正確さは平均53.3ポイントにまで低下した一方で、忘却モデルでは62.7ポイントにしか下がらなかったのだ。

また、再トレーニングの際に演算に制限を課した場合も、忘却モデルのほうがはるかに高い結果を示した。研究チームがトレーニングの長さを12万5,000ステップから5,000ステップに短縮してみたところ、忘却モデルの正確さは平均57.8ポイントだったのに対し、標準モデルでは37.2ポイントに急落した。後者は、でたらめな推測と同程度でしかない数字だ。

こうした結果を総合して、チームは定期忘却法のほうが、モデルに言語を学習させるのに適した方法だと結論づけた。

人間に近いプロセスでより柔軟に

ケベック州にあるディープラーニング研究センターのMilaで研究員をしているエフゲニー・ニキシンは、「[言語モデルは]トレーニング中に忘れたり学び直したりを繰り返すので、のちにネットワークに新しい何かを学ばせるのが容易になります」と言う。こうしたことから、言語モデルはある言語を学習する際に、個別の単語の意味よりももっと深いレベルで理解していると考えられる。

このアプローチは人間の脳の仕組みに似ているといえる。「人間の記憶は一般的に、大量の小さな情報を正確に保管するのは得意ではありません。その代わりに、人間は経験の要点を思い出し、抽象化し、再利用することに長けています」と説明するのは、サンフランシスコ大学の神経学者ベンジャミン・レヴィだ。「適応的忘却」など、人間に近いプロセスを実装することで、AIはより柔軟な性能を発揮するようになるでしょう」

アルテツェはより柔軟な忘却型言語モデルにより、言語理解の仕組みが明らかになることに加えて、より多くの言語に最新AIの画期的な性能を届けることができるようになると期待している。AIモデルはトレーニング素材が豊富な英語とスペイン語が得意である一方で、バスク語(アルテツェの母語である北スペインの地元語)は不得手だ。「大手テック企業の言語モデルのほとんどは、バスク語が苦手です」とアルテツェは言う。「既存のモデルをバスク語に適応させるのが、今後の課題です」

チェンもまた、AIの花が咲き誇る世界を心待ちにしている。「わたしは、世界がひとつの大型言語モデルを必要としない状況を想像しています。世界にはたくさんの言語があります」とチェンは言う。「もし、言語モデルをつくる工場があるのなら、たくさんの新たな言語を迅速に習得できるひとつの基本モデルをつくるべきでしょう。必要とされているのは、そんな技術です」

※本記事は、サイモンズ財団が運営する『Quanta Magazine』(編集については同財団から独立)から許可を得て、転載されたオリジナルストーリーである。同財団は、数学および物理・生命科学の研究開発と動向を取り上げることによって、科学に対する一般の理解を深めることを使命としている。

(Originally published on QUANTA MAGAZINE, translated by Kei Hasegawa/LIBER, edited by Mamiko Nakano)

※『WIRED』による人工知能の関連記事はこちら大規模言語モデル(LLM)の関連記事はこちら。


Related Articles
Illustration of a robot eating public domain text
OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル(LLM)の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」は好評発売中!

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら/彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら