SZ MEMBERSHIP

2024.04.23

世界最強のオープンソース型AIモデル誕生の内側

スタートアップのデータブリックスはメタのLlama 2やイーロン・マスクのGrok AIを凌ぎ、OpenAIのGPT-4に肉薄するオープンソース型の大規模言語モデル「DBRX」をリリースした。

A crowded group of people talking and smiling in an office space

先月のある月曜日、データサイエンスおよびAIを専門とするデータブリックス社の10名を超えるエンジニアと主要幹部が、Zoomでつながった複数の会議室に集合した。最先端の人工知能（AI）言語モデルの構築に成功したか否かを確かめることが会議の目的だった。同社はそれまでの数カ月間、およそ1,000万ドル（約15億円）を投じて、OpenAIのChatGPTに用いられているものに似た大規模言語モデル（LLM）「DBRX」をトレーニングしてきた。しかし、最終テストの結果を見るまでは、自分たちが創造したものがどれほどの性能なのか、わからなかったのだ。

データブリックスでDBRX開発チームのリーダーを務めたニューラルネットワーク・アーキテクトの最高責任者ジョナサン・フランクルが「すべてを凌駕した」と結論を述べると、チームのメンバーは拍手と喝采の絵文字で反応した。普段はカフェインを避けるフランクルも、結果のレポートをまとめるために徹夜をしたこの日は特別に、アイスラテを口に含んだ。

データブリックスはDBRXをオープンソース・ライセンスでリリースする予定だ。つまり、第三者が自由に利用できる。フランクルは、DBRXの一般知識に関する問いに答える能力、読解力、困難な論理パズルを解く能力、高品質なコードを生成する性能など、10を超えるベンチマークの結果を公表した。その結果、DBRXは現存するほかのどのオープンソースモデルよりも優秀であることが確認された。

AIの育ての親：ジョナサン・フランクル、ナヴェーン・ラオ、アリ・ゴッジ、ハンリン・タン

Photograph: Gabriela Hasbun

それはつまり、現在利用可能で最も人気のあるメタ・プラットフォームズのLlama 2とミストラルのMixtralを凌駕していたということだ。「よし！」スコアが表示された瞬間、データブリックスの最高経営責任者（CEO）アリ・ゴッジが叫んだ。「でも待て、イーロンのあれにも勝ったのか？」。フランクルは、DBRXは最近イーロン・マスクのxAI社がオープンソース化したGrok AIよりも優秀だったと答え、「そのうちマスクが嫌みなツイートを投稿したら、それこそが成功の証明になる」と付け加えた。

チームも驚いたことに、DBRXのスコアのいくつかは、OpenAIのChatGPTの根幹をなし、人工知能の最高峰と広く認められている、オープンソースではないGPT-4に肉薄していた。「われわれはLLMの基準を引き上げたんだ」。フランクルははち切れんばかりの笑顔で言った。

ビルディングブロック

データブリックスがDBRXをオープンソース化したことで、現在の生成AIブームを牽引する大手企業の秘密主義的アプローチに抵抗する勢力は力強い追い風を得たことになる。OpenAIとグーグルがGPT-4とGeminiのコードの公開を拒むなか、メタを中心としたライバル企業は自ら開発したモデルを第三者が使えるように公開し、より多くの研究者、起業家、スタートアップ、事業主に届けることで、イノべーションが加速すると主張する。

そのメタでさえ、Llama 2の開発における主要事項はオープンにしていないが、データブリックスはオープンソースモデルの創造に関係する作業さえも、オープンにしたいと考えている。今後、同社のモデル開発に関する作業の詳細をブログ投稿のかたちで公開する予定だ。また、多額を投じて行なってきたDBRXのトレーニングにおける最終ステージで、同社エンジニアたちが主要な決断を下すために会議を開いたときには、『WIRED』も招待されていた。その取材を通じて、最先端のAIモデルをつくることがいかに複雑かつ困難であるかが垣間見られただけでなく、この分野における最近のイノべーションがコストの削減につながることもわかった。コスト削減の道が見えているうえ、DBRXのようなオープンソースモデルの可用性が高まっていることから、今後もしばらくは、AI開発の勢いが衰えることはないだろう。

アレン人工知能研究所のCEOであるアリ・ファルハーディは、現在はAIモデルの開発とトレーニングに関して高い透明性が切実に求められていると指摘する。各企業が他社よりも優位に立とうとすることで、ここ数年、AI分野はどんどん秘密主義的になってきている。高性能なモデルが生み出すリスクのことを考えた場合、不透明さは大きな問題となる。「オープンな方向への努力は大歓迎です」とファルハーディは言う。「今後、この市場では大部分がオープンモデルへ移行すると、わたしは確信しています。いま求められているのはオープンモデルです」

データブリックスには、高度にオープンでなければならない理由がある。去年、グーグルのような巨大テック企業はAI技術の導入を急ピッチで進めたが、その一方でほかの業界では、大手企業の多くが自社のデータに対してAI技術をまだ応用できていないと、データブリックスのゴッジは指摘する。同社は、金融や医療などといった、ChatGPT的なツールは利用したいが、機密データをやすやすとクラウドに上げるわけにはいかない業種をサポートしたいと考えている。

「われわれはそれをデータインテリジェンスと呼んでいます。自分自身のデータを理解するインテリジェンスです」とゴッジは語る。データブリックスは顧客に合わせてDBRXのカスタマイズを行ない、時には顧客の事業向けに特別仕様のモデルを新開発するつもりだ。大企業にとっては、高い費用を払ってでもDBRX規模のモデルを手に入れる価値はある、とゴッジは言う。「そこが、われわれにとってのビジネスチャンスなのです」。去年の7月、データブリックスはモデルの効率的な構築に精通していたMosaicMLというスタートアップを買収し、DBRXの開発に携わる人員を増やした。そのうちのひとりが、DBRX開発チームのリーダーのフランクルだ。ただし、両社の誰ひとりとして、DBRXほど大規模なモデルの開発に携わった経験はなかった。

内部の仕組み

DBRXは、ほかの大規模言語モデルと同じで、基本的には大量のテキストデータを取り込んだ巨大な人工ニューラルネットワークに過ぎない。言い換えれば、生物のニューロンをヒントにした数学的フレームワークだ。2017年、グーグルのチームがトランスフォーマーと呼ばれるニューラルネットワークを開発し、言語の機械学習に革命を起こした。DBRXやほかのモデルは、このトランスフォーマーを基盤としている。

トランスフォーマーが発明されてまもなく、OpenAIの研究者が、ウェブやほかのソースからかき集めた際限なく増え続けるテキストデータでLLMのトレーニングを始めた。このプロセスには、何カ月もの期間が必要になる。ここで重要なのは、トレーニングされるモデルとデータセットは、拡大されればされるほど、モデルの性能も、一貫性も、アウトプットに表れる知性も向上するという点だ。

データブリックスCEOのアリ・ゴッジ。

Photograph: Gabriela Hasbun

OpenAIやほかの大手AI企業は、規模の拡大に執念を燃やすようになった。『ウォール・ストリート・ジャーナル』によると、OpenAIのCEOサム・アルトマンはAI専用チップを開発するために、7兆ドルを調達しようとしているそうだ。しかし、言語モデルの開発で重要なのは、規模だけではない。フランクルによると、高性能なニューラルネットワークの開発には何十もの決断が必要となる。その際、研究論文からより効率的なトレーニング方法を学ぶことも可能だし、コミュニティ内でもさまざまな詳細が共有されている。特に困難なのは、スイッチと光ファイバーケーブルで接続された何千ものコンピューターの連携を維持することだ。

「これら恐ろしいスイッチ［ネットワークスイッチ］にはさまざまな方向から毎秒数テラビットの帯域がやってきます」。最終トレーニングが終わりに近づいていたころ、フランクルは言った。「コンピューターサイエンスに人生を捧げてきた者にとっては、信じられない話です」。コンピューターサイエンスという複雑な科学に、フランクルをはじめとしたモザイクML社員は精通していた。だからこそ、データブリックスは去年の時点で13億ドル（約2,000億円）の価値をつけていた同社を買収したのだ。

また、モデルに与えるデータの質も、モデルが吐き出すアウトプットに大いに影響する。そのため、この点に関しては、データブリックスでさえオープンに公表しようとしないのもうなずける。「データの質、純度、選別、準備のどれも、とても重要です」。創業者兼CEOとしてモザイクMLに携わり、いまはデータブリックスで副社長を務めるナヴィーン・ラオは説明する。「これらモデルは、そうした要素に依存しています。それらこそが、モデルの性能にとって最も重要だと言えるでしょう」

AI研究者はアーキテクチャの調整や修正を続け、最新のAIモデルの性能をさらに高めようとしている。最近の例を挙げると、「Mixture of Experts」と呼ばれるアーキテクチャの開発を通じて、性能が飛躍的に向上した。このアーキテクチャでは、クエリに対して、その内容に応じてモデル内のごく一部だけが反応する。それにより、はるかに効率的なトレーニングと運用が可能なモデルの開発につながった。DBRXはおよそ1,360億のパラメーター、すなわちトレーニングを通じてアップデートされる値を有している。Llama 2は700億、Mixtralは450億、Grokは3,140億だ。しかし、標準的なクエリを処理する際、DBRXはそのうち360億しか活性化しない。データブリックスの発表によると、基盤となるハードウェアの効率を高めるようにDBRXを調整したことで、トレーニング効率は30％から50％ほど向上したそうだ。また、同モデルはクエリに対してもより迅速に応答し、消費するエネルギーも少なくなったと言われている。

オープン化

巨大AIモデルをトレーニングするという高度に技術的な行為においても、ときには技術面からだけでなく、感情的な決断が下されることがある。3月、データブリックスのチームは同社モデルを最大限に活用するという点に関して、数百万ドル規模の価値を左右する問題に直面していた。

クラウドプロバイダーからリースした3,072基の強力なNVIDIA H100s GPUで2カ月かけてモデルをトレーニングした結果、DBRXはすでにいくつかのベンチマークで印象的なスコアを記録していたが、スーパーコンピューターを利用できる時間がまだおよそ1週間残っていた。

残り1週間の使い方について、さまざまなチームメンバーがSlackでアイデアを披露した。コンピューターコードを生成するモデルバージョンの開発や、ホビーで使えるもっと小さなモデルをつくるなどといったアイディアが出た。また、モデルの拡大を中止することも、チームは検討した。その代わりに、厳選したデータでトレーニングして、特定の性能セットにおけるパフォーマンスを伸ばすのだ。このアプローチはカリキュラム学習と呼ばれる。あるいは、これまでやってきたことを続けて、単純にモデルともっと大きくするという案も出た。うまくいけば、性能がさらに上がるだろう。この最後の案は感情的に「ファック・イット」オプションと呼ばれ、チームメンバーのひとりが特に熱心に推した。

データブリックスの従業員。

Photograph: Gabriela Hasbun

論調は友好的なままだったが、数多くのエンジニアがそれぞれ好みの案を推すうちに、いくつかの意見が有力候補として浮かび上がった。そして最後に、フランクルがたくみにチームをデータ中心のアプローチへと導いた。2週間後、その決断が大きな成果につながったことが明らかになった。フランクルによると、「カリキュラム学習が功を奏し、有意な変化を引き起こした」そうだ。

ほかの点では、フランクルの予想は大きく外れた。彼は、DBRXはコンピューターコードの生成では高いスコアを出せないと予想していた。チームがそこに重点を置いていなかったからだ。この点に関しては、自分が絶対に正しいと思っていたので、予想が外れたら髪を青く染めると約束したほどだ。ところが月曜日の結果が、DBRXは標準的なコーディングにおいて、ほかのオープンなAIモデルよりも優秀なベンチマークスコアを示したことを証明した。「本当に優れたコードモデルに成長していた」と月曜日の発表の席で、フランクルは語った。「今日、髪を染める予約をしたよ」

リスク評価

DBRXの最終バージョンは、これまでオープンにリリースされた、つまり誰もが利用および変更できるAIのなかで、最も高性能なAIモデルだ（ただし、本当に誰もが利用できるのではなく、メタが自社オープンソースAIモデルのLlama 2に課したのと同じ制限がここでも適用され、7億人以上のユーザーを抱える企業は除外される）。最近、より強力なAIがもつ潜在的な危険性に関する議論において、AIモデルをオープンにすることでリスクがさらに高まる懸念が話題の中心になることがある。オープンなモデルは犯罪者やテロリストによって、サイバー犯罪や生物兵器あるいは化学兵器の開発に悪用されやすいと指摘する専門家も少なくない。データブリックスは、同社モデルに対してすでに安全性試験を行なってきたし、今後も続けると発表している。

オープンなAIの研究を専門とする共同研究プロジェクトのEleutherAIでエグゼクティブディレクターを務めるステラ・ビダーマンは、オープンにすることでリスクが高まることを示した証拠はほとんど見つかっていないと指摘する。ビダーマンらは、そもそもいまのところは、AIモデルが実際のところどれほど危険なのか、何がそれらを危険にするのか、あまりよくわかっていないとしたうえで、より高い透明性が役に立つと主張する。「クローズドモデルよりもオープンモデルでリスクが大幅に高まると信じる理由は存在しません」

今月、EleutherAIは、Mozillaなどおよそ50の組織や学者と連名で、米国商務長官のジーナ・レモンド宛てに公開書簡を送り、今後のAI規制政策においてオープンソースAIに存続の余地を残すよう求めた。その公開書簡は、オープンモデルは経済成長を促すと主張している。スタートアップや中小企業にも利用できるし、「学術研究も加速」するからだ。

データブリックスは、DBRXもその両方に貢献すると期待している。社外のAI研究者に新モデルを提供することで、研究者たちが独自のモデルを開発するかもしれないし、DBRXの公開により、AIの仕組みそのものがさらに深く理解できるようになるかもしれないと、フランクルは語る。彼のチームは、トレーニングの最後の週におけるモデルの変化を調査するつもりだ。その調査を通じて、すでに強力なモデルをさらに進化させる方法が見つかると期待している。「この規模で科学研究ができることに、わたしはワクワクしています」とフランクルは言う。

（Originally published on wired.com, translated by Kei Hasegawa/LIBER, edited by Michiaki Matsushima）

※『WIRED』によるAIの関連記事はこちら。

Related Articles

NVIDIAのCEO、ジェンスン・フアンが語るAIスーパーコンピューターの未来

NVIDIA（エヌビディア）のGPUにテック業界は夢中だ。AIゴールドラッシュを牽引するエネルギッシュなCEO、ジェンスン・フアンに、GPU不足解消の見通し、AI革命の進展、中国やライバル企業の存在、そしてプライベートなあれこれを訊いた。

Illustration of a robot eating public domain text

AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証

OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル（LLM）の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。

A movie clapper held by a robotic arm and a human hand.

「AIが公平な機会を与えてくれた」──有色人種クリエイターと生成AI

AIを使った映画制作に乗り出す前、ウィロニアス・ハッチャーは誰からも注目されない存在だった。だがいま、彼がAIを使って制作したショートムービーは急速に拡散し、AIに対してストを起こしたハリウッドからも声がかかるようになった。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら／彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら。