AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証

OpenAIは、著作権で保護されたコンテンツを使うことなしに優れたAIモデルをつくるのは「不可能」だと主張する。だが著作権侵害のない大規模言語モデル(LLM)の登場や、パブリックドメインのデータセットの活用が進む現状は、逆の事実を示している。
Illustration of a robot eating public domain text
Illustration: Jacqui VanLiew; Getty Images

2023年、OpenAIは英国議会に対して、著作権で保護されたデータを使わずに最先端のAIモデルのトレーニングをするのは「不可能」だと説明した。このスタンスはAI業界では一般的なものとなっている。OpenAIやほかの大手企業は、インターネットから丸のみにした素材を使ってチャットボットや画像作成AIの背後にあるモデルをトレーニングした。結果として、数多くの著作権侵害訴訟を引き起こされている。しかし、著作権保護されたデータを無許可で使わなくても、大規模言語モデル(LLM)をトレーニングすることが可能である事実が先月、ふたつの発表によって示されていた。

ひとつは、非営利団体のFairly Trainedが、著作権を侵害せずに構築されたLLMの第一号を認証したと発表したこと。つまり、AI業界が“標準”とみなすものとは異なる方法で、ChatGPTのような技術を構築できることが証明されたのだ。もうひとつは、フランス政府の支援を受けた研究者グループが、パブリックドメインに存在するテキストのみで構成される、大規模なAIのトレーニング用データセットを公開したことだ。

著作権侵害のないLLM

「LLMをフェアなかたちでトレーニングするのが不可能だとみなす、根本的な理由は存在しません」と、24年1月にFairly Trainedを設立したCEOのエド・ニュートン=レックスは語る。ニュートン=レックスは以前、画像生成スタートアップのStability AIで幹部職に就いていたのだが、許可なしにコンテンツを利用する同社の方針に反発して退社した。

Fairly Trainedは、自社が所有しているかライセンス供与を受けている、あるいはパブリックドメインのデータのみを用いてAIモデルをトレーニングしたことを証明した企業に対し、認証を与えている。同団体が発足したとき、そうした要件を満たすLLMはまだないと指摘する批評家もいた。

しかし、Fairly Trainedは、要件を満たす最初のLLMに認証を授与したと3月下旬に発表している。それは「KL3M」という名のモデルで、シカゴに拠点を置くリーガルテック・コンサルタントの273 Venturesが、法務、金融、規制に関する文書から厳選したトレーニングデータを用いて開発したものだ。

273 Venturesの共同設立者であるジリアン・ボマリートは、KL3Mをそのような方法でトレーニングしたことについて、同社の顧客である法律事務所などが「リスクを嫌う」傾向が強いからだと説明する。「​顧客はデータの出どころを気にしますし、得られる結果が、悪質なデータに基づいていないことが確実であることを望みます」とした。その上で、ボマリートはこう続けた。「弊社はフェアユースに依存しません」。顧客は法的文書の要約や契約書の草稿づくりなどに生成AIを利用したいと望んでいる。しかし、OpenAIやStability AIなどが直面しているような、知的財産に関する訴訟には巻き込まれたくない。

273 VenturesはそれまでLLMの開発に取り組んだことはなかったが、実験としてトレーニングをしてみることにしたという。「そもそも可能かどうかを知るための実験でした」とボマリートは説明する。同社は独自のトレーニング用データセットとして、著作権法に違反しないことを確認した数千件の法的文書をもとに「Kelvin Legal DataPack」というデータセットを作成した。

このデータセットは、インターネットから無差別に大量のデータを集めるOpenAIなどが使うものに比べればちっぽけなもの(トークンと呼ばれるデータ単位に換算して約3,500億)だが、KL3Mモデルは予想よりもはるかに優れたパフォーマンスを示したとボマリートは強調した。データを事前に厳選したことが理由だろうと、ボマリートは推測している。「クリーンで質の高いデータがあれば、モデルをそれほど大きくする必要はないかもしれません」。データを厳選することで、できあがるAIモデルを望みの用途に特化させることができる。273 Venturesは現在、このデータへのアクセス権の購入を望む顧客に、順番待ちリストの枠を提供している。

パブリックドメイン・データセット

KL3Mを見習おうとする企業は今後、著作権侵害の心配がなく、自由に使えるデータセットを用いたほうがうまくいくのかもしれない。同じく3月下旬、ある研究者のチームが、パブリックドメインのコンテンツのみで構成されたものとしては、これまでで最大規模の言語モデルトレーニング用AIデータセットを発表した。そのデータセットは「Common Corpus」と呼ばれ、OpenAIのGPT-3テキスト生成モデルのトレーニングに用いられたデータとほぼ同じ規模の文章コレクションであり、オープンソースのAIプラットフォーム「Hugging Face」に投稿された

Common Corpusのデータセットは、米国議会図書館やフランスの国立図書館などがデジタル化し、パブリックドメイン上で公開している新聞などをソースとしている。プロジェクト・コーディネーターであるピエール=カール・ラングレはそのデータセットを「最先端のLLMを十分トレーニングできるほどのコーパス」と呼ぶ。AI業界の言い方で言うと、Common Corpusには5,000億のトークンが含まれている。一方で、最も高性能なOpenAIモデルのトレーニングには、数兆単位のトークンが用いられたと広く考えられている。

Common Corpusは、フランスのスタートアップであるPleiasが、Allen AI、Nomic AI、EleutherAIなどといったAI開発グループと共同で作成した。フランス文化省の支援を受け、現在のところ、フランス語としては最大のオープンデータセットを含むと言われており、多文化かつ多目的なデータセットとなることを目標としている。これはつまり、さまざまな分野の研究者や企業に、著作権侵害の懸念がなく、精査されたトレーニングセットへのアクセスを提供できるようにする、という意味だ。

この新しいデータセットにも制限はある。パブリックドメインのデータの多くは時代遅れだ。例えば米国では通常の場合、著者の死後70年の期間、著作権保護が有効とみなされる。そのためこのデータセットでは、AIモデルを時事的な話題に活用したり、流行のスラングを用いてブログ記事を書かせたりすることはできない(その代わりに、できの悪いプルーストのような文章を書くかもしれない)。

「わたしの知る限りこれは、現時点でLLMをトレーニングできる最大規模のパブリックドメイン・データセットです」と、オープンソース共同プロジェクトとしてAIモデルを公開しているEleutherAIでエグゼクティブディレクターを務めるステラ・ビダーマンは言う。「とても貴重なリソースです」

法的、倫理的に正しい​LLM

このようなプロジェクトは極めて珍しい。273 Venturesのそれ以外に、Fairly Trainedの認証を受けようとするLLMはまだ存在しない。しかし、AIをより公平なものにしたいと願う人々は、許可されていないデータ利用の正当化に懐疑的な勢力がAIの世界に存在することを、Common CorpusやKL3Mが証明してくれると期待している。GPT-4などに作品を飲み込まれたアーティストたちのためにも、だ。

「そこがセールスポイントです」と、書籍の著作家を代表する全米作家協会のCEO、メアリー・レイゼンバーガー言う。「最近、ライセンス供与件数、あるいはライセンス供与の申請件数が増え始めていて、成長傾向にあります」。この全米作家協会のほか、ハリウッド俳優らが加入する労働組合のSAG-AFTRAといくつかの専門団体が、最近Fairly Trainedのサポーターに任命された。

Fairly Trainedの認証審査を受けようとするふたつ目のLLMはまだ登場していない。しかし、同団体はAIボイスモデルを提供する会社としてスペインの音声操作スタートアップであるVoiceModや、最初の「AIバンド」としてFrostbite Orckingsというヘビーメタル・プロジェクトに認証を与えた。

「わたしたちはずっと前から、法的そして倫理的に正しく開発された​LLMが現れるものと予想していました」とニュートン=レックスは言う。「ただ、その実現まで少し時間がかかっただけです」

(Originally published on wired.com, translated by Kei Hasegawa, LIBER, edited by Mamiko Nakano)

※『WIRED』による著作権の関連記事はこちら


Related Articles
Illustration of a large AI head tied down by ropes. A hand with a gavel is hammering a stake into the ground and another hand is holding scissors to cut the rope.
サム・アルトマンをはじめとするテック企業の経営陣は、米国政府にAIの規制を求めていた。しかし、そう主張する人たちの間でもAIをどう規制するのかについて合意は取れていない。欧州のようなAI規制法をはたして実現できるだろうか。
Illustration of a file drawer opening out of a robot head, with one folder labeled with the copyright symbol
デンマークの出版社が、同社の著作物を無断使用して作成されたボットがGPT Storeにあるとして、OpenAIに対しいくつかのボットの削除を求めた。OpenAIはほかの著作権者からも同様の訴えを受ける可能性がある。
An artist paint palette with grid-textured paint globs on a yellow background
グーグルのGeminiやその他の生成AIを活用すれば、文章やスプレッドシートの作成といった作業は効率化されるかもしれない。しかし、人とAIがつくったものにはひとつ、大きな違いがある。『WIRED』エディター・アット・ラージのスティーヴン・レヴィによる考察。

雑誌『WIRED』日本版 VOL.52
「FASHION FUTURE AH!」は好評発売中!

ファッションとはつまり、服のことである。布が何からつくられるのかを知ることであり、拾ったペットボトルを糸にできる現実と、古着を繊維にする困難さについて考えることでもある。次の世代がいかに育まれるべきか、彼ら/彼女らに投げかけるべき言葉を真剣に語り合うことであり、クラフツマンシップを受け継ぐこと、モードと楽観性について洞察すること、そしてとびきりのクリエイティビティのもち主の言葉に耳を傾けることである。あるいは当然、テクノロジーが拡張する可能性を想像することでもあり、自らミシンを踏むことでもある──。およそ10年ぶりとなる『WIRED』のファッション特集。詳細はこちら