オープンソース大規模言語モデルがGoogleやOpenAIをやっつける？

Metaが公開したLLaMAを中心としたコミュニティでの活動が強すぎて、オープンソース大規模言語モデルの性能上昇が凄い！OpenAIが追いつかれるのも時間の問題だろうという。

GAFAMに支配されるという世界線は遠のいているかもという記事。

まぁ、オープンソースが”つよつよ”になることでAI alignmentなんかできないよねという世界線なのかもしれないが。みんなが勝手に言語モデルを進化させてしまう。

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

私たちには独自の強みがない

そして、OpenAIにもない

私たちはOpenAIに対して、肩越しにたくさん見てきました。誰が次のマイルストーンを達成するのか？次の一手は何か？

しかし、不都合な真実は、私たちもOpenAIもこの競争に勝てる立場にないということです。私たちが争っている間に、第三勢力がこっそりと私たちのシェアを奪っているのです。

もちろん、オープンソースのことを言っています。はっきり言って、彼らは私たちを圧倒しています。私たちが「未解決の大きな問題」と考えるものは、すでに解決され、今日では人々の手に渡っています。いくつか例を挙げると：

携帯電話でのLLM：Pixel 6でファウンデーションモデルを秒間5トークンで実行している人々がいます。

スケーラブルなパーソナルAI：あなたは一晩で自分のパソコンでパーソナライズされたAIを微調整できます。

責任あるリリース：これは「解決された」というよりは「無効化された」と言った方が良いでしょう。全く制約のないアートモデルがいっぱい詰まったウェブサイトがあり、テキストも遠くないところにあります。

多モーダル性：現在の多モーダルScienceQAのSOTAは1時間で訓練されました。

私たちのモデルはまだ品質面でわずかな優位性を持っていますが、その差は驚くほど速く縮まっています。オープンソースのモデルはより速く、よりカスタマイズ可能で、よりプライベートで、そして1ポンドあたりの性能が優れています。彼らは100ドルと130Bのパラメータで、私たちが1000万ドルと540Bのパラメータで苦労していることを実現しています。そして、それを数週間で行っています。これは私たちにとって重大な意味を持っています：

私たちは秘密の特別な技術は持っていません。私たちにとっての最善の希望は、Googleの外部で他の人たちが行っていることから学び、それと協力することです。第三者との連携を優先すべきです。

人々は、無料で制約のない代替品が品質面で比較可能である場合、制約のあるモデルに対してお金を払いません。私たちの価値がどこにあるのかを検討すべきです。
巨大なモデルは私たちを遅くしています。長期的には、迅速に反復できるモデルが最良のモデルです。
20Bパラメーター未満の範囲で可能なことが分かった今、小さなバリエーションを単なる後付け以上のものにすべきです。

何が起こったのか

3月初旬、オープンソースコミュニティは初めて本当に有能なファウンデーションモデル、MetaのLLaMAが公開されるのを手に入れました。これには指示や会話の調整、RLHFがありませんでした。それにもかかわらず、コミュニティはすぐに彼らが手に入れたものの重要性を理解しました。
その後、革新的な取り組みが続々と生まれ、主要な開発の間隔はわずか数日でした（詳細はタイムラインを参照してください）。わずか1か月後の今、指示の調整、量子化、品質向上、人間の評価、多モーダル性、RLHFなど、互いに構築し合っているバリエーションがあります。
最も重要なことは、スケーリングの問題を誰でも手を加えられる程度に解決したことです。新しいアイデアの多くは一般の人々からのものです。訓練と実験への参入障壁は、大規模な研究機関の総出力から、1人の人間、1晩、そして高性能なラップトップへと下がりました。
なぜ私たちはこれを予測できたのか多くの点で、これは誰もが驚くべきことではありません。現在のオープンソースLLMのルネサンスは、画像生成のルネサンスが起こった直後にやって来ました。コミュニティは、多くの人々がこれをLLMの「安定した拡散の瞬間」と呼ぶなど、その類似性を見逃していません。
どちらのケースでも、低コストで一般向けの参加が可能になったのは、LoRA（Low Rank Adaptation）と呼ばれる微調整の非常に安価なメカニズムと、スケールでの重要なブレークスルー（画像合成のための潜在的拡散、LLMのためのチンチラ）が組み合わさったことが原因です。どちらのケースでも、十分に高品質なモデルへのアクセスが、世界中の個人や機関からアイデアや反復を引き出しました。どちらのケースでも、これは大手プレイヤーよりも素早く進んでいきました。
画像生成領域では、これらの貢献が重要であり、安定した拡散をDall-Eとは異なる道に進めました。オープンモデルを持つことで、製品の統合、マーケットプレイス、ユーザーインターフェイス、そしてDall-Eでは実現しなかった革新が生まれました。
影響は実感できるものでした：OpenAIソリューションと比較して文化的影響の急速な支配があり、OpenAIはますます無関係になっていきました。LLMに対して同じことが起こるかどうかはまだ分かりませんが、広範な構造要素は同じです。
見逃したことオープンソースが最近の成功を収めた革新は、私たちがまだ苦労している問題を直接解決しています。彼らの仕事にもっと注意を払うことで、車輪の再発明を避ける手助けができるかもしれません。
LoRAは非常に強力な技術であり、もっと注意を払うべきです LoRAは、モデルの更新を低ランク分解として表現することで、更新行列のサイズを最大で数千分の1に減らします。これにより、モデルの微調整がコストと時間の一部で可能になります。消費者向けハードウェアで数時間で言語モデルをパーソナライズできることは、ほぼリアルタイムで新しく多様な知識を取り入れることを目指す上で大きな意味があります。この技術が存在することは、Google内部で十分に活用されていないものの、最も野心的なプロジェクトに直接影響を与えています。
ゼロからモデルを再訓練するのは困難な道です LoRAが非常に効果的な理由の一部は、他の微調整の形と同様に、積み重ね可能であることです。指示調整のような改善が適用され、それを活用して他の貢献者がダイアログや推論、ツール使用を追加できます。個々の微調整が低ランクであっても、その合計がそうである必要はなく、時間の経過とともにモデルへのフルランクの更新が積み重ねられることになります。
これは、新しくより良いデータセットやタスクが利用可能になると、モデルを安価に最新の状態に保つことができ、フルランのコストを払うことなく行うことができるということです。
これに対して、巨大なモデルをゼロから訓練することは、事前学習を破棄するだけでなく、その上に行われた反復的な改善も破棄します。オープンソースの世界では、これらの改善が支配的になるまで時間がかかりません。これにより、完全な再訓練が非常にコストがかかるものになります。
新しいアプリケーションやアイデアが本当に新しいモデルが必要かどうか、注意深く検討すべきです。モデルの重みを直接再利用できないほどの主要なアーキテクチャ改善がある場合、前世代の能力をできるだけ維持できるように、より積極的な蒸留形式に投資するべきです。
長期的に、小さなモデルの方がすばやく反復できる場合、大きなモデルはそれほど有能ではありません LoRAの更新は、最も人気のあるモデルのサイズに対して非常に安価（約100ドル）に生成できます。これは、アイデアを持つほぼ誰でも1つ生成して配布できることを意味します。訓練時間は通常1日未満です。このペースでは、これらの微調整の累積効果が、サイズ不利を最初から克服するまでに時間がかかりません。実際、エンジニアの時間において、これらのモデルからの改善のペースは、私たちが最大のバリエーションで行うことができることをはるかに上回っており、最高のものはすでにChatGPTとほぼ見分けがつかないほどです。地球上で最大のモデルのいくつかを維持することに注力することは、実際には私たちに不利益をもたらしています。

データ品質はデータサイズよりもスケールに重要
これらのプロジェクトの多くは、小さな、厳密にキュレートされたデータセットでトレーニングすることで時間を節約しています。これは、データスケーリング法則にある程度の柔軟性があることを示しています。このようなデータセットの存在は、「Data Doesn't Do What You Think」という考え方から導かれます。それらは、Googleの外でのトレーニングを行う標準的な方法に急速になっています。これらのデータセットは、合成方法（既存のモデルからの最良の反応をフィルタリングするなど）と他のプロジェクトからのリサイクルを利用して構築されており、いずれもGoogleでは優勢ではありません。幸いなことに、これらの高品質なデータセットはオープンソースであり、無料で使用できます。
オープンソースと直接競合することは負ける提案ですこの最近の進歩は、私たちのビジネス戦略に直接的で即時の意味合いがあります。利用制限があるGoogleの製品に対して、それらのない無料の高品質の代替品がある場合、誰がお金を払いますか？
そして、追いつくことはできないと思われます。現代のインターネットがオープンソースで動いているのは理由があります。オープンソースには、私たちが模倣できないいくつかの重要な利点があります。
彼らが私たちを必要とするよりも、私たちは彼らをもっと必要としています私たちの技術を秘密にしていたことは、常に微妙な提案でした。Googleの研究者たちは定期的に他の企業に移籍しているので、彼らは私たちが知っていることすべてを知っていると仮定できますし、そのパイプラインが開いている限り、これからも続けていくでしょう。
しかし、LLM（大規模言語モデル）の最先端研究が手頃な価格になった今、技術で競争優位を維持することがさらに困難になります。世界中の研究機関が互いの研究成果を基にし、私たち自身の能力をはるかに上回る幅広い方法で解決策を探求しています。私たちの秘密をしっかりと保持しながら、外部のイノベーションがその価値を希釈していくのを見るか、互いに学ぶことができるように努力しましょう。
個人は企業と同じ程度にライセンスに制約されていませんこのイノベーションの多くは、Metaからリークされたモデルの重みの上で行われています。これは、本当にオープンなモデルがより良くなるにつれて変わっていくことになりますが、ポイントは彼らが待たなくてもよいということです。「個人使用」による法的保護と個人を訴追する実用性のなさから、個人はこれらの技術にアクセスしています。
顧客自身であることは、ユースケースを理解していることを意味します画像生成スペースで人々が作成しているモデルを見ると、アニメジェネレータからHDR風景まで、創造力があふれています。これらのモデルは、特定のサブジャンルに深く浸かった人々によって使用および作成されており、私たちが望むことのできない知識と共感の深さを持っています。
エコシステムの所有: オープンソースが私たちのために働くようにする逆説的に、これにおいて唯一明らかな勝者はMetaです。リークされたモデルが彼らのものであるため、彼らは事実上、地球全体の無料の労働力を得ています。オープンソースのイノベーションのほとんどが彼らのアーキテクチャの上で行われているため、それを直接製品に組み込むことができます。
エコシステムを所有する価値は過小評価できません。Google自体がChromeやAndroidなどのオープンソース提供物でこのパラダイムをうまく利用しています。イノベーションが行われるプラットフォームを所有することで、Googleは思考リーダー兼方向性を示す立場を確立し、自分自身よりも大きなアイデアに関する物語を形作る能力を獲得しています。
私たちがモデルをより厳密に管理するほど、オープンな代替手段を魅力的にしています。GoogleとOpenAIはどちらも、モデルの使用方法を厳密に管理できるリリースパターンに防御的に重心を移しています。しかし、この制御は虚構です。LLMを許可されていない目的で使用したい人は、無料で利用できるモデルから選ぶだけです。
Googleは、オープンソースコミュニティのリーダーとして自らを確立し、広範な対話に協力することで先頭に立つべきです。これはおそらく、小さなULM（Universal Language Model）バリアントのモデルの重みを公開するような不安を感じるステップを踏むことを意味します。これは、モデルに対する一部の制御を放棄することを必然的に意味します。しかし、この妥協は避けられません。イノベーションを推進し、同時にそれを管理することを期待することはできません。
エピローグ: OpenAIについてはどうですか？オープンソースに関するすべての話が不公平に感じられることがありますが、OpenAIの現在のクローズドポリシーを考慮すると、なぜ私たちが共有しなければならないのか、彼らはどうですか？しかし、事実として、私たちがポーチされた上級研究者の定期的な流れの形で彼らとすべてを共有している限り、秘密は無意味です。
そして最後に、OpenAIは問題ではありません。彼らはオープンソースとの関係において、私たちと同じ間違いを犯しており、優位性を維持する能力は必然的に疑問視されます。オープンソースの代替手段は、彼らが立場を変えない限り、最終的に彼らを追い越すことができます。少なくともこの点においては、私たちは先手を打つことができます。

タイムライン

2023年2月24日 - LLaMAがローンチ MetaがLLaMAをローンチし、コードをオープンソース化するが、重みは公開しない。この時点では、LLaMAはインストラクションや会話チューニングがされていない。多くの現行モデルと同様に、比較的小さなモデル（7B、13B、33B、65Bのパラメータで利用可能）であり、比較的長い時間訓練されているため、そのサイズに対してかなり能力が高い。
2023年3月3日 - 避けられない出来事 1週間以内に、LLaMAが一般にリークされる。コミュニティに与える影響は計り知れない。既存のライセンスでは商用目的での利用が禁止されているが、突如誰もが実験できるようになる。この時点から、イノベーションが次々と生まれる。
2023年3月12日 - トースターで動作する言語モデル 1週間ちょっと後、アルテム・アンドレエンコがRaspberry Piでモデルを動作させる。この時点では、重みがメモリ内外に入れ替えられるため、モデルは実用的な速度では動作しない。それでも、これがミニ化努力の大波を引き起こすきっかけとなる。
2023年3月13日 - ノートパソコンでのファインチューニング翌日、スタンフォード大学がLLaMAにインストラクションチューニングを追加したAlpacaをリリース。しかし、重要なのは実際の重みよりも、エリック・ワンが作成したalpaca-loraリポジトリで、「単一のRTX 4090で数時間以内に」低ランクのファインチューニングを行うことができる。
突然、誰もがモデルを何にでもファインチューニングできるようになり、低予算のファインチューニングプロジェクトへの競争が始まる。論文では数百ドルのトータル支出を誇らしげに説明している。さらに、低ランクの更新は、元の重みとは別に簡単に配布できるため、メタからの元のライセンスとは独立している。誰もがそれらを共有し、適用できる。
2023年3月18日 - 速くなったジョージ・ゲルガノフが4ビット量子化を使って、LLaMAをMacBookのCPU上で動作させる。これは、実用的な速度で動作する最初の「GPU不要」ソリューションとなる。
2023年3月19日 - 13BモデルがBardと「同等」の性能を達成翌日、複数大学の共同研究によりVicunaがリリースされ、GPT-4を用いた評価を行いモデル出力の質的な比較が可能になる。評価方法には疑問が残るものの、モデルは既存のバリエーションよりも実質的に優れている。訓練費用：300ドル。
特筆すべきは、ChatGPTのデータを利用しながらAPIの制限を回避できたことである。彼らは、「印象的な」ChatGPTの対話をShareGPTのようなサイトに投稿された例からサンプリングした。
2023年3月25日 - 自分のモデルを選べる NomicがGPT4Allを作成する。これはモデルであり、さらに重要なのはエコシステムである。初めて、複数のモデル（Vicunaを含む）が一箇所に集められるようになる。訓練費用：100ドル。
2023年3月28日 - オープンソースのGPT-3 Cerebras（私たち自身のCerebraとは混同しないでください）が、Chinchillaによって示唆される最適な計算スケジュールと、μパラメータ化によって示唆される最適なスケーリングを用いて、GPT-3アーキテクチャを訓練する。これは、既存のGPT-3クローンを大幅に上回る性能を持ち、μパラメータ化が「実際に使われる」最初の事例となる。これらのモデルはゼロから訓練されており、コミュニティはもはやLLaMAに依存していない。
2023年3月28日 - 1時間でマルチモーダル訓練新しいParameter Efficient Fine Tuning（PEFT）技術を使用して、LLaMA-Adapterがインストラクションチューニングとマルチモーダル性を1時間の訓練で導入する。驚くべきことに、わずか120万の学習可能なパラメータでこれを実現している。このモデルは、マルチモーダルなScienceQAで新たな最先端の結果を達成する。

2023年4月3日 - 13BオープンモデルとChatGPTを本物の人間が区別できないバークレーは、完全に無料で入手できるデータを使って訓練されたダイアログモデルであるKoalaを立ち上げる。
彼らは、自分たちのモデルとChatGPTとの間で実際の人間の選好を測定するという重要なステップを踏む。ChatGPTがわずかに優位に立っているものの、ユーザーがKoalaを好むか、違いがないと感じることが50％以上ある。訓練費用：100ドル。
2023年4月15日 - ChatGPTレベルのオープンソースRLHF Open Assistantは、モデルと、より重要なことに、RLHFを介したAlignmentのためのデータセットを立ち上げる。彼らのモデルは、人間の選好においてChatGPTに近い（48.3％対51.7％）。LLaMAに加えて、このデータセットはPythia-12Bに適用できることを示しており、モデルを実行するための完全にオープンなスタックを使用する選択肢を人々に提供している。さらに、データセットが一般に利用可能であるため、小規模な実験者にとってRLHFを達成不能から安価で簡単にする。

補足だよ

RLHFとは

RLHFは、Reinforcement Learning from Human Feedback（人間のフィードバックからの強化学習）の略です。これは、人間のフィードバックを用いてAIモデルを改善するための強化学習アプローチです。この方法では、モデルの振る舞いを人間が評価し、そのフィードバックに基づいてモデルのパラメータを調整します。これにより、モデルは人間の選好に従ってより適切な結果を生成するようになります。RLHFは、NLP（自然言語処理）やコンピュータビジョンなどの分野でモデルのパフォーマンスを向上させるために使用されます。

LoRAとは

LoRAは、Low-Rank Approximation（低ランク近似）の略です。これは、大規模なデータや行列を、より小さなデータや行列に近似する手法です。LoRAを使用することで、計算の複雑さやメモリ消費を抑えることができ、高速化や効率化が可能になります。機械学習モデルにおいては、低ランク近似を用いてパラメータを圧縮することで、学習や予測の速度を向上させることができます。ただし、近似により精度が若干低下することがあります。