【日記】DeepSeekの一連の流れを整理。米国株の下落、データ不正利用疑惑（2025/01/29）

一連の流れ

DeepSeekが注目された理由

中国のAIスタートアップ「DeepSeek」が「R1」モデルを公開する
数学的タスクや一般常識などのベンチマークで米国の大手企業のAIモデルと同等以上の性能を示したと報告される
低コストで高性能なAIモデルの登場により、競争力が注目される

米国株の下落

DeepSeekの台頭により、米国のAI企業の競争力低下を懸念
特にNVIDIAなどのAI関連企業の株価が下落（NVIDIAの株価は約17%下落し、時価総額で"約91兆円"を失う）

DeepSeekにデータ不正利用の疑惑

OpenAIのAPIを通じて大量のデータを不正取得した可能性が浮上
OpenAIとMicrosoftが調査を開始
データを用いて自社のAIモデルを開発していた疑い

不正利用の法的・契約違反の可能性

OpenAIの利用規約や知的財産権の侵害に該当する可能性
APIの利用制限を超えたデータ取得や、取得データのモデル開発利用が契約違反に該当する可能性
知的財産の不正使用として不正競争行為とみなされる可能性

ポイントは「DeepSeekがOpenAIの利用規約に違反した可能性がある」という箇所

DeepSeekへの疑念は、OpenAIのAPIを規約違反の疑いがある方法で学習に利用した可能性にあり、学習データの透明性とは別問題です。

LLMの学習データが著作権のあるコンテンツを含む可能性を完全に排除することは難しく、この点については、Googleも、OpenAIもデータの詳細は非公開なんですよね。

しかし、問題はデータの合法性ではなく、競合の商用API出力を無許可で学習利用した可能性にあり、これは利用規約違反、知的財産権侵害、不正競争防止法抵触の恐れがあります（オープンモデルの出力利用とは異なり、商用API出力の無断学習は契約違反になり得る）。

とはいえ、まだ"疑惑"の段階なので、今後の焦点は「DeepSeekの対応」と「OpenAI側の証拠」になるでしょう。規約違反が明らかになれば法的措置などの可能性がありますし、証拠不十分なら、AI開発倫理やデータ利用のグレーゾーンに関する議論に発展します。

フィナンシャル・タイムズ紙によると、OpenAIは同紙に対し、DeepSeekによると思われる「蒸留」の証拠を確認したと語った。
直接の事情を知る人物によると、OpenAIとMicrosoftは昨年、DeepSeekに属していると思われるアカウントを調査し、OpenAIのAPIを利用規約に違反する方法で使用したとしてアクセスをブロックした。
OpenAI says it has evidence China’s DeepSeek used its model to train competitor

第二、第三の"DeepSeek"が生まれる可能性

仮にDeepSeekがOpenAIのAPIを通じてデータを不正に取得し、モデルの学習データとして利用していたのだとしても、技術自体は革新的であり、他の研究者や企業が同等の、あるいはより優れたモデルを開発する可能性は十分にあります。

つまり、今回の一件でDeepSeekが再起不能になったとしても、第二、第三の"DeepSeek"が生まれることは間違いないんですよね。

これが何を示すのかというと、OpenAIの従来のビジネスモデル──チャット利用への課金モデルが「転換期」を迎えているということだと思うのです。

AI技術の進化は「高度なAI」をより速くコモディティ化する方向へ加速させている

DeepSeekのようなオープンソースかつ高性能なチャットモデルの登場は、OpenAIの課金モデルへの依存を減らす可能性があります。DeepSeekの登場によって、ユーザーが無料で利用できる代替手段が提供されたわけですからね。OpenAIにとっては脅威。

もう、単なるチャット機能への課金では差別化が難しいので、OpenAIはより高度な機能やサービスを提供し、付加価値を高める必要性に迫られていると言えます（AIエージェントなど）。

とはいえ、これらの高度なAIも、技術の拡散によって模倣されるリスクは常に存在するんですよね。つまり、OpenAIは技術的な優位性を維持しつつ、"模倣が困難な独自の価値"を創造する必要があります。うーん、大変っすねえ。

──で、問題はAI技術のコモディティ化の加速について。ポイントは以下の3つ。

オープンソースのAIモデルや開発ツールの普及は、AI技術の民主化を促進し、コモディティ化を加速
AI人材の流動性が高まるにつれて、個々人に蓄積された知識や技術は企業間を移動──技術の拡散が加速される
クラウドサービスはAI開発に必要なリソースやデータストレージを安価に提供し、参入障壁を下げている

もはや1だけでもDeepSeekの成し遂げた功績はデカい──むしろ、日本にとっては希望となり得ることなのに、あまり歓迎されていない印象です。

まあ、DeepSeekがAI技術の進化スピードを早めたことは間違いありませんね。OpenAIやGoogleのタイムラインにも大きく影響を与えていることは間違いないでしょう。

今週はGrok 3にGemini 2.0 Pro、openAI o3-miniのリリースも控えているようなので、まだまだ目を離せません。マジで来年あたりにAGI実現しても別に驚かない。

【余談】学習データの透明性＝ブーメラン？

DeepSeek によって、状況はどんどん複雑になり、深みにハマりつつある。
このグループは、モデルのトレーニングのために OpenAI の API からデータを盗み出した可能性がある。
もしそれが真実だと証明されれば皮肉なことになる。なぜなら、OpenAI は著作権で保護されたコンテンツを無許可でスクレイピングして、モデルのトレーニングに使用したデータの多くを盗んだからだ。
https://x.com/Mayhem4Markets/status/1884463337603297470

【余談】クローズドソースモデルの独自性検証の難しさについて

データの不正利用疑惑とは関係ないですが、こちらも興味深い内容だったので記載しておきます。

（OpenAIの最高研究責任者の発言）
DeepSeek が o1 レベルの推論モデルを作成したことを祝福します。彼らの研究論文は、彼らが o1 までの道のりで私たちが行った中核的なアイデアのいくつかを独自に発見したことを示しています。
https://x.com/markchen90/status/1884303237186216272

上記の発言に対する反論。

クローズドソースの作業では、これらの主張を信頼することは不可能です。科学に関する限り、OpenAI が検証可能なコミット履歴を含むコードベースを公開しない限り、R1 の技術の帰属は deepseek の作者のみに帰属するはずです。
https://x.com/deliprao/status/1884420597494489307

解説

OpenAIの最高研究責任者であるMark Chenは、DeepSeekがo1と同等の推論モデルを作ったことを称賛し、DeepSeekがOpenAIのアイデアの一部を独自に発見したと言っています。

つまり、DeepSeekの研究成果を認めつつも、「いや、俺たち（OpenAI）はもっと"先"に行ってるけどね」という先行性を暗に示唆しているわけです。

それに対して次の発言は、クローズドソースである限り、"OpenAIのアイデアをDeepSeekが独自に発見したは検証不可能だと反論しています。要するに、「証拠がない限り、OpenAIの先行性は認められんよな」ということですね。それはそう。