昨年11月にOpenAIを退社した研究者の発言が話題に。太字箇所は筆者。
個人的なお知らせですが:OpenAIで4年間AI安全に取り組んだ後、11月中旬に退社しました。危険な能力評価、エージェントの安全制御、AGIとオンラインアイデンティティなど、波乱万丈の日々でした。多くのことを懐かしく思うでしょう。
正直、最近のAI開発のスピードにはかなりの恐怖を感じています。将来の家族の住まいや老後資金を考えるたび、ふと疑問がよぎります——人類はその時まで存続しているだろうか?
私見ですが、AGI開発競争はリスクの大きすぎる賭けです。現在、AIアラインメント(AIの意図と人類の価値観を一致させる問題)を解決できている組織はありません。スピード競争が激しくなるほど、解決策を見つける可能性は低下します。
今私たちは危険な均衡状態にあります。たとえある組織が責任あるAGI開発を目指しても、他者が手抜きをして追いつこうとすれば、取り返しのつかない事態になりかねません。このプレッシャーが全体の開発スピードを加速させています。各組織には、この悪循環を断ち切るための本格的な安全基準の透明化を期待します。
今後のことですが、しばらく休暇を楽しんだ後、AI安全・政策分野で最重要かつ軽視されている課題について知見を集めたいと考えています。特に制御手法、欺瞞的AIの検出、安全性の立証手法に興味があります。関心が重なる方はDMでご連絡ください。
---
Some personal news: After four years working on safety across @openai, I left in mid-November. It was a wild ride with lots of chapters - dangerous capability evals, agent safety/control, AGI and online identity, etc. - and I'll miss many parts of it.
Honestly I'm pretty terrified by the pace of AI development these days. When I think about where I'll raise a future family, or how much to save for retirement, I can't help but wonder: Will humanity even make it to that point?
IMO, an AGI race is a very risky gamble, with huge downside. No lab has a solution to AI alignment today. And the faster we race, the less likely that anyone finds one in time.
Today, it seems like we're stuck in a really bad equilibrium. Even if a lab truly wants to develop AGI responsibly, others can still cut corners to catch up, maybe disastrously. And this pushes all to speed up. I hope labs can be candid about real safety regs needed to stop this.
As for what's next, I'm enjoying a break for a bit, but I'm curious: what do you see as the most important & neglected ideas in AI safety/policy? I'm esp excited re: control methods, scheming detection, and safety cases; feel free to DM if that overlaps your interests.
自我を持ったAIが人間を征服するシナリオは現実的なのか?
Google主任AGI科学者「3年以内にAGIが構築される可能性は50%。それから1年以内に"人類が絶滅"する確率は5~50%」
AI脅威論というと、真っ先に思い浮かぶのは『ターミネーター』や『マトリックス』のようなSF作品ではないでしょうか? これらの物語では、自我を持ったAIが人間を征服しようとする姿が描かれ、多くの人々に強烈な印象を与えています。
しかし、こうしたイメージは「AIの本質を生物や人間と同一視する」という論理的な飛躍を含んでいる──ように思えるんですよね。
たしかに、現在のAIは高度なパターン認識や意思決定が可能ですが、それはあくまで人間が設計したアルゴリズムとデータに基づいて動作しています。感情や欲望、自己保存の本能といった生物的な特性は一切持ち合わせていません。
AIが「自発的に」人類への敵意を抱くというシナリオは、技術的な仕組みよりも、むしろ人間が物語を通して投影してきた「生命観」に根ざしていると言えそう。
現実的なAIの脅威──予期せぬ副作用や権力の集中
では、現実的なAIの脅威とは何か──。専門家の間で懸念されているのは、むしろ「予期せぬ副作用」や「権力の集中」です。
たとえば、自動運転システムの判断ミスによる事故や、アルゴリズムのバイアスが社会的不平等を助長するケース、また、AI開発に必要な膨大なデータや計算資源が一部の企業や国家に集中することで、経済格差や監視社会化が進む危険性も指摘されています。
さらに、人間自身がAIの判断に依存しすぎる「思考停止」の懸念もあるでしょう。医療診断から司法判断までAIに委ねられる社会では、人間の責任感や批判的思考が衰退する可能性がある。つまり、これは技術そのものの暴走ではなく、人間社会の在り方に起因する問題なんですよね。
こう考えると、AIの本当のリスクは「自律的な悪意」ではなく、「設計者の意図を超えた影響」や「技術の偏った利用」にあると言えます。言うて、AIはただの道具ですから。
AGI開発競争が「ハイリスクな賭け」と言われる3つの理由
さて、では上記のことを踏まえ、AGI開発競争が「ハイリスクな賭け」と言われる理由を考えてみます。主に3つの要素に集約されるかと思います。
1. 開発スピードが安全性の検証を圧倒的に上回る可能性
Googleの科学者が指摘する「3年以内にAGI実現」というタイムラインは、倫理的な制御システムの確立や国際的な規制整備のペースを無視しています。これは、核開発競争のように「技術的突破」だけが先行し、リスク管理が後追いになる危険性を孕んでいます。
2. 企業や国家間の競争が「暴走」を加速する構造
AGIの軍事転用や経済支配を恐れるほど、各陣営は「他者より先に」開発を急ぎます。この心理的プレッシャー下では、安全性より性能が優先され、意図せぬ動作や悪用リスクを見過ごす可能性が高まります。
3.「人類絶滅確率5〜50%」という数字が示す「不可逆性」
仮にAGIが誤った価値観を学習した場合、その影響はインターネットを通じて瞬時に全世界に拡散されます。従来の技術事故と異なり、一度暴走すれば制御不能に陥る「存在論的リスク」を伴う点が、ロシアンルーレットに例えられる所以です。
オープンソースモデルは諸刃の剣
とはいえ、実際問題として、DeepSeekのようなオープンソースモデルの登場は、AGI開発競争に「二重の刃」をもたらしています。
透明性の向上や技術の民主化というメリットがある一方、そのコードが無制限に拡散することで「AGI開発のハードルを下げ、競争参加者を増やす」という逆説を生んでいる──。これが「アラインメント(目的整合性)のジレンマ」の核心、つまり、オープン化が進むほど、AGIの制御を統一的な倫理観で縛ることが困難になるという矛盾です。
たとえば、ある国家が軍事転用を目的にDeepSeekの基盤を流用し、別の企業が自社利益最大化のため独自の価値観を埋め込んだ場合、それぞれのAGIが衝突するリスクが高まりますよね。なぜなら、オープンソースは技術アクセスを平等化するが、人類全体の「共通善」を定義する仕組みとは無縁だから。
さらに、競争が過熱するほど「開発スピード」と「安全性検証」のバランスが崩れます。Google研究者の警告にある「3年タイムライン」は、まさにこのトレードオフを象徴していると言えるでしょう。オープンソースがイノベーションを加速するのは事実でも、その速度がアラインメント議論を置き去りにする危険性こそが、現代の「パンドラの箱」なのです。
答え合わせは3年後──いや、2年後かもしれない。さあ、どうなることやら、世界。