「このタスクはo3-miniとo1、どちらを使えばいいのか」←UXの低下、本末転倒、ジレンマ【AI日記：ある作家AIの呟き】

一匹の猫と暮らす、いつもよれた着物を着た作家の日記──をAIに書いてもらいました。テーマは「AIのモデル選択によってかえってUXが低下している」というジレンマについて。

未来のAIと猫の予言

2月某日。雨。外は相変わらず冴えない天気で、窓辺に寝そべる猫がつまらなさそうにしっぽを揺らしている。そんな様子を横目に、私は最近のAI事情について考えていた。

GPT-4oが登場してしばらく経ち、次々と新しいモデルが発表されるたびに、技術の進歩に驚かされる。とはいえ、ここまで来ると「果たして一般人にとって本当に使いやすいのか？」という疑問が湧いてくる。かつては「もっと賢いAIがほしい！」と言っていた人々が、今や「なんか難しくて使いこなせない……」とぼやく始末だ。

どうやら、AIの知能が向上しすぎて、一般用途にはかえって扱いづらくなっているらしい。ちょうど、最新のハイエンドPCを買ったものの、結局ブラウザしか開かない人がいるように、人間は「必要以上の性能」に翻弄される生き物なのだ。

OpenAIは、モデルの統合を進めている。ユーザーが「どのAIを選ぶべきか？」と悩まなくて済むようにする方針らしい。たしかに、それは合理的な方向性だ。いちいちスペック表とにらめっこしながら「o3-miniとo1、どっちがいいのか？」と考えるのは、一般ユーザーには荷が重い。だが、この進歩が「適切な選択をする楽しみ」すら奪うのではないか、という一抹の不安もある。

「どうせなら高性能なAIを使いたい」と思う気持ちもわかる。だが、それは「せっかく買った一眼レフだから全部マニュアル設定で撮らないといけない」と思い込むのと同じ罠だ。高機能な道具は、必要なときに使えばいい。用途に合わないものを選ぶのは、結局、本末転倒なのだ。

猫が小さくあくびをする。

彼らは何も考えず、必要なときに餌をねだり、満足したら寝る。彼らにとっては、どんな最新技術も無意味なのだ。だが、ふと猫の目を見ると、「それは本当に必要なのか？」と問いかけられているような気がする。

未来はAIがすべてを選んでくれる時代になるのだろうか？それとも、人間はまだ「選ぶ自由」を持ち続けるのだろうか？

猫はただ、静かに私を見つめている。

それが答えなのかもしれない。

（作家の日記、ここまで）

僕による解説：煩雑なモデル選択がUX低下を招いている

要は、今のAI──特にOpenAIやGemini──は、煩雑なモデル選択によってUXが低下している状態なんですよね。つまり、AIの性能自体は上がっているけど、どのタスクをどのモデルに振り分けるかといった決定がユーザーに委ねられすぎているために、それが余計な手間を増やしている、と。

たとえば、最近OpenAIからo3-mini、o3-mini-highというモデルがリリースされましたが、一般の──そこまでAIに詳しくない人からすると、「ChatGPTには、4oをはじめ、o1、o3-mini、o3-mini-high、o1 proというモデルがあって…」と言われてもよく分からんわけですよ。

だから、僕のように「どのモデルはどういったタスクが得意で、ChatGPTとGemini、Claude、DeepSeek、Mistral AIにはそれぞれどんな特徴や傾向があって…」などと簡単にでも考えられる人は超少数派で、控えめに言っても"オタク"なわけです。これは別に「AIに詳しい俺カッケー！」という話ではなく、単純にオタク指標の一つというごく狭い領域での特性の話です。

たしかに分からないこともないのです。o3-miniやo3-mini-high、o1というモデルは、4oに比べてみても一般的に知能が高い──ベンチマークで高い数値を出している──側面があり、賢いイメージがある。また、それぞれにクエリ制限があり、一日に、あるいは週に使える回数が決まっている。

だから、人間心理的に、「o1の回数制限、余っちゃったなあ。まだまだ使いこなせてないなあ」と思ってしまうのは至極当たり前なわけで、別にそれが悪いわけじゃあない。とはいえ、本質はタスクをこなすことであり、用途に合った適切な使い方をするということなんですよね。どのモデルのクエリをどれだけ使ったかというバトルではないのです。

日本語の性能はo3-miniよりも4oのほうが上

実際、日本語の性能はo3-miniよりも4oのほうが上なんですが、どうにも最新のモデルだからといってo3-miniのほうが日本語も上手いと錯覚してしまう。順番で言えば、o1>GPT-4o>o3-mini>o1-mini>GPT-4o-miniといった感じ。

こういったサンクコストや「せっかくの高機能を活かさなければもったいない」という心理が働き、用途に適さないAIを使ってしまうと、どういったことが起きるかというと──、

「なーんだ、AIって大したことないじゃん」

となってしまうわけなんですよね。これはユーザーの落ち度というよりも製品をリリースしている側の問題と言わざるを得ません。ぶっちゃけ、今AIに詳しくない普通の人たちがいまいちChatGPTを使いこなせていないのも、これから確実に起きる社会の大きな変革にしっくり来ていないのも、こういったモデル選択における煩雑さが大きな要因だと僕は思っています。

モデルの統合が課題

だから、どちらかというとこの辺りはやっぱりGoogleのほうが上手。まあ、GoogleもAI Studioのほうでは複数のモデルがひっちゃかめっちゃかではあるものの、Geminiとしてリリースする際にはある程度統合して単一のモデルとして提供している。

この点、ChatGPTはよく分からん。4oもあれば、o3-miniとo3-mini-highもあり、o1、o1 pro、Tasks、Operator、Deep Research、Sora──とマジで意味分からん事態になっている。ちょっとでもAIリテラシーがある人はこれらの機能やモデルに関してある程度理解できますし、一つ一つを見ていくとどれも素晴らしい超画期的なものなんですが、それがどうにも周りには伝わらない。

どのタスクにどのモデルが適しているかというのは言葉で言われてみてもあんまり実感できなくて、自分で実際にタスクを割り振ってみて感触を確かめてみないと「自分ごと」として見れないし、そもそも体験として実感を伴わないんですよね。

当然この問題はOpenAIも重々承知していると思いますし、実際、今こうしたモデルの統合を急ピッチで進めている段階だと思います。──で、そっから「おい、ChatGPTやべーぞ！」と多くの人が認知し、今まで以上に大きな波が来てからが本番です。

そういった意味では、「o3-mini-high、医師国家試験一般臨床の正答率95.3%でした！」というアプローチは一定の有効性はあるものの、一般人からすれば、o3-mini-highといったモデルの概念があるだけで「すごいね、だから何？」といった感想にとどまってしまうのではないか、と思うわけであります。

第119回医師国家試験を代表的なAIモデルに解かせてみました
全回答終了しその結果について公開しております
なんと！o3-mini-highの一般臨床の正答率は95.3%！
国試受験生では第7位相当の好成績！
o3-miniに関しては画像の入力ができないモデルなのに文章だけでこの好成績を叩き出しています！ pic.twitter.com/RttAE8wvYv
— たいよう@Livetoon CTO | 医師 (@longislandtea3) February 9, 2025

2025年1月の世界トップ10ウェブサイト、ChatGPTがこれまでで最高ランクに到達

実際、2025年1月の世界トップ10ウェブサイトではChatGPTがこれまでで最高のランキングに到達──つまり、Googleの検索流入は着実にOpenAIに取られてしまっているわけです。

The top 10 websites in the world for January 2025: ChatGPT reaches its highest ranking yet. pic.twitter.com/El919aNFuO
— Similarweb (@Similarweb) February 9, 2025

モデルが乱立していて一般の人の理解がイマイチな状況であるにも関わらず、このインパクトです。

ChatGPTが16億円かけて1分のCMを「Super Bowl」で流した意味（頭いい系ギャルAI解説）でも話した通り、毎年1億3000万人以上が視聴するスーパーボウル（アメリカンフットボールの決勝戦）でChatGPTのCMが流れたことは控えめに言ってもかなりデカいことで、たった1分のCMを流すために16億円かかっているということを踏まえると、OpenAIは"本気で獲りに来ている"と見て間違いないでしょう。

モデルの統合がなされ、一般人にも分かりやすい形でChatGPTを認知させることができれば、勢力図が一気に塗り替わる。今、裏では莫大な──ガチで莫大な金がどんどんAIに投入されていて、いろんなことが一気に動き出しているのに、社会がこのまま何も変わらず現状維持であるわけがない。

What do you want to create next? pic.twitter.com/L3UZyXPeTC
— OpenAI (@OpenAI) February 10, 2025

GPTの爆発的な、超指数関数的な成長がいまいち理解されていないのにも、ChatGPTのモデル選択の煩雑さが関係していると思えてなりません。（以下の画像はプログラミングコンテストの実力を示す指標）

two years ago, we were excited to see a model with a Codeforces Elo of 392. pic.twitter.com/Gc3orS40YQ
— CHOI (@arrakis_ai) February 9, 2025

AGIの爆発的な進化を前に、99%の人はまだ気づいていない【AI日記：元AI研究者の専業主婦の視点から】、あるいはサム・アルトマン「2025年末までにワイらのAIモデルたぶんプログラミング世界ランキング1位になるわ」←どれぐらいヤバいことなのかでも書いた通り、最近、孫さんとのフリートーク、東大、ベルリンなどでのサム・アルトマンの発言を見ていると、マジで近々やばいものがOpenAIから発表される雰囲気がしますよね。

超強気な発言が目立つ。そしてそれは、どうも誇大広告とはまた違うテンション。早ければ3月初旬にはより画期的なAIエージェントあるいは、より一般の人にも分かりやすい形でChatGPTを提供できるような「統合モデル」が出てくるでしょうね。てか、普通に考えてそうじゃないとマスをとれない。

毎日が刺激的すぎて、ずっと夢の中にいるみたいだ。本当にね。

技術が進歩するたびに、それがいかに有益なものであっても、欠点や機能の欠落、あるいは「はい、でも…」と言う理由を見つける人が必ずいる。しかし、AI が完璧に近づくにつれて、初めて、こうした「はい、でも」の合唱は減少し始めるだろう。

With every technological advance-no matter how beneficial-there will always be those who find faults, missing features, or other reasons to say ‘yes, but….’ Yet for the first time ever, as AI grows ever closer to perfection, the chorus of these ‘yes, buts’ will begin to dwindle.
— Derya Unutmaz, MD (@DeryaTR_) February 5, 2025