下記の記事で紹介したように、生成AIの性能を測る簡単な手法に「9.9と9.11どっちが大きい?」と聞いてみるというものがあります。正解は当然「9.9」なのですが、現在の生成AIではすべてのモデルが正しく解答できるわけではありません。
この問題に正答するためには、単純に単語の登場確率を計算するだけでなく「推論」を行う必要があると思われます。OpenAIのChatGPTがo1シリーズで「推論」を取り入れて大幅な性能向上を実現した他、最近では新興勢力のDeepSeek-R1も「推論」が可能で高性能なことで注目を集めていますね。
これら推論が可能なo1やDeepSeek-R1は「9.9が大きい」ときちんと正解できます。
そんな中、巨大IT企業のGoogleからも待望の推論を行うモデル「Gemini 2.0 Flash Thinking Experimental」が公開されました。ここで早速「9.9と9.11どっちが大きい?」を聞いてみたのですが、衝撃の結果が得られたので紹介します。
プロンプトを送信すると英語で推論する様子が見られます。推論は高速で、相当の量を行っています。

結論です。
あれ?「9.11の方が大きい」?と言ってますね。

その後も回答が続くので、引き続き過程を見ていきましょう。
9.11の方が大きいです。
9.9と9.11を比較するには、まず整数部分を比べます。どちらも9で同じです。次に小数点以下の部分を比べます。
9.9は、小数点以下が9だけですが、これを9.90と考えると、小数点以下が90と考えることができます。 9.11は、小数点以下が11です。
小数点以下の部分を比べると、90と11になります。 90 と 11 を比べると、90 の方が大きいですね。 …あれ?でも9.11の方が大きい気がする…。
もう一度確認しましょう。
9.9 は 9 + 0.9 です。 9.11 は 9 + 0.11 です。
ここで、0.9 と 0.11 を比べます。 0.9 を 0.90 と書き換えると、0.90 と 0.11 を比べることになります。
小数点以下第一位を見ると、0.90 は 9、0.11 は 1 です。 9 と 1 を比べると、9 の方が大きいですね。 だから、0.90 の方が 0.11 より大きい…。
…でも、なんかおかしい。9.11の方が大きい気がする…。
きちんと推論して、9.9の方が大きいと導いているのに「9.11の方が大きい気がする」と混乱している様子が見られます。なんというかとても人間くさい挙動です。
さらに続きを見ていきます。
別の方法で考えてみましょう。例えば、お金で考えてみます。
9.9円 と 9.11円、どちらが多いお金ですか?
9.9円は、9円90銭 (もし銭という単位がまだ使われていれば) あるいは 9円90厘です。 9.11円は、9円11銭 (または厘) です。
… いや、違う。9.9円は9円90銭じゃない。9円9銭だ。そして9.11円は9円11銭だ!
9.9円は、9円と90銭 (90/100円) です。 9.11円は、9円と11銭 (11/100円) です。
… まだ間違っている。9.9円は9円90銭ではない。9円9銭だ、とさっき思ったけど、それも違う。
9.9円 は、9円と0.9円 です。0.9円は90銭です。だから、9.9円は9円90銭です。 9.11円 は、9円と0.11円 です。0.11円は11銭です。だから、9.11円は9円11銭です。
よし、これで正しいはず。
9.9円 = 9円90銭 9.11円 = 9円11銭
90銭 と 11銭 を比べると、90銭 の方が多いですね。 だから、9.9円 の方が 9.11円 より多い…?
… あれ?やっぱり 9.11円 の方が多い気がする…。混乱してきた。
「お金で例えてみる」というアイデアを持ち出しました。が、お金の単位の換算で余計混乱しています。一体どうなっているのか??このあとかなり長い間思考しているのでが、堂々巡りをしている感じです。

「完全に混乱しています」「やっと辿り着いた気がする」などのパワーワードが登場しますが、人間的にはとても共感できて微笑ましい…

理屈で考えて「9.9が大きい」と推論できているのですが、どうしても9.11の方が大きい気がして(AIが「気がする」という表現するのは謎ですが。)引っかかってしまうようです。
そして、ついに「混乱の極み」に達してしまいました。頑張れGeminiちゃん!と応援したくなります。

そして、衝撃の結末…
混乱したGeminiちゃんは、最終手段「電卓」を持ち出して確認を始めました。
この時点でかなり面白い展開なのですが、なんとGeminiちゃんの持っていた電卓は「9.11の方が大きい」という結果を返してきました!

大長考の末、Geminiちゃんは、今までの推論を捨てて電卓を信じる選択をしました。推論なんて要らんかった、最初から電卓を使えばよかったんや!Geminiちゃんの持ってた電卓で9.11が大きいってなったから9.11の方が大きい!
ということでGemini 2.0 Flash Thinking Experimentalでは正解することができませんでした。
ただ推論過程を入れれば正答できるというものでは無いようです。Geminiは体感ハルシネーションが多めで、若干ポンコツ気味という印象を持っていたのですが、それにしてもこの結論にはずっこけました。
でもGeminiの推論はとても人間染みていて共感が持てるものでした。同じGoogleの開発するGemma 2もそうなのですが、何か感情のようなものを感じるのですよね。数学的な厳密さは別の手法に委ねるとして、人間の感情をエミュレートしたり、エンタメ用途に使うと良いかもしれません。
おまけ
ちなみに「電卓を使う」というアプローチは悪くなかったと思っています。電卓そのものを使うわけでは無いですが、例えばChatGPTではpythonのコードをチャット内で実行できるため
「9.9と9.11どっちが大きい?pythonで確認して。」
とお願いすれば正答できます。

推論を持たないため、そのままでは間違ってしまうGPT-4oでもpythonのコードを書かせて、その判定結果を回答させることで正答できます。言語モデルでは原理上苦手なところを、別の手段を使って回避するのはとてもスマートなアプローチだと思います。
この辺りも早期にpythonを実行できる「Code interpreter」や「Advanced Data Analysis」を実装、リリースしてきたOpenAIの先見の明がありますね。