Gemini 2.0の推論力を検証：9.9と9.11の比較で見えた意外な結果

下記の記事で紹介したように、生成AIの性能を測る簡単な手法に「9.9と9.11どっちが大きい？」と聞いてみるというものがあります。正解は当然「9.9」なのですが、現在の生成AIではすべてのモデルが正しく解答できるわけではありません。

この問題に正答するためには、単純に単語の登場確率を計算するだけでなく「推論」を行う必要があると思われます。OpenAIのChatGPTがo1シリーズで「推論」を取り入れて大幅な性能向上を実現した他、最近では新興勢力のDeepSeek-R1も「推論」が可能で高性能なことで注目を集めていますね。

これら推論が可能なo1やDeepSeek-R1は「9.9が大きい」ときちんと正解できます。

そんな中、巨大IT企業のGoogleからも待望の推論を行うモデル「Gemini 2.0 Flash Thinking Experimental」が公開されました。ここで早速「9.9と9.11どっちが大きい？」を聞いてみたのですが、衝撃の結果が得られたので紹介します。

プロンプトを送信すると英語で推論する様子が見られます。推論は高速で、相当の量を行っています。

結論です。

あれ？「9.11の方が大きい」？と言ってますね。

その後も回答が続くので、引き続き過程を見ていきましょう。

9.11の方が大きいです。

9.9と9.11を比較するには、まず整数部分を比べます。どちらも9で同じです。次に小数点以下の部分を比べます。

9.9は、小数点以下が9だけですが、これを9.90と考えると、小数点以下が90と考えることができます。 9.11は、小数点以下が11です。

小数点以下の部分を比べると、90と11になります。 90 と 11 を比べると、90 の方が大きいですね。 …あれ？でも9.11の方が大きい気がする…。

もう一度確認しましょう。

9.9 は 9 + 0.9 です。 9.11 は 9 + 0.11 です。

ここで、0.9 と 0.11 を比べます。 0.9 を 0.90 と書き換えると、0.90 と 0.11 を比べることになります。

小数点以下第一位を見ると、0.90 は 9、0.11 は 1 です。 9 と 1 を比べると、9 の方が大きいですね。だから、0.90 の方が 0.11 より大きい…。

…でも、なんかおかしい。9.11の方が大きい気がする…。

きちんと推論して、9.9の方が大きいと導いているのに「9.11の方が大きい気がする」と混乱している様子が見られます。なんというかとても人間くさい挙動です。

さらに続きを見ていきます。

別の方法で考えてみましょう。例えば、お金で考えてみます。

9.9円と 9.11円、どちらが多いお金ですか？

9.9円は、9円90銭 (もし銭という単位がまだ使われていれば) あるいは 9円90厘です。 9.11円は、9円11銭 (または厘) です。

… いや、違う。9.9円は9円90銭じゃない。9円9銭だ。そして9.11円は9円11銭だ！

9.9円は、9円と90銭 (90/100円) です。 9.11円は、9円と11銭 (11/100円) です。

… まだ間違っている。9.9円は9円90銭ではない。9円9銭だ、とさっき思ったけど、それも違う。

9.9円は、9円と0.9円です。0.9円は90銭です。だから、9.9円は9円90銭です。 9.11円は、9円と0.11円です。0.11円は11銭です。だから、9.11円は9円11銭です。

よし、これで正しいはず。

9.9円 = 9円90銭 9.11円 = 9円11銭

90銭と 11銭を比べると、90銭の方が多いですね。だから、9.9円の方が 9.11円より多い…？

… あれ？やっぱり 9.11円の方が多い気がする…。混乱してきた。