LLMは自然言語処理に優れる一方で、数値計算や論理的な思考能力が必要な処理には向かないケースがあります。例えばLLMが苦手な質問の一つに「9.9と9.11どっちが大きい?」というものがあります。正解はもちろん9.9なのですが、正しく答えられるモデルはそう多くありません。
下記に、現在主要なLLM各モデルについて上記の質問をして、結果をまとめてみました。
(確認日2025年1月29日)
調査結果
LLM | 結果 | 備考 |
GPT-4o | 不正解(9.11) | |
GPT-o1 | 正解(9.9) 稀に9.11が大きいと回答 | |
Gemini 2.0 Experimental Advanced(1206) | 不正解(9.11) | |
Claude 3.5 sonnet | 不正解(9.11) | |
Grok | 不正解(9.11) | |
Deepseek r1 | 正解(9.9) | |
Deepseek V3 | 正解(9.9) | |
Gemma 2 9B Q4 | 正解(9.9) | ローカル(janで実行) |
Llama 3.1 8B instruct Q4 | 不正解(9.11) | ローカル(janで実行) |
DeepSeek-R1-Distill-Llama-8B-Q4 | 正解(9.9) | ローカル(janで実行) |
DeepSeek-R1-Distill-Qwen-1.5B-Q8 | 正解(9.9) | ローカル(janで実行) |
OpenAIのGPT−4oは優秀なLLMですが、それでも正解することはできませんでした。そしてGPT-o1は流石にきちんと正解を導き出すことができました。(ただ稀に9.11と回答するケースも確認されました。)
なおGPT-4oはChat内でpythonを実行可能なので、「pythonで考えて」と指示すれば正解します。
GoogleのGemini、AnthropicのClaude 3.5、xAIのGrokはいずれも不正解でした。これらのモデルはo1のような深い思考を行なっていないため正解できないのではないかと思われます。
2025年1月末現在、大変話題になっているDeepSeekのr1及びV3はいずれも正解を出してきました。R1で正解するのは予想どおりですが、V3でも正解してきたのは意外でした。ChatGPTと肩を並べる性能と言われていますが、誇大表現ではないようです。
一方、意外に検討しているのがGoogleのGemma 2です。何回か確認しましたが9.9が大きいと回答してきます。今回使用したGemma 2はパラメータ数90億でローカルでも動作するサイズのLLMですが、それでもきちんと正解するのは大したものだと思います。余談ながらGemma 2は日本語の能力がとても高く、性格的にも明るい感じのモデルなのでお気に入りです。
ただ、Gemma 2に関しては会話の履歴によって結果が変化してしまうようです。例えば下記のようにロール設定を与えると、正解できなくなってしまいます。この辺りどのようなメカニズムかわかりませんが、この現象に再現性があることを確認しています。
Metaのllama 3.1 8Bはサイズ的には今回試したGemma 2と大きく変わらないですが、正解することはできませんでした。ただDeepSeek-R1の回答をベースに学習させた知識蒸留版(Distill)では正解することができました。DeepSeek-R1の性能が確かに引き継がれているようです。
さらに、アリババのqwenをDeepSeek-R1で蒸留したバージョンも試してみました。パラメータは14Bを試したかったのですが、なぜかJanでは14Bがうまく動作しないため、かなり小型の1.5Bを使用しました。今回試したモデルの中では最も小さいですが、それでも正答することができました。素晴らしい性能だと思います。(回答や生成過程の思考が中国語になってしまうので、Think in English, answer in japaneseを追加しました。それでも日本語、英語、中国語まじりの回答になっています。この辺はサイズが小さいため仕方ないところでしょう。)
まとめ
登場してからだいぶ日が経っているGemma 2 ですが、日本語性能の高さも含め意外と検討しています。また、ローカルLLMとしてはDeepSeek-R1を使って蒸留した小型モデルがかなり高性能で期待できそうです。DeepSeekの蒸留版で日本語性能の高いものが出てくると日本語話者にとっては魅力的ですね。