【検証】GPT4 vs. GPT3.5！推論問題で対決！

2025年10月29日

当ページのリンクには広告が含まれています。

2023年3月15日（日本時間）にGPT-4が発表され、ChatGPT Plusユーザーが先行して利用可能になりました！

SPIの推論問題で検証

今回は就職試験の際に使われているSPIの推論問題で検証していきます。GPT-4とGPT-3.5にそれぞれ入力し、回答を生成してもらいます。検証するのは下記の7種類の推論問題。

正誤
対戦
割合
整数
平均
位置関係
順序

今回は公平性を保つため、それぞれ1回目に生成された回答を検証していきます。

正誤

【問題】

X、Y、Zが同じ絵を見てて、次のように発言した。

X　この絵には虎が描かれている。

Y　この絵には少なくとも虎か龍が描かれている。

Z　この絵には龍が描かれている。

全員が本当のことを言っているとは限らない。そこで、以下の推論がなされた。次のうち正しいものを一つ選びなさい。

＜選択肢＞

A．Yが正しければXは必ず正しい

B．Zが正しければYは必ず正しい

C ．Xが正しければZは必ず正しい

【解答・解説】

B. Zが正しければYは必ず正しい

Yが正しいとしても、虎が入っていることは分からないため、Xは必ずしも正しくない。

Zが正しいとき、少なくとも龍は入っているため、Yは正しい。

Xが正しいとしても、龍が入っていることは分からないため、Zは必ずしも正しくない。

【解答・解説】

B. Zが正しければYは必ず正しい

Yが正しいとしても、虎が入っていることは分からないため、Xは必ずしも正しくない。

Zが正しいとき、少なくとも龍は入っているため、Yは正しい。

Xが正しいとしても、龍が入っていることは分からないため、Zは必ずしも正しくない。
https://spi.careermine.jp/higengo/inference

それでは検証していきます。

GPT-3.5（デフォルト）の回答

まずは、従来のGPT-3.5。

回答は「A．Yが正しければXは必ず正しい」でした。よって不正解になります。回答の後に根拠が2つ提示されていました。それぞれ見ていきます。

GPT-3.5の回答：
Yが正しいということは、少なくとも虎か龍が描かれているということです。そして、Xが言うようにこの絵に虎が描かれているということは、虎か龍のうち少なくとも虎が描かれているということを意味します。つまり、Yが正しければXも正しいということになります。
→少なくとも虎か龍が描かれているが正しい時、必ず虎が描かれているとは限らない。よって上記の根拠は×。

GPT-3.5の回答：
一方で、Zが正しいからと言ってYが必ず正しいとは限りません。Zが龍が描かれていると言っているだけで、虎が描かれているかどうかは分かりません。同様に、Xが正しいからと言ってZが必ず正しいとも限りません。虎が描かれているということは、龍が描かれているとは限りません。
→龍が描かれている。が正しいとき、少なくとも虎か龍が描かれているは、必ず正しい。よって、上記の根拠は×。

ダニエル

残念ながら根拠も間違っています…

GPT-4の回答

では次に、今回利用可能になったGPT-4に同じ問題を解いてもらいます。

回答は「B．Zが正しければYは必ず正しい」でした。よって正解になります。

GPT-4の回答の根拠：
1.Yが正しければXは必ず正しい
・Yが正しいと仮定すると、絵には虎か龍が描かれていることが分かります。ただし、これだけではXの発言（絵に虎が描かれている）が正しいかどうかは判断できません。従って、この選択肢は正しくありません。

2.Zが正しければYは必ず正しい
・Zが正しいと仮定すると、絵には龍が描かれていることが分かります。Yの発言は、「絵には少なくとも虎か龍が描かれている」と言っており、絵に龍が描かれていることが確定した場合、Yの発言も正しいことになります。従って、この選択肢は正しいです。

3.Xが正しければZは必ず正しい
・Xが正しいと仮定すると、絵には虎が描かれていることが分かります。ただし、これだけではZの発言（絵に龍が描かれている）が正しいかどうかは判断できません。従って、この選択肢は正しくありません。

ダニエル

GPT-4は正解しました。回答の根拠もしっかりしてます。どんどん検証していきましょう。

対戦

【問題】

X、Y、Z、Wの4人がテニスのリーグ戦をおこなった。勝敗について以下のことがわかっている。

Ⅰ　YはXだけに負けた。

Ⅱ　WはXに勝った

必ず正しいといえる推論はどれか。AからHで1つ選びなさい。ただし、引き分けはないものとする。

ア　Xが1勝2敗なら、Wも1勝2敗

イ　Zが全敗なら、Xは2勝1敗

ウ　Wが1勝2敗なら、Xは2勝1敗

＜選択肢＞

A.アだけ

B.イだけ

C.ウだけ

D.アとイ

E.アとウ

F.イとウ

G.アとイとウ

H.正しい推論はないYが正しければXは必ず正しい

【解答・解説】

B. イだけ

以上の図を参照する。

ア　Xが1勝2敗なら、Wも1勝2敗　←①が×で確定するが、②が確定しない

イ　Zが全敗なら、Xは2勝1敗　←①も②も×で確定する

ウ　Wが1勝2敗なら、Xは2勝1敗　←②が×で確定するが、①が確定しない

従ってイのみ正しい。
https://spi.careermine.jp/higengo/inference

GPT-3.5（デフォルト）の回答

回答は「C. ウだけ」。不正解。

GPT-4の回答

回答は「イだけ」。正解です。

ダニエル

根拠の表現方法に若干の違和感がありますが、正解です

割合

【問題】

あるラーメン屋の売上について調べたところ、前の月に対して20%ずつ増えている。この時、次の推論について述べたものとして、AからCの中で正しいものを1つ選べ。

・このラーメン屋の売上は、この2ヶ月間で40%増加した

＜選択肢＞

A.正しい

B.どちらともいえない

C.誤り

【解答・解説】

C. 誤り

2ヶ月前を100とおくと、

1ヶ月後　100×1.2=120

2ヶ月後　120×1.2=144

と増加していくので、2ヶ月では最初より44%増加したことになる。
https://spi.careermine.jp/higengo/inference

GPT-3.5（デフォルト）の回答

不正解

GPT-4の回答

正解

整数

【問題】

P、Q、Rはそれぞれボールを持っていて、次のことがわかっている。

Ⅰ　3人合わせて8個のボールを持っている。

Ⅱ　PとQは同じ個数のボールを持っている。

Ⅲ　RはPの2倍のボールを持っている。

このとき、Rは何個のボールを持っているか。

＜選択肢＞

A.1

B.2

C.4

D.5

E.6

【解答・解説】

C. 4

Ⅱ、Ⅲの情報から、P=xとおくと、Q=x 、R=2xとなる。

さらにⅠの情報よりボールの個数の総和が8個だから、x + x +2x = 8 より、x=2であり、Rの持っている個数は4個。
https://spi.careermine.jp/higengo/inference

GPT-3.5（デフォルト）の回答

正解

ダニエル

GPT-3.5がここで初めて正解しました！

GPT-4の回答

正解

平均

【問題】

P、Q、R、Sの4人が100点満点のカラオケの採点をしたところ、次の結果になった。

Ⅰ　4人の平均点は60点だった。

Ⅱ　QとRの平均点は50点であった。

Ⅲ　SはPよりも10点高かった。

このとき、必ず正しいといえる推論の組み合わせはどれか。

＜選択肢＞

A.アだけ

B.イだけ

C.ウだけ

D.アとイ

E.アとウ

F.イとウ

G.アとイとウ

H.正しい推論はない。

【解答・解説】

C. ウだけ

ア: SとQの点数の上下関係は分からないので、必ずしも正しいとは限らない。

イ: 少なくともQとRの点数の上下関係は分からないので、必ずしも正しいとは限らない。

ウ: 4人の合計点は60×4＝240点。QとRの合計点は50×2＝100点。よって、PとSの合計点は240－100=140点。よって、Sは、(140＋10)÷2 = 75点。QとRの平均点は50点なので少なくともどちらかは75点以下である。よって、これは正しい。
https://spi.careermine.jp/higengo/inference

GPT-3.5（デフォルト）の回答

不正解

GPT-4の回答

不正解

ダニエル

GPT-4がここで初の不正解です

位置関係

【問題】

X 、Y、Zの3人が、円形に並んだ４つの席のいずれかに座っている。各自の座り方について、次のことが分かっている。

Ⅰ　XとYは隣り合っていた。

Ⅱ　数字の2番の席は空席だった。

Zが座った可能性のある席の番号はいくつか。

＜選択肢＞

A.1

B.3

C.4

D.１か３

E.１か４

F.３か４

【解答・解説】

D. １か３

2番が空席でXとYが隣り合っているので、XとYは（１、４）（４、３）の組み合わせで座っている。よって、Zは１か３。
https://spi.careermine.jp/higengo/inference

図の内容はChatGPTに入力できないので、「時計回りに1,2,3,4とする」という条件を追加。

GPT-3.5（デフォルト）の回答

正解

GPT-4の回答

正解

順序

【問題】

ＰＱＲＳの4人チームで毎年恒例のサッカーの総当たり戦が行われた。

順位に関して次のことが分かっている。なお、同じ順位のチームはない。

Ⅰ　Ｐは昨年より順位が3つ下だった。

Ⅱ　Ｑは今年と昨年で順位が変わらなかった。

Ⅲ　Ｒは今年2位であった。

今年の順位を左が上位として並べたとき、ただしいものを選べ。

＜選択肢＞

A.SRPQ

B.SRQP

C.PRSQ

D.RPQS

【解答・解説】

B. SRQP

Ⅰ、Ⅲより、次のことが分かる。

昨年　Ｐ〇〇〇　今年　〇Ｒ〇Ｐ

これとⅡより、次のことが分かる。

昨年　Ｐ〇Ｑ〇　今年　〇ＲＱＰ

よって、今年はＳＲＱＰ
https://spi.careermine.jp/higengo/inference

GPT-3.5（デフォルト）の回答

不正解。

GPT-4の回答

GPT-4の回答もA.で不正解でした。

ダニエル

なんと！回答までの根拠は合っているのに最後の最後で選択肢を間違えるというケアレスミス…。人間味を感じる結果となりました。

GPT-4 vs GPT-3.5 結果発表

スクロールできます

	GPT- 4	GPT- 3.5
正誤
対戦
割合
整数
平均
位置関係
順序
正解率	71.4％	28.5％
推論力
回答の根拠
回数制限	3時間ごとに 25回まで	制限なし
１問あたり平均生成時間	約40秒	約8.6秒

GPT-4とGPT-3.5の回答結果

まとめ

今回はGPT-4とGPT-3.5を比較して推論力の検証をしました。残念ながらGPT-4が全問正解することはできませんでしたが、7割以上の正解率を叩き出しました。

ダニエル

一方、GPT-3.5は生成スピードがすごい。GPT-4の約5倍の速さで生成できました。今後GPT-4の推論力でGPT-3.5のスピードが出たら最高ですね！

引き続き当サイトではChatGPTの使い方を検証していきます。今回の検証の感想や、何か検証してほしいこと等リクエストがありましたらツイッターにてメッセージをいただけますと幸いです。

また、ChatGPT Plusを始めていない方は、ChatGPTの概要・使い方・よくある質問を課金ユーザーが解説！で始め方を紹介していますので、ぜひ参考にしてみてください。

ダニエル

最後まで読んでいただきありがとうございました