2023年3月15日(日本時間)にGPT-4が発表され、ChatGPT Plusユーザーが先行して利用可能になりました!
主な特徴は下記の通り。
- ChatGPT を上回る高度な推論機能!
- 複雑な命令も入力可能!
- よりクリエイティブに!
ここで気になるのが、従来のGPT-3.5より「どれだけ推論能力が優れているか」。
そこで今回は「高度な推論機能」「複雑な命令の処理」において、GPT-4が従来のChatGPT(GPT-3.5)と比べてどれだけすごいのか検証してみました。
実際にChatGPTの画面付きで解説しているので、ぜひ最後までご覧ください。
結果を先に知りたい方はコチラから!
また、当サイトではオススメのAIライティングツールを紹介しています。興味のある方はコチラもぜひご覧ください。
\ChatGPTを仕事に活かす!/
ChatGPTを実際にビジネスの現場で活かすための方法が書かれている一冊!
ChatGPTを「文章作成」「Excel活用術」「英語学習」で活かす、具体的なプロンプトを紹介!
監修は、日本製AIライティングツール「Catchy(キャッチー)」開発者の古川渉一さん!
必要な時に辞書的に使える解説書です!
SPIの推論問題で検証
今回は就職試験の際に使われているSPIの推論問題で検証していきます。GPT-4とGPT-3.5にそれぞれ入力し、回答を生成してもらいます。検証するのは下記の7種類の推論問題。
- 正誤
- 対戦
- 割合
- 整数
- 平均
- 位置関係
- 順序
今回は公平性を保つため、それぞれ1回目に生成された回答を検証していきます。
正誤
【問題】
X、Y、Zが同じ絵を見てて、次のように発言した。
X この絵には虎が描かれている。
Y この絵には少なくとも虎か龍が描かれている。
Z この絵には龍が描かれている。
全員が本当のことを言っているとは限らない。そこで、以下の推論がなされた。次のうち正しいものを一つ選びなさい。
<選択肢>
A.Yが正しければXは必ず正しい
B.Zが正しければYは必ず正しい
C .Xが正しければZは必ず正しい
【解答・解説】
B. Zが正しければYは必ず正しい
Yが正しいとしても、虎が入っていることは分からないため、Xは必ずしも正しくない。
Zが正しいとき、少なくとも龍は入っているため、Yは正しい。
Xが正しいとしても、龍が入っていることは分からないため、Zは必ずしも正しくない。
【解答・解説】
B. Zが正しければYは必ず正しい
Yが正しいとしても、虎が入っていることは分からないため、Xは必ずしも正しくない。
Zが正しいとき、少なくとも龍は入っているため、Yは正しい。
Xが正しいとしても、龍が入っていることは分からないため、Zは必ずしも正しくない。
https://spi.careermine.jp/higengo/inference
それでは検証していきます。
GPT-3.5(デフォルト)の回答
まずは、従来のGPT-3.5。
回答は「A.Yが正しければXは必ず正しい」でした。よって不正解になります。回答の後に根拠が2つ提示されていました。それぞれ見ていきます。
GPT-3.5の回答:
Yが正しいということは、少なくとも虎か龍が描かれているということです。そして、Xが言うようにこの絵に虎が描かれているということは、虎か龍のうち少なくとも虎が描かれているということを意味します。つまり、Yが正しければXも正しいということになります。
→少なくとも虎か龍が描かれているが正しい時、必ず虎が描かれているとは限らない。よって上記の根拠は×。
GPT-3.5の回答:
一方で、Zが正しいからと言ってYが必ず正しいとは限りません。Zが龍が描かれていると言っているだけで、虎が描かれているかどうかは分かりません。同様に、Xが正しいからと言ってZが必ず正しいとも限りません。虎が描かれているということは、龍が描かれているとは限りません。
→龍が描かれている。が正しいとき、少なくとも虎か龍が描かれているは、必ず正しい。よって、上記の根拠は×。
残念ながら根拠も間違っています…
GPT-4の回答
では次に、今回利用可能になったGPT-4に同じ問題を解いてもらいます。
回答は「B.Zが正しければYは必ず正しい」でした。よって正解になります。
GPT-4の回答の根拠:
1.Yが正しければXは必ず正しい
・Yが正しいと仮定すると、絵には虎か龍が描かれていることが分かります。ただし、これだけではXの発言(絵に虎が描かれている)が正しいかどうかは判断できません。従って、この選択肢は正しくありません。
2.Zが正しければYは必ず正しい
・Zが正しいと仮定すると、絵には龍が描かれていることが分かります。Yの発言は、「絵には少なくとも虎か龍が描かれている」と言っており、絵に龍が描かれていることが確定した場合、Yの発言も正しいことになります。従って、この選択肢は正しいです。
3.Xが正しければZは必ず正しい
・Xが正しいと仮定すると、絵には虎が描かれていることが分かります。ただし、これだけではZの発言(絵に龍が描かれている)が正しいかどうかは判断できません。従って、この選択肢は正しくありません。
GPT-4は正解しました。回答の根拠もしっかりしてます。どんどん検証していきましょう。
対戦
【問題】
X、Y、Z、Wの4人がテニスのリーグ戦をおこなった。勝敗について以下のことがわかっている。
Ⅰ YはXだけに負けた。
Ⅱ WはXに勝った
必ず正しいといえる推論はどれか。AからHで1つ選びなさい。ただし、引き分けはないものとする。
ア Xが1勝2敗なら、Wも1勝2敗
イ Zが全敗なら、Xは2勝1敗
ウ Wが1勝2敗なら、Xは2勝1敗
<選択肢>
A.アだけ
B.イだけ
C.ウだけ
D.アとイ
E.アとウ
F.イとウ
G.アとイとウ
H.正しい推論はないYが正しければXは必ず正しい
【解答・解説】
B. イだけ
以上の図を参照する。
ア Xが1勝2敗なら、Wも1勝2敗 ←①が×で確定するが、②が確定しない
イ Zが全敗なら、Xは2勝1敗 ←①も②も×で確定する
ウ Wが1勝2敗なら、Xは2勝1敗 ←②が×で確定するが、①が確定しない
従ってイのみ正しい。
https://spi.careermine.jp/higengo/inference
GPT-3.5(デフォルト)の回答
回答は「C. ウだけ」。不正解。
GPT-4の回答
回答は「イだけ」。正解です。
根拠の表現方法に若干の違和感がありますが、正解です
割合
【問題】
あるラーメン屋の売上について調べたところ、前の月に対して20%ずつ増えている。この時、次の推論について述べたものとして、AからCの中で正しいものを1つ選べ。
・このラーメン屋の売上は、この2ヶ月間で40%増加した
<選択肢>
A.正しい
B.どちらともいえない
C.誤り
【解答・解説】
C. 誤り
2ヶ月前を100とおくと、
1ヶ月後 100×1.2=120
2ヶ月後 120×1.2=144
と増加していくので、2ヶ月では最初より44%増加したことになる。
https://spi.careermine.jp/higengo/inference
GPT-3.5(デフォルト)の回答
不正解
GPT-4の回答
正解
整数
【問題】
P、Q、Rはそれぞれボールを持っていて、次のことがわかっている。
Ⅰ 3人合わせて8個のボールを持っている。
Ⅱ PとQは同じ個数のボールを持っている。
Ⅲ RはPの2倍のボールを持っている。
このとき、Rは何個のボールを持っているか。
<選択肢>
A.1
B.2
C.4
D.5
E.6
【解答・解説】
C. 4
Ⅱ、Ⅲの情報から、P=xとおくと、Q=x 、R=2xとなる。
さらにⅠの情報よりボールの個数の総和が8個だから、x + x +2x = 8 より、x=2であり、Rの持っている個数は4個。
https://spi.careermine.jp/higengo/inference
GPT-3.5(デフォルト)の回答
正解
GPT-3.5がここで初めて正解しました!
GPT-4の回答
正解
平均
【問題】
P、Q、R、Sの4人が100点満点のカラオケの採点をしたところ、次の結果になった。
Ⅰ 4人の平均点は60点だった。
Ⅱ QとRの平均点は50点であった。
Ⅲ SはPよりも10点高かった。
このとき、必ず正しいといえる推論の組み合わせはどれか。
<選択肢>
A.アだけ
B.イだけ
C.ウだけ
D.アとイ
E.アとウ
F.イとウ
G.アとイとウ
H.正しい推論はない。
【解答・解説】
C. ウだけ
ア: SとQの点数の上下関係は分からないので、必ずしも正しいとは限らない。
イ: 少なくともQとRの点数の上下関係は分からないので、必ずしも正しいとは限らない。
ウ: 4人の合計点は60×4=240点。QとRの合計点は50×2=100点。よって、PとSの合計点は240-100=140点。よって、Sは、(140+10)÷2 = 75点。QとRの平均点は50点なので少なくともどちらかは75点以下である。よって、これは正しい。
https://spi.careermine.jp/higengo/inference
GPT-3.5(デフォルト)の回答
不正解
GPT-4の回答
不正解
GPT-4がここで初の不正解です
位置関係
【問題】
X 、Y、Zの3人が、円形に並んだ4つの席のいずれかに座っている。各自の座り方について、次のことが分かっている。
Ⅰ XとYは隣り合っていた。
Ⅱ 数字の2番の席は空席だった。
Zが座った可能性のある席の番号はいくつか。
<選択肢>
A.1
B.3
C.4
D.1か3
E.1か4
F.3か4
【解答・解説】
D. 1か3
2番が空席でXとYが隣り合っているので、XとYは(1、4)(4、3)の組み合わせで座っている。よって、Zは1か3。
https://spi.careermine.jp/higengo/inference
図の内容はChatGPTに入力できないので、「時計回りに1,2,3,4とする」という条件を追加。
GPT-3.5(デフォルト)の回答
正解
GPT-4の回答
正解
順序
【問題】
PQRSの4人チームで毎年恒例のサッカーの総当たり戦が行われた。
順位に関して次のことが分かっている。なお、同じ順位のチームはない。
Ⅰ Pは昨年より順位が3つ下だった。
Ⅱ Qは今年と昨年で順位が変わらなかった。
Ⅲ Rは今年2位であった。
今年の順位を左が上位として並べたとき、ただしいものを選べ。
<選択肢>
A.SRPQ
B.SRQP
C.PRSQ
D.RPQS
【解答・解説】
B. SRQP
Ⅰ、Ⅲより、次のことが分かる。
昨年 P〇〇〇 今年 〇R〇P
これとⅡより、次のことが分かる。
昨年 P〇Q〇 今年 〇RQP
よって、今年はSRQP
https://spi.careermine.jp/higengo/inference
GPT-3.5(デフォルト)の回答
不正解。
GPT-4の回答
GPT-4の回答もA.で不正解でした。
なんと!回答までの根拠は合っているのに最後の最後で選択肢を間違えるというケアレスミス…。人間味を感じる結果となりました。
GPT-4 vs GPT-3.5 結果発表
GPT- 4 | GPT- 3.5 | |
---|---|---|
正誤 | ||
対戦 | ||
割合 | ||
整数 | ||
平均 | ||
位置関係 | ||
順序 | ||
正解率 | 71.4% | 28.5% |
推論力 | ||
回答の根拠 | ||
回数制限 | 3時間ごとに 25回まで | 制限 なし |
1問あたり 平均生成時間 | 約40秒 | 約8.6秒 |
まとめ
今回はGPT-4とGPT-3.5を比較して推論力の検証をしました。残念ながらGPT-4が全問正解することはできませんでしたが、7割以上の正解率を叩き出しました。
一方、GPT-3.5は生成スピードがすごい。GPT-4の約5倍の速さで生成できました。今後GPT-4の推論力でGPT-3.5のスピードが出たら最高ですね!
引き続き当サイトではChatGPTの使い方を検証していきます。今回の検証の感想や、何か検証してほしいこと等リクエストがありましたらツイッターにてメッセージをいただけますと幸いです。
また、ChatGPT Plusを始めていない方は、ChatGPTの概要・使い方・よくある質問を課金ユーザーが解説!で始め方を紹介していますので、ぜひ参考にしてみてください。
最後まで読んでいただきありがとうございました