AIに管理栄養士の国試を科目別に解かせたら、4科目で満点だった話
AIに管理栄養士の国試を科目別に解かせたら、4科目で満点だった話
自分が作ったAI(aiyolab)に管理栄養士国家試験の過去問180問を解かせたら、全体で91.7%(165/180問)正解しました。
「すごいじゃん」で終わらせてもいいんですが、科目別に見るともっと面白い景色が見えてきます。AIが得意な分野と苦手な分野、かなりはっきり分かれました。
科目別の結果
各科目20問ずつ、合計9科目で解かせた結果がこちらです。サンプル数が20問なので統計的に完璧とは言えませんが、傾向ははっきり出ています。
- 人体の構造と機能及び疾病の成り立ち:20/20(100%)
- 基礎栄養学:20/20(100%)
- 栄養教育論:20/20(100%)
- 臨床栄養学:20/20(100%)
- 給食経営管理論:19/20(95%)
- 社会・環境と健康:18/20(90%)
- 公衆栄養学:17/20(85%)
- 応用栄養学:17/20(85%)
- 食べ物と健康:14/20(70%)
4科目で100%。でも「食べ物と健康」は70%しか取れていません。
AIが100%取れた科目の共通点
満点だった4科目には、ある共通点があります。
知識が体系的に整理されている分野だということです。
「人体の構造と機能」は医学・生理学の教科書に体系的にまとまっています。「基礎栄養学」も栄養素の代謝経路が教科書ごとに大きく変わることはありません。「臨床栄養学」はガイドラインが明確。「栄養教育論」は理論体系(行動変容モデル等)が確立されています。
要するに、「正解が一つに定まる」問題をAIは得意としているということです。
なぜ「食べ物と健康」が70%なのか
逆にワーストだった「食べ物と健康」は、食品学・食品加工学・調理学など守備範囲が広すぎる科目です。
具体的にAIが間違えたパターンは以下の通りです。
- 食品成分の細かい数値(「この食品のビタミンC含有量は?」系)
- 加工食品の製法の細部(「この工程で何度で何分加熱するか」系)
- 食品衛生に関する最新の規制改正
これは暗記量がモノを言う領域です。教科書に体系化されにくい個別の事実の集積で、RAG(検索拡張生成)で参照するチャンクも粒度が細かくなりすぎて精度が落ちます。
人間の受験生もこの科目は「ひたすら暗記」で乗り切る人が多いはずです。AIも同じところで苦しんでいるのは、ちょっと面白いなと思いました。
85.6%から91.7%まで何をしたか
最初のベンチマークは85.6%(154/180問)でした。そこから約2日間で91.7%まで引き上げています。
やったことはいくつかありますが、一番効いたのは**「推論ルート」をRAGに埋め込んだこと**です。
普通のRAGは「知識」を検索して渡します。でも国試の問題って、知識があるだけじゃ解けないものも多い。「AとBを混同しやすい」「この選択肢はこう考えると消去できる」みたいな、解き方のコツのようなものが必要です。
そこで、AIが間違えた問題を分析して、「ここでこう考えれば正解にたどり着ける」という推論パターン自体をチャンクとしてRAGに格納しました。
これが特に栄養教育論で効きました。改善前は70%だったのが100%まで上がっています。
AIの得意・不得意を知ると、使い方が変わる
この結果を見ると、「AIに丸投げすればOK」とも「AIは使い物にならない」とも言えないことがわかります。
AIが100%取れる科目は、AIに任せて自分は苦手科目に集中する、という使い分けができる。70%の科目は、AIの回答を鵜呑みにせず自分で確認する必要がある。aiyolabでは科目ごとの精度差があることを前提に、AIの回答には必ず根拠の出典を表示するようにしています。
科目別の精度を公開するのは、使う人が「どこまで信頼していいか」を自分で判断できるようにしたいからです。
AIの精度を隠す必要はないと思っています。強いところも弱いところも見せたうえで、それでも使いたいと思ってもらえるプロダクトにしたい。
次は「食べ物と健康」の精度を上げるのが目標です。