栄養学の質問、ChatGPTに聞いて大丈夫？——RAGで精度を検証した

「ヨウ素の過剰摂取で甲状腺機能が低下するのはなぜ？」「推定平均必要量と推奨量、どう使い分ける？」——国試対策や実務で浮かぶ疑問を、ChatGPTに投げかけたことはありませんか。便利な反面、「この回答、本当に正しいの？」と不安になることもあるはずです。

実は、汎用AIと栄養学専門のRAG（検索拡張生成）システムでは、回答精度に大きな差があることが分かっています。管理栄養士国家試験180問を使った検証では、専門RAG（Claude Haiku + aiyolabナレッジベース）が91.1%の正答率を記録した一方、GPT-4oは72.8%にとどまりました。約18ポイントの差——これは偶然ではなく、構造的な理由があります。

この記事では、なぜ汎用AIが栄養学で苦戦するのか、専門RAGがどう精度を高めているのかを、ベンチマーク結果をもとに解説します。

検証の枠組み：国試180問で何を測ったか

今回の検証では、管理栄養士国家試験の過去問から180問を抽出し、以下の2つのシステムに同じ問題を投げかけました。

Claude Haiku + aiyolabナレッジベース：栄養学の専門知識（食事摂取基準、ガイドライン、疾患別栄養管理など）を事前に学習させたRAGシステム
GPT-4o（汎用AI）：追加の専門知識なし、標準の学習データのみで回答

国試は、基礎栄養学から臨床栄養、公衆栄養まで幅広い領域をカバーしているため、栄養学の実務知識を総合的に問う指標として適しています。結果は明確でした。Haiku+RAGは164問正解（91.1%）、GPT-4oは131問正解（72.8%）。33問の差は、単なる知識量の違いではなく、回答プロセスそのものの違いを示しています。

なぜ差がつくのか：汎用AIが抱える3つのリスク

汎用AIが栄養学で苦戦する理由は、大きく3つに整理できます。

出典の曖昧さが最も深刻です。ChatGPTは膨大なテキストから学習していますが、「この知識はどの文献から来たのか」を明示できません。たとえば「ヨウ素の耐容上限量は3,000μg/日」と答えても、それが食事摂取基準2020年版なのか、古い版なのか、あるいは海外の基準なのかが分かりません。栄養指導の現場では、根拠の出所が不明な情報は使えません。

数値の揺れも無視できません。たとえば推奨量や目安量は、性別・年齢・活動量によって細かく設定されています。汎用AIは「成人男性のビタミンB1推奨量は1.4mg」と答えるかもしれませんが、実際には18〜29歳と50〜64歳では数値が異なります。こうした細部の正確性は、国試では致命的です。

版の混在はさらに厄介です。食事摂取基準は2015年版、2020年版、そして2025年版（最新）と改訂されていますが、汎用AIは学習データの時期によって古い版を参照することがあります。「カルシウムの推奨量は〜」と答えても、それが2015年版の数値なのか2025年版なのかが曖昧なまま出力されることがあります。栄養学は基準が頻繁に更新される分野なので、版の違いは致命的な誤りにつながります。

専門RAGはどう精度を高めているか

RAG（Retrieval-Augmented Generation）は、質問を受けると、まず専門ナレッジベースから関連情報を検索し、その情報をもとに回答を生成します。aiyolabのシステムでは、食事摂取基準2025年版、日本人の食事摂取基準活用ガイドライン、疾患別栄養管理の最新知見などを構造化して保持しています。

たとえば「甲状腺機能低下とヨウ素の関係」について聞かれた場合、RAGは以下のような流れで回答します。

ナレッジベースから「甲状腺」「ヨウ素」に関連するエントリを検索
「ヨウ素過剰→甲状腺機能低下（Wolff-Chaikoff効果）」という知識を取得
「日本は昆布文化で過剰側に注意」という文脈情報も併せて提示
出典（食事摂取基準2025年版）を明記して回答

このプロセスにより、出典が明確で、数値が正確で、版が最新の回答が生成されます。91.1%という正答率は、こうした構造的な精度の積み重ねによるものです。

実務での使い分け：何を汎用AIに聞き、何を専門RAGに聞くか

では、実務では汎用AIと専門RAGをどう使い分ければいいのでしょうか。

汎用AIは、概念の整理や大まかな理解には向いています。「無作為化比較試験とは何か」「エコロジカルモデルの5つのレベルを教えて」といった、定義や枠組みを知りたい場面では十分に機能します。また、文章の要約や言い換え、レポートの構成案など、栄養学以外のタスクでは強力です。

一方、専門RAGは、数値や基準が絡む実務判断で力を発揮します。「30歳女性のカルシウム推奨量は？」「特定保健用食品と機能性表示食品の違いは？」「陽性的中率と有病率の関係は？」といった、正確性が求められる場面では、出典つきで回答できるRAGが安全です。国試対策や栄養指導の下調べ、レポート作成の根拠確認には、専門RAGを使う方が確実です。

aiyolabで聞いてみた

このテーマをaiyolabのAIチャットに質問すると、食事摂取基準2025年版や日本人の食事摂取基準活用ガイドラインを根拠に、出典つきで回答が返ってきます。「ヨウ素の耐容上限量は？」「推定平均必要量と推奨量の使い分けは？」といった具体的な疑問に対して、版と出典を明記した形で確認できるので、レポートや栄養指導の下調べに使えます。

まとめ

汎用AIは便利ですが、栄養学のように出典・数値・版が重要な分野では、精度に限界があります。管理栄養士国試180問の検証では、専門RAGが91.1%、汎用AIが72.8%という結果が出ました。実務では、概念整理には汎用AI、数値や基準が絡む判断には専門RAGを使い分けることで、正確性と効率を両立できます。

栄養学の質問、ChatGPTに聞いて大丈夫？——RAGで精度を検証した

栄養学の質問、ChatGPTに聞いて大丈夫？——RAGで精度を検証した

検証の枠組み：国試180問で何を測ったか

なぜ差がつくのか：汎用AIが抱える3つのリスク

専門RAGはどう精度を高めているか

実務での使い分け：何を汎用AIに聞き、何を専門RAGに聞くか

aiyolabで聞いてみた

まとめ

関連記事

米政府公式のAI栄養ツールがGrokだった日——汎用AIの栄養助言を、最新研究3本で確認した

ChatGPTに栄養の質問をしてはいけない理由と、代わりにやるべきこと

AIに管理栄養士の国試を科目別に解かせたら、4科目で満点だった話