栄養学の質問、ChatGPTに聞いて大丈夫?——RAGで精度を検証した

AIChatGPTRAG栄養学精度検証

栄養学の質問、ChatGPTに聞いて大丈夫?——RAGで精度を検証した

「ヨウ素の過剰摂取で甲状腺機能が低下するのはなぜ?」「推定平均必要量と推奨量、どう使い分ける?」——国試対策や実務で浮かぶ疑問を、ChatGPTに投げかけたことはありませんか。便利な反面、「この回答、本当に正しいの?」と不安になることもあるはずです。

実は、汎用AIと栄養学専門のRAG(検索拡張生成)システムでは、回答精度に大きな差があることが分かっています。管理栄養士国家試験180問を使った検証では、専門RAG(Claude Haiku + aiyolabナレッジベース)が91.1%の正答率を記録した一方、GPT-4oは72.8%にとどまりました。約18ポイントの差——これは偶然ではなく、構造的な理由があります。

この記事では、なぜ汎用AIが栄養学で苦戦するのか、専門RAGがどう精度を高めているのかを、ベンチマーク結果をもとに解説します。

検証の枠組み:国試180問で何を測ったか

今回の検証では、管理栄養士国家試験の過去問から180問を抽出し、以下の2つのシステムに同じ問題を投げかけました。

  • Claude Haiku + aiyolabナレッジベース:栄養学の専門知識(食事摂取基準、ガイドライン、疾患別栄養管理など)を事前に学習させたRAGシステム
  • GPT-4o(汎用AI):追加の専門知識なし、標準の学習データのみで回答

国試は、基礎栄養学から臨床栄養、公衆栄養まで幅広い領域をカバーしているため、栄養学の実務知識を総合的に問う指標として適しています。結果は明確でした。Haiku+RAGは164問正解(91.1%)、GPT-4oは131問正解(72.8%)。33問の差は、単なる知識量の違いではなく、回答プロセスそのものの違いを示しています。

なぜ差がつくのか:汎用AIが抱える3つのリスク

汎用AIが栄養学で苦戦する理由は、大きく3つに整理できます。

出典の曖昧さが最も深刻です。ChatGPTは膨大なテキストから学習していますが、「この知識はどの文献から来たのか」を明示できません。たとえば「ヨウ素の耐容上限量は3,000μg/日」と答えても、それが食事摂取基準2020年版なのか、古い版なのか、あるいは海外の基準なのかが分かりません。栄養指導の現場では、根拠の出所が不明な情報は使えません。

数値の揺れも無視できません。たとえば推奨量や目安量は、性別・年齢・活動量によって細かく設定されています。汎用AIは「成人男性のビタミンB1推奨量は1.4mg」と答えるかもしれませんが、実際には18〜29歳と50〜64歳では数値が異なります。こうした細部の正確性は、国試では致命的です。

版の混在はさらに厄介です。食事摂取基準は2015年版、2020年版、そして2025年版(最新)と改訂されていますが、汎用AIは学習データの時期によって古い版を参照することがあります。「カルシウムの推奨量は〜」と答えても、それが2015年版の数値なのか2025年版なのかが曖昧なまま出力されることがあります。栄養学は基準が頻繁に更新される分野なので、版の違いは致命的な誤りにつながります。

専門RAGはどう精度を高めているか

RAG(Retrieval-Augmented Generation)は、質問を受けると、まず専門ナレッジベースから関連情報を検索し、その情報をもとに回答を生成します。aiyolabのシステムでは、食事摂取基準2025年版、日本人の食事摂取基準活用ガイドライン、疾患別栄養管理の最新知見などを構造化して保持しています。

たとえば「甲状腺機能低下とヨウ素の関係」について聞かれた場合、RAGは以下のような流れで回答します。

  1. ナレッジベースから「甲状腺」「ヨウ素」に関連するエントリを検索
  2. 「ヨウ素過剰→甲状腺機能低下(Wolff-Chaikoff効果)」という知識を取得
  3. 「日本は昆布文化で過剰側に注意」という文脈情報も併せて提示
  4. 出典(食事摂取基準2025年版)を明記して回答

このプロセスにより、出典が明確で、数値が正確で、版が最新の回答が生成されます。91.1%という正答率は、こうした構造的な精度の積み重ねによるものです。

実務での使い分け:何を汎用AIに聞き、何を専門RAGに聞くか

では、実務では汎用AIと専門RAGをどう使い分ければいいのでしょうか。

汎用AIは、概念の整理や大まかな理解には向いています。「無作為化比較試験とは何か」「エコロジカルモデルの5つのレベルを教えて」といった、定義や枠組みを知りたい場面では十分に機能します。また、文章の要約や言い換え、レポートの構成案など、栄養学以外のタスクでは強力です。

一方、専門RAGは、数値や基準が絡む実務判断で力を発揮します。「30歳女性のカルシウム推奨量は?」「特定保健用食品と機能性表示食品の違いは?」「陽性的中率と有病率の関係は?」といった、正確性が求められる場面では、出典つきで回答できるRAGが安全です。国試対策や栄養指導の下調べ、レポート作成の根拠確認には、専門RAGを使う方が確実です。

aiyolabで聞いてみた

このテーマをaiyolabのAIチャットに質問すると、食事摂取基準2025年版や日本人の食事摂取基準活用ガイドラインを根拠に、出典つきで回答が返ってきます。「ヨウ素の耐容上限量は?」「推定平均必要量と推奨量の使い分けは?」といった具体的な疑問に対して、版と出典を明記した形で確認できるので、レポートや栄養指導の下調べに使えます。

まとめ

汎用AIは便利ですが、栄養学のように出典・数値・版が重要な分野では、精度に限界があります。管理栄養士国試180問の検証では、専門RAGが91.1%、汎用AIが72.8%という結果が出ました。実務では、概念整理には汎用AI、数値や基準が絡む判断には専門RAGを使い分けることで、正確性と効率を両立できます。

食事摂取基準2025・食品成分表ベースのAI栄養ツール

aiyolabを無料で試す

無料で始める