米政府公式のAI栄養ツールがGrokだった日——汎用AIの栄養助言を、最新研究3本で確認した

2026年1月7日、米国保健福祉省（HHS）長官のロバート・F・ケネディ・ジュニア氏と、米国農務省（USDA）長官のブルック・ロリンズ氏は、新しい「米国民のための食事ガイドライン2025-2030」を発表しました。同時に立ち上げられた公式サイト realfood.gov には、消費者の食事計画・買い物・調理を支援するAIツールが組み込まれています。

そのAIツールは、Grok でした。

採用を公表したのは、FDAの食品プログラム責任者 Kyle Diamantas 氏。「AIの統合により、親と消費者に明確で簡潔な回答を提供する」とX上で説明されました。サイト本体の開発は、National Design Studio が担当しています。

私は栄養領域でAIを扱うサービス（aiyolab）を運営している立場から、このニュースを見たときに「米国政府は、汎用 AI チャットボットの栄養精度をどこまで検証して採用したのか」が一番気になりました。同じ時期に、汎用 AI の栄養助言精度を測った査読論文が複数本出ていたからです。

この記事では、realfood.gov + Grok の話を入口に、汎用 AI が栄養助言に向かない理由を、2024〜2026年の研究3本で確認していきます。

realfood.gov とGrokの中身

新しい食事ガイドラインは、HHSとUSDAが「米国の連邦栄養政策の歴史的なリセット」と位置付けています。中核メッセージは「Eat Real Food（本物の食べ物を食べよう）」。添加糖の制限と超加工食品の削減は、現行の研究エビデンスでも支持されている方向です。

一方、新しい食ピラミッドの中身については、批判も並んでいます。米国の医療メディア STAT が2026年2月10日付の検証記事で取り上げたポイントを引きます。

飽和脂肪と動物性タンパク質を強調する構成は、長年積み上がってきたエビデンスと矛盾する部分がある
realfood.gov の Grok ベースAIに「妊娠中の葉酸はサプリメントで取るべきか」と尋ねたところ、食事のみで葉酸を満たせる可能性を示唆する回答を返した。実際の医療ガイドラインでは、妊娠期はサプリメントによる葉酸補給が推奨されている
栄養政策研究者 Alyssa Moran 氏は「生成 AI は肥満に関するステレオタイプを永続化させる可能性があり、広範な公開使用の前にさらにテストが必要だ」とコメント

「葉酸はサプリで」というのは、神経管閉鎖障害（二分脊椎など）のリスク低減の文脈で、世界中の医療機関がほぼ例外なく推奨している基本中の基本です。米国疾病対策センター（CDC）も、妊娠を計画している女性は1日400マイクログラムの葉酸をサプリメントで摂取することを推奨しています。

ここを汎用 AI が踏み外すというのは、栄養助言を AI に任せる際に何が起きうるか、を非常に分かりやすく示す事例です。

ここから先、その「何が起きうるか」を、研究レベルでもう少し細かく見ていきます。

研究1：透析患者向けChatGPT-4は、リンを54%、カリウムを49%過小評価していた

最初に紹介するのは、2024年に米国の医学誌 Journal of Renal Nutrition に掲載された研究です（ScienceDirect 掲載、論文タイトル「AI dietician: Unveiling the accuracy of ChatGPT's nutritional estimations」、PubMed ID 38194819）。

研究チームは、ChatGPT-4 に透析患者向けの食事を計算させ、専門の管理栄養士が同じ食事について算出した数値と比較しました。透析患者の場合、リン・カリウム・ナトリウムの管理を1日数十ミリグラム単位で間違えると、心停止のリスクに直結します。

論文が出した数字は、率直に言って厳しいです。

カロリー：36%過小評価（95%CI 44-88%）
タンパク質：28%過小評価（25-167%）
脂肪：48%過小評価（29-81%）
リン：54%過小評価（15-102%）
カリウム：49%過小評価（40-68%）
ナトリウム：53%過小評価（14-139%）

リン・カリウムの誤差が約半分というのは、慢性腎臓病（CKD）の食事管理においては許容できる水準ではありません。透析患者にとってのカリウム・リンは、健康な人にとってのカロリーや塩分よりも遥かにシビアな指標です。論文の結論部は、「ChatGPT-4 は多様な透析患者への個別化された栄養助言を提供する可能性を示すが、改善が必要であり、特に医学的用途における AI 生成内容の質的・量的評価が重要」とまとめています。

学術論文の慎重な言い回しに翻訳すれば、「今のままの汎用 AI を医療領域の栄養助言に使うのは危険」という結論に、私には読めました。

研究2：Frontiers in Nutrition 2026年3月、AIは10代の食事プランを700kcal/日過小評価していた

次は、2026年3月に Frontiers in Nutrition に掲載された、トルコの研究チームによる比較研究です。Frontiers の公式ニュースリリースのタイトルは「Teens using AI meal plans could be eating too few calories — equivalent to skipping a meal」。

研究チームは、過体重・肥満の10代向けの食事プランを、5つの AI モデルに作成させました。

ChatGPT 4
Gemini 2.5 Pro
Bing Chat-5GPT
Claude 4.1
Perplexity

そのうえで、登録管理栄養士が作成したプランと比較しました。

主な結果はこうでした。

AI生成の食事プランは、推奨カロリー目標を1日あたり約700kcal下回っていた（食事1回分に相当する量）
タンパク質と脂肪の比率は推奨より高く、炭水化物の比率は推奨より低かった
5モデルの間で精度に差はあったが、いずれも管理栄養士のプランには及ばなかった

論文では、AIモデルがこの傾向を示す理由として、「AIモデルは、臨床的に正確な回答ではなく、もっともらしく（plausible）ユーザーフレンドリーに見える回答を生成するように訓練されている。年齢別の栄養必要量を完全に統合するよりも、一般化された人気の食事パターンに依存しがち」と説明されています。

10代の場合、無意識のカロリー制限は摂食障害リスクに直結します。Frontiers のリリースでも、「このような過度に制限的な食事プランをティーンエイジャー期に続けると、成長・代謝・食行動に悪影響を与える可能性」と警告されています。

主要メディアも追従しました。CNN は2026年3月16日付で「Teens using AI to diet may be told to eat almost 700 fewer daily calories than they need」、医療系サイトの Drugs.com、US News、Medical Xpress なども同じ研究を報じています。

研究3：慢性疾患向けChatGPT、適応症ごとに精度が55〜73%に分かれた

3本目は、汎用 AI が一般的な慢性疾患の食事ガイダンスを出す際の精度を測った既往研究のラインです（複数本あり）。糖尿病・脂肪肝・肥満・心血管疾患など、生活習慣病として読者に身近な疾患を扱う場合でも、ChatGPT の正答率は **約55〜73%**に分布しています。

55〜73% の幅は、ほぼ毎回どこかしら間違える水準です。栄養士・医師の介在なしにこれを最終助言として使うと、4回に1回〜半分は誤情報を読者に届けることになります。

「90% 以上当たれば実用」と感覚的に思いやすいAIですが、医療隣接領域では2割の誤りでも事故率としては大きすぎる、という認識が必要です。

共通する構造：plausibilityに最適化されたAIは、栄養数字には弱い

3本の研究を並べて見えてくるのは、汎用 LLM の訓練設計と、栄養助言に必要な精度の方向が合っていない、という構造的な問題です。

汎用 LLM は、人間にとって自然で読みやすい文章を生成するように学習されています。「ユーザーフレンドリー」「もっともらしい」「ヘッジが効いた」回答は得意です。一方、栄養助言で要求されるのは、最新版の食事摂取基準への準拠、年齢・性別・疾患による個別化、サプリメント vs 食物の使い分け、数値の単位精度です。

この2つは、ときに正反対の方向を向きます。「妊婦は葉酸を食事から取れる可能性がある」は、文章としてはもっともらしく書けます。実装としても汎用 LLM はこれを得意とします。ただ、栄養助言としては落第です。読者は「妊婦は葉酸を食事から取れるんだ」と読めば、サプリを買わずに帰る判断をしうる。それは医療事故に近い構造です。

realfood.gov + Grok の事例が示しているのは、この構造的なズレを、政府レベルでも軽く見積もっているケースがあるということです。米政府は、汎用AIをそのまま栄養助言の入口に置きました。検証は事後の研究者・医療メディアに任されている。

それでも汎用AIが栄養相談に使われ続ける理由

これだけのリスクが知られていても、ChatGPT・Gemini・Grok・Claude のような汎用 AI は、栄養相談に使われ続けると思います。理由は単純で、「便利」だからです。

24時間いつでも質問できる
無料 or 低コスト
文章として読みやすい
専門家にいきなり聞きづらい話を聞ける

これは、汎用 AI が悪いのではなく、栄養助言にアクセスしづらい現実が背景にあります。日本で言えば、管理栄養士は約 27万人いますが、栄養相談を仕事として日常的に提供している人はごく一部です。米国の登録管理栄養士（RD）は約 11万人。需要に比べて供給が圧倒的に少ない領域です。

汎用 AI は、その隙間を埋める存在として、すでに現場で使われている。問題は、使われていることそれ自体ではなく、「今のままの汎用 AI が、その役割を果たすには精度が足りていない」ことです。

私たちが aiyolab で作っているもの

私自身、栄養領域 AI のサービス（aiyolab）を運営しています。aiyolab は、汎用 LLM 単体ではなく、食事摂取基準2025年版・国試過去問・厚労省ガイドライン等を出典として埋め込んだ専用RAG（Retrieval-Augmented Generation）の構成で動いています。回答ごとに「どの資料の何ページに基づいているか」を出典として開示する設計です。

この設計は、研究1〜3で出ている「数字精度の低さ」「年齢・疾患別の個別化不足」「もっともらしい回答に流れる傾向」という3つの構造的弱点に対する答えです。出典資料が固定され、最新版に紐づき、検証可能であれば、汎用 AI のplausibility最適化に引きずられにくくなる。

これは「aiyolab がすごい」という話ではなくて、栄養領域でAIを使うのであればこの程度の最低条件をクリアしないと、現場での実用に持っていけない、という設計上の話です。

realfood.gov + Grok の話に戻れば、米政府が公式の栄養助言ツールを動かすなら、最低でも「最新の食事ガイドライン本体に紐づく出典付きRAG」「医療推奨と整合しているかの事前検証」「ハイリスクなトピック（妊娠・腎疾患・摂食障害）の扱いに関する明示的な制約」あたりは入っているべきだ、というのが私の率直な感想です。

まとめ

米政府は2026年1月、realfood.gov を立ち上げ、AI栄養ツールに Grok を採用した。妊娠中の葉酸など、医療推奨と矛盾する応答が早期検証で報告されている
査読研究レベルでも、汎用 AI の栄養助言は深刻な誤差を出している。透析患者向けでカロリー36%・リン54%・カリウム49%の過小評価。10代向け食事プランで5モデル平均約700kcal/日の過小評価。慢性疾患食事ガイダンス精度は55〜73%
共通する原因は、汎用 LLM が「plausibilityへの最適化」と「栄養助言で必要な精度（数値・個別化・ガイドライン準拠）」のあいだにある構造的ズレを抱えていること
それでも汎用 AI は栄養相談に使われ続ける。アクセス問題が背景にある以上、責められるべきは AI ではなく「精度が足りないまま流通している」設計のほう

aiyolab を作っているのは、この設計の穴を、自分たちが扱える範囲で埋めるためです。

出典

HHS / USDA「Kennedy, Rollins Unveil Historic Reset of U.S. Nutrition Policy, Put Real Food Back at Center of Health」（2026年1月7日）https://www.hhs.gov/press-room/historic-reset-federal-nutrition-policy.html
realfood.gov「Dietary Guidelines for Americans 2025-2030」https://realfood.gov/
STAT NEWS「We tested the government's official new AI nutrition tool: Grok」（2026年2月10日）https://www.statnews.com/2026/02/10/new-food-pyramid-website-raises-ai-questions-grok-realfood-dot-gov/
ScienceDirect / Journal of Renal Nutrition「AI dietician: Unveiling the accuracy of ChatGPT's nutritional estimations」（PubMed ID 38194819, 2024）https://pubmed.ncbi.nlm.nih.gov/38194819/
Frontiers in Nutrition「Teens using AI meal plans could be eating too few calories — equivalent to skipping a meal」（2026年3月12日）https://www.frontiersin.org/news/2026/03/12/teens-ai-meal-plans-too-few-calories-frontiers-in-nutrition
CNN Health「Teens using AI to diet may be told to eat almost 700 fewer daily calories than they need」（2026年3月16日）https://www.cnn.com/2026/03/16/health/teens-ai-diet-wellness
米国疾病対策センター（CDC）「Folic Acid Recommendations」https://www.cdc.gov/folic-acid/about/index.html

米政府公式のAI栄養ツールがGrokだった日——汎用AIの栄養助言を、最新研究3本で確認した

realfood.gov とGrokの中身

研究1：透析患者向けChatGPT-4は、リンを54%、カリウムを49%過小評価していた

研究2：Frontiers in Nutrition 2026年3月、AIは10代の食事プランを700kcal/日過小評価していた

研究3：慢性疾患向けChatGPT、適応症ごとに精度が55〜73%に分かれた

共通する構造：plausibilityに最適化されたAIは、栄養数字には弱い

それでも汎用AIが栄養相談に使われ続ける理由

私たちが aiyolab で作っているもの

まとめ

出典

関連記事

栄養学の質問、ChatGPTに聞いて大丈夫？——RAGで精度を検証した

ChatGPTに栄養の質問をしてはいけない理由と、代わりにやるべきこと

食事摂取基準2025の変更点、AIに聞いたら正しく答えられるのか