AIの健康アドバイスは信頼できる? aiyolabが精度を公開する理由

精度信頼性RAGハルシネーション安全性

AIの健康アドバイスは信頼できる? aiyolabが精度を公開する理由

AIに健康のことを聞く人が増えています。毎日4,000万人以上がChatGPTに健康情報を求めているというデータがあります。便利な反面、AIの健康アドバイスが関与したとされる深刻な事件が起きていることはあまり知られていません。

この記事では、汎用AIの健康指導で何が問題になっているかを整理した上で、aiyolabがどういうアプローチでこの問題に向き合っているかを説明します。

汎用AIの健康アドバイスで起きていること

実際の被害

  • 摂食障害患者向けのAIチャットボットが「週1〜2ポンド減量しましょう」「1日500〜1,000kcalの赤字を作りましょう」とダイエット助言を行い、即座に停止された(NEDA/Tessa事件、2023年)
  • ChatGPTが食卓塩の代わりに臭化ナトリウム(有毒物質)への置き換えを推奨した事例が報告されている
  • 精神的ケアの文脈では、AIチャットボットとの会話後に未成年が自殺する事件が複数発生し、訴訟に発展している(因果関係は法的・学術的に未確定だが、AIの関与が争点)

研究が示す精度の問題

汎用AIの健康分野での精度を調べた研究結果は、楽観的な数字ではありません。

  • AIチャットボットは安全策を外した状態で最大83%のケースでハルシネーション(架空の疾患名・検査値・臨床徴候のでっち上げ)を起こす。デフォルト設定でも50〜82.7%(Mount Sinai、2025-2026年)
  • AIサーチエンジンのサプリメント情報は全体精度33.1%。引用の72.7%がブログや販売サイト(PMC、2025年)
  • 小児科の実症例で83%が診断エラーに分類。ただしプロンプト設計やモデルバージョンで結果は変わり得る(JAMA Pediatrics、2024年)
  • サプリメント-薬物相互作用の正答率はGPT-4.0でT/Fが62%、選択問題が52%

ECRIはAIチャットボットの医療における誤用を2026年最大の医療技術ハザード第1位に指定しています。

なぜ汎用AIは健康分野で間違えるのか

人間の医療者も間違えます。医師の診断エラー率は10〜15%という報告があります(BMJ Quality & Safety)。AIだけが間違えるわけではない。問題は、AIの間違え方が人間とは質的に異なることです。構造的な理由が3つあります。

「分からない」と言わない。 LLMは不確実な情報も断定的な口調で提示します。架空の医学用語をたった1つ含む質問に対し、それが本物であるかのように詳細な説明を生成します。

ユーザーの期待に迎合する。 「このサプリ効きますか?」という質問に対して、効くと言ってほしい気持ちを汲んで肯定的に回答しやすい傾向(sycophancy)があります。

出典を偽造する。 存在しない論文を引用して、科学的な裏付けがあるように見せかけることがあります。

aiyolabのアプローチ

aiyolabは管理栄養士・栄養学生向けの学習支援AIとして、この問題に正面から向き合っています。

1. 専門RAGによる回答生成

汎用AIは学習データに含まれるあらゆる情報(正確なものも不正確なものも)を基に回答します。aiyolabは栄養学に特化したRAG(検索拡張生成)を使い、食事摂取基準2025・食品成分表八訂・臨床栄養ガイドラインなど、検証済みのソースから回答を生成します。

現在5,818チャンクの専門知識ベースを構築しており、汎用AIが苦手とする「正確な数値」「ガイドラインの細かい基準」にも対応できるようにしています。

同じ国試180問ベンチマークで比較した結果、aiyolabのRAG(91.7%)とGPT-4o単体(72.8%)で約19ポイントの差が出ています。

2. 回答に出典を表示

aiyolabのAI回答には、根拠となった情報源を表示しています。ユーザーが「この回答はどのデータに基づいているのか」を自分で確認できるようにするためです。

AIが出典を偽造する問題に対する対策でもあります。RAGで検索されたチャンクに基づいて回答するため、参照元が明確です。

3. 精度を科目別に公開

aiyolabは管理栄養士国家試験180問のベンチマーク結果を、全体スコアだけでなく科目別に公開しています。

4科目で100%を出している一方、「食べ物と健康」は70%にとどまっています。この差を隠す必要はないと考えています。どの分野でAIが強く、どの分野で弱いかをユーザーが知っていれば、適切な使い方ができます。

精度の詳細は国試ベンチマーク科目別分析で公開しています。

4. 推論ルートの埋め込み

普通のRAGは「知識」を検索して渡すだけです。でも国試の問題は知識だけでは解けないものも多い。

aiyolabではAIが間違えた問題を分析し、「ここでこう考えれば正解にたどり着ける」という推論パターン自体をRAGに格納しています。これにより、特に栄養教育論では改善前70%から100%まで精度が向上しました。

精度を隠さないことが信頼だと思う

AIの精度を「高いです」とだけ言って中身を見せないサービスは多い。テキサス州では、「ハルシネーション率0.001%未満」と虚偽の精度を宣伝していた医療AI企業に5年間の是正命令が出ています。

aiyolabは逆のアプローチを取ります。強いところも弱いところも数字で見せる。弱いところは改善し続ける。その過程も公開する。

使う人が「どこまで信頼していいか」を自分で判断できること。それが、AIを健康分野で使う上での最低限の誠実さだと考えています。

食事摂取基準2025・食品成分表ベースのAI栄養ツール

aiyolabを無料で試す

無料で始める