Fact-Score(FActScore)
Fact-Score (FActScore)
FActScoreは、AI生成テキストにおける事実の正確性を定量化する自動評価指標です。原子的事実に分解し、外部知識ソースの裏付けを検証します。
FActScoreとは?
FActScoreは、AIが生成した長文テキストにおける事実精度を定量化する自動評価指標です。 テキストを最小単位の「原子的事実」に分解し、それぞれをWikipediaなどの権威ある外部知識ソースと照合して、何パーセントの事実がサポートされているかを算出します。
ひとことで言うと: 「AIが書いた記事の各センテンスを、百科事典で一つ一つ検証する自動採点機」です。
ポイントまとめ:
- 何をするものか: AI生成テキストが本当のことを書いているか検証する仕組み
- なぜ必要か: AIは自信を持ってウソを書く(ハルシネーション)ため、事実精度の監視が重要
- 誰が使うか: LLM開発者、AI品質保証チーム、医療・法律などの高精度が必須な業界
計算方法
FActScoreは以下の公式で算出されます:
FActScore = (サポートされた事実数 / 総事実数) × 100%
例えば、AIが生成した記事から 50 個の事実が抽出され、そのうち 45 個が信頼できる外部ソースで確認されたなら: FActScore = (45 / 50) × 100% = 90%
実装の流れ:
- 生成テキストを原子的事実に分解(LLMまたはルール処理)
- 各事実について、Wikipediaから関連パッセージを検索
- 人間の専門家またはAIが「その事実はサポートされているか」判定
- スコアを計算
目安・ベンチマーク
モデル別FActScoreの実績:
- GPT-4 — 約 68%(高性能モデル)
- ChatGPT — 約 58%(汎用モデル)
- Alpaca 65B — 約 65%(オープンモデル)
- 人間による執筆 — 約 88%(ゴールドスタンダード)
良好なFActScore:
- 80% 以上 — 信頼できるレベル。医療情報など高精度が必須な用途に適格
- 70~80% — 実用的だが、重要な情報は人間による検証推奨
- 60% 未満 — 不良レベル。そのままの利用は危険
なぜ重要か
ハルシネーション(AIが架空の情報を生成する現象)は、AIの深刻な弱点です。従来の指標(BLEU、ROUGE)では捕捉できない微妙な事実誤りを、FActScoreは検出できます。
例えば、AIが「アインシュタインは1879年にドイツで生まれた」と書いたとき、すべて真実です。しかし「アインシュタインは物理学と化学の両方でノーベル賞を受賞した」と書いたら、これは部分的に誤っています(物理学のみ)。FActScoreはこのような細かい誤りを捕捉します。
医療情報、法的文書、ジャーナリズム、科学コミュニケーションでは、FActScoreのような厳密な評価が必須です。ユーザーが誤った情報に基づいて決定すると、深刻な害が生じます。
実際の活用シーン
医療AI チャットボットの品質管理 医療企業がFActScoreで医療情報AIを評価。80% 以下のスコアが出たら、回答を医師の手動レビューにかける仕組みを導入。患者への誤った医療情報提供を防止。
学術出版社が AI ドラフト検証 学術誌がAI生成の要約をFActScoreで検証。50%以下なら採用を見送り、手動で原文から要約を作成。学術的信頼性を維持。
多言語LLMの評価 言語モデルの研究チームがFActScoreで日本語、中国語、アラビア語など複数言語での事実精度を比較。言語による性能差を客観的に把握。
メリットと注意点
メリット: FActScoreは自動化されているため、大量のAI生成テキストを素早く評価できます。人間による全チェックより効率的で、客観的な基準を提供します。AI開発チームは「事実精度が どこで低いのか」を特定でき、モデル改善に活かせます。
注意点: FActScoreの精度は、参照ソース(Wikipediaなど)の品質に大きく依存します。ニッチなドメインや最新情報は、Wikipediaにカバーされていない可能性があり、スコアが不当に低くなるリスクがあります。また、複数の記述が同じ事実を異なるニュアンスで表現した場合、FActScoreは過度に厳格になる可能性があります。
関連用語
- ハルシネーション — AIが生成する架空・不正確な情報。FActScoreで検出される
- 大規模言語モデル(LLM) — FActScoreの評価対象
- 事実チェック — 人間によるプロセス。FActScoreはこれを自動化
- AI品質保証 — FActScoreは品質評価の重要ツール
- 自然言語処理(NLP) — FActScoreの基盤技術
よくある質問
Q: FActScoreの90%以上は完全に信頼できる? A: ほぼそうですが、完全ではありません。参照ソースに誤りがあったり、複雑なニュアンスは捕捉しきれない場合もあります。重要な情報は人間による最終確認を推奨します。
Q: 日本語テキストのFActScore評価は可能? A: 可能ですが、日本語版Wikipediaのカバレッジが英語版より低いため、スコアが不当に低くなるリスクがあります。
Q: FActScoreを改善するには? A: 訓練データのキュレーション、ファインチューニング、事実検証を強化するプロンプトエンジニアリングなどが有効です。