Appier Group株式会社(東京都港区)は、自律型AIの信頼性を大きく向上させる最新の研究成果を公開した。論文「Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models」で、言語モデルが異なるリスク条件下で意思決定を行う様子を測定する評価フレームワークを示した。
研究では、リスク認知型意思決定の枠組みを通じて、変動するリスク条件下での大規模言語モデルの判断を数値化された指標へと変換する点を特徴とする。AppierのAI研究チームが独自のメソッド設計を用い、高リスクなシナリオでもモデルの信頼性を大幅に向上させることに成功したとしている。Appierは自律型AIサービス「Agentic AI as a Service(AaaS)」を提供しており、本研究はエンタープライズ環境での自律型AI導入を支える取り組みの一部となる。
AIエージェント実験62%
企業の「AIコパイロット」から「自律型AIエージェント」への導入が進む中で、最大の障壁として信頼性の欠如を挙げた。ある調査では、組織の62%がすでにAIエージェントの実験を開始している一方、エンタープライズ環境での導入で最も多く挙げられる課題は「不正確さ」だという。Appierは、AIのハルシネーション(幻覚)と意思決定の信頼性を企業の2大懸念事項として示し、それらに特化した解決策として枠組みを構築したとしている。
フレームワークでは、正解に対する報酬、不正解に対するペナルティ、拒否に対するコストを含む構造化されたリスクパラメータを導入した。モデルは回答・拒否・推測のいずれかを選ぶ前に、自身の能力、確信度、リスク条件を評価する必要があるとした。意思決定の質は、期待報酬を最大化できているかどうかで測定し、回答の正誤中心だった従来の評価との差異を示した。
調査の結果、多くの主要な大規模言語モデルが、リスクシナリオ全般で「戦略的不均衡」を示していることが判明した。高リスク設定では潜在的なマイナスの影響があるにもかかわらず推測に頼る傾向があり、低リスク設定では過度に保守的になって回答を拒否しやすいとした。この一貫性のなさは、エンタープライズ環境でのAIの自律性と安全性を制限するとし、問題の要因については、純粋な知識不足ではなく、複数の能力を安定した意思決定戦略に統合することの難しさに起因する可能性を示唆した。
スキル分解で3段階化
AppierのAI研究チームは、意思決定を「タスク実行」「確信度推定」「期待値推論」の3段階に分ける「スキル分解」アプローチを提案した。タスクを解いて初期回答を生成し、その回答への自信の度合いを評価したうえで、リスク条件下での結果を推論する。構造化された推論プロセスにより、モデルが回答と拒否のどちらが最善の結果をもたらすかを判断できるようになるとしている。
チハン・ユーCEO兼共同創業者は、自律型AIの信頼性の確保が重要だと述べた。Appierが創業以来AIを核とした製品開発を行い、世界レベルの研究に継続的に投資している点にも触れた。大規模言語モデルのリスク認知を数値化可能な手法へ変換し、エンタープライズAIの基盤強化に貢献するものだとの見方を述べている。
今回の研究成果は、Appierの自律型AIプラットフォーム「広告クラウド」「パーソナライゼーションクラウド」「データクラウド」に統合されている。研究は、リスク条件の違いを踏まえた判断を指標化することを目的としている。
