Appier Group株式会社(本社:東京都港区、代表取締役CEO:チハン・ユー、証券コード:4180、以下 Appier)は、AIエージェントが自らの問題解決能力を客観的に判定する新フレームワーク「Capability Calibration(能力の自己判定)」に関する最新の研究論文(On Calibration of Large Language Models: From Response to Capability「大規模言語モデルのキャリブレーションについて、回答から能力の評価まで」)を発表しました。
本研究は、LLM(大規模言語モデル)の課題である「過信」や「ハルシネーション(もっともらしい嘘)」に対処するものです。この定量的な自己評価メカニズムにより、AIはより信頼度の高い意思決定を行い、計算リソースを最適に配分することが可能となります。
従来のLLMモデルでは、生成された個別の出力内容に対して、それがどれほど確実かという『的中率の推論』に主眼が置かれていました。しかし、出力結果には常に確率的な変動が伴うため、単一のデータポイントだけでは、モデルが備えている真のポテンシャルを正確に反映できないという課題を抱えていました。企業の実務において重要なのは「一度の回答が正しいか」ではなく、「モデルが一貫してタスクを解決できるか」という点です。Appierの新フレームワークは、評価対象を「特定の指示に対するモデルの予想成功率」へとシフトさせることで、エンタープライズ実務に即した、より実用的かつ広範な問題解決能力の測定を可能にしました。
AppierのCEO兼共同創業者であるチハン・ユーは次のように述べています。
「AIエージェントは単に回答を生成するだけでなく、自らの能力の限界を理解すべきです。今回発表した『能力の自己判定』技術により、エージェントは実行前に成功率を推定し、リソースを最適化して配分することが可能になります。例えば、単純な指示を迅速に処理する一方で、複雑なタスクには自動的に強力なモデルや追加の計算リソースを割り当てます。これは、エンタープライズ水準のAIエージェントを大規模に展開する上で、不可欠な基盤となります」
本研究では、3つのLLMと7つのデータセットを用い、複数の信頼度推定手法を評価しました。
実験の結果「線形プローブ法」がコストとパフォーマンスのバランスにおいて、最も優れていることが示されました。この手法は、高い推定精度を維持しつつ、計算コストを単一トークンの生成よりも低く抑えることが可能です。
この技術により、AIエージェントはアクションを起こす前に「自律的に解決できるか」「外部ツールを呼び出すべきか」「人間に助けを求めるべきか」を自ら判断できるようになります。不確実な環境下でもAIシステムの信頼性を担保し、運用の安定性を高めます。
今後、Appierは本研究成果を製品機能へと昇華させ、広告やマーケティングにおける意思決定の自動化を推進します。企業のデジタル変革(DX)を支援し、真に信頼できる自律型AIの社会実装をリードしてまいります。
###
Appier (東証プライム : 4180) は、『AIをもっとシンプルに』というビジョンのもと、2012年にAIネイティブ企業として設立。Appierの「広告クラウド」「パーソナライゼーションクラウド」「データクラウド」は、リアルタイムに思考し、自ら最適解を導く高度な自律型AIが搭載され「自律型AIサービス:Agentic AI as a Service (AaaS)」を通して、最先端の広告・マーケティング技術提供。AIをビジネス成果 (ROI) に直結させることで、顧客企業の成長を支援。現在、アジア太平洋地域、米国、欧州に17の拠点を構え、東京証券取引所上場(IR情報)