2026년 3월 25일 — AI 네이티브 AaaS(Agentic AI as a Service) 기업 애피어(Appier)가 최신 연구 논문 “거대언어모델의 캘리브레이션 연구: 응답에서 역량으로(On Calibration of Large Language Models: From Response to Capability)”를 발표하며, 고도화된 AI 혁신을 위한 지속적인 투자 성과를 공개했다. 이번 연구는 거대언어모델(이하 LLM)의 과도한 확신과 환각 현상을 해결하기 위해, AI 시스템이 주어진 과업을 해결할 수 있는지 스스로 능력을 평가하는 ’역량 캘리브레이션(Capability Calibration)’ 프레임워크를 제시한다.
이번 연구는 AI 에이전트에 중요한 역량을 부여한다. 답변을 생성하기 전에 해당 문제를 해결할 수 있는 가능성을 먼저 추정하는 능력이다. 정량화된 자기평가 메커니즘을 도입함으로써, AI 시스템은 보다 신뢰도 높은 의사결정을 내리고 연산 자원을 더욱 효율적으로 배분할 수 있다. 이를 통해 기업용 AI 도입 시 신뢰성, 비용 효율성, 확장성을 동시에 개선할 수 있다.
응답 정확도를 넘어 ‘문제 해결 역량’으로 평가 기준 확장
기존의 LLM 캘리브레이션은 개별 응답의 정확도, 즉 단일 답변이 맞는지에 초점을 맞춰왔다. 그러나 LLM의 출력은 확률적 특성을 가지기 때문에 동일한 질문에도 여러 번 시도할 경우 서로 다른 답변이 생성될 수 있다. 이 때문에 단일 응답만으로는 모델의 실제 역량을 충분히 파악하기 어렵다.
실제 기업 환경에서는 AI가 한 번 우연히 맞히는 것보다 해당 모델이 특정 과업을 일관되게 해결할 수 있는지 여부가 더 중요하다. 애피어의 역량 캘리브레이션 프레임워크는 평가 초점을 단일 응답의 확신도에서 ‘주어진 질문에 대해 모델이 성공적으로 문제를 해결할 확률(기대 성공률)’로 전환했다. 이를 통해 평가 대상은 개별 응답이 아닌 모델의 전반적인 문제 해결 역량으로 확장되며, 실제 비즈니스 환경에 보다 부합하는 성능 지표를 제공한다.
AI 에이전트가 ‘자신의 한계’를 이해하도록 설계
”치한 위(Chih-Han Yu) 애피어 CEO 겸 공동창업자는 “AI 에이전트는 답변 생성에 그치지 않고, 스스로의 역량이 어디까지인지 이해할 수 있어야 한다”며, “역량 캘리브레이션을 통해 에이전트는 응답 전에 성공 확률을 추정하고 이에 따라 자원을 효율적으로 배분할 수 있다. 단순한 질의는 빠르게 처리하고, 복잡한 과업은 더 강력한 모델이나 추가 연산 자원을 자동으로 활용하도록 만들 수 있다. 이는 AI를 단순한 도구에서 벗어나 자원 관리, 비용 최적화, 의사결정 품질 향상을 능동적으로 수행하는 시스템으로 전환시키는 것으로, 기업용 AI 에이전트 확장을 위한 핵심 기반”이라고 말했다.
실험 결과: 낮은 비용으로 구현한 고품질 캘리브레이션
애피어는 이번 연구를 통해 역량 캘리브레이션과 기존 응답 캘리브레이션 간의 이론적 관계를 정립하고, 세 가지 LLM과 7개 데이터셋(지식 집약형 및 추론 집약형 과업 포함)을 활용해 다양한 확신도 추정 방식을 비교 분석했다.
주요 평가 방법으로는 ▲모델이 텍스트나 백분율 형태로 자신의 확신도를 직접 표현하는 방식 ▲생성 과정의 신호를 기반으로 답변이 정답일 가능성을 추정하는 정답 확률 추정 방식 ▲모델 내부 신호를 활용해 실제로 문제를 이해하고 있는지를 판단하는 선형 탐사(Linear Probes) 방식 등이 활용됐다.
실험 결과, 이 가운데 선형 탐사 방식이 성능과 비용 측면에서 가장 균형 잡힌 결과를 보였으며, 단일 토큰 생성보다 낮은 수준의 연산 비용으로도 안정적인 확신도 추정이 가능한 것으로 나타났다.
두 가지 핵심 활용처: 추론 효율 향상과 자원 배분 최적화
애피어가 제안한 ‘역량 캘리브레이션’ 프레임워크는 두 가지 실질적인 활용 가능성을 제시한다. 첫째는 pass@k 예측이다. 이는 복잡한 문제에서 LLM 성능 평가에 널리 사용되는 지표로, 여러 번의 시도 중 최소 한 번 이상 정답을 생성할 확률을 의미한다. 본 프레임워크는 실제로 여러 번 답변을 생성하지 않고도 모델이 정답을 낼 확률을 미리 추정할 수 있다. 둘째는 추론 자원 배분(inference resource allocation) 최적화다. 과업 난이도에 따라 연산 자원을 동적으로 할당함으로써, 난이도가 높은 문제에는 더 많은 시도를 배정하고 동일한 연산 예산 내에서 더 많은 과업을 해결하도록 돕는다.
신뢰할 수 있는 AI 에이전트를 위한 의사결정 기반 구축
역량 캘리브레이션은 AI 에이전트가 행동을 수행하기 전에 안정적이고 정량화된 확신도 시그널을 확보할 수 있도록 지원한다. 이를 통해 에이전트는 스스로 문제를 해결할지, 외부 툴을 활용할지, 아니면 사람에게 도움을 요청할지 판단할 수 있게 되며, 이는 불확실한 비즈니스 환경에서 AI 시스템의 확신도를 결정짓는 핵심 요소가 된다.
에이전틱 AI 확장을 위한 연구 고도화 지속
애피어 AI 연구팀은 앞으로도 역량 캘리브레이션 기술을 고도화해 모델 평가 방식 개선은 물론 모델 라우팅, 인간-AI 협업, 신뢰 가능한 AI 시스템 구축 등 다양한 영역으로 적용 범위를 확장할 예정이다. 또한 애피어는 이러한 연구 성과를 자사의 광고 및 마케팅 솔루션에 통합하여 기업들이 복잡한 디지털 생태계에서 보다 효율적이고 신뢰할 수 있는 에이전틱 AI 운영 체계를 구축하도록 지원할 계획이다.
###
About Appier
애피어(Appier)는 혁신적인 애드테크 및 마테크 솔루션을 통해 기업의 가치 창출을 지원하는 AI 네이티브 AaaS(Agentic AI as a Service) 기업이다. 2012년 “AI를 더 쉽게” 만들겠다는 비전 아래 설립되었으며, 자율적·적응형·실시간 의사결정을 가능하게 하는 Agentic AI를 기반으로 한 애드 클라우드 솔루션, 개인화 클라우드 솔루션, 데이터 클라우드 솔루션을 통해 기업이 Agentic AI를 ROI로 전환하도록 돕고 있다. 더 자세한 정보는 애피어 코리아 공식 홈페이지(https://www.appier.com/ko-kr/)에서 확인할 수 있다.
1. Capability Calibration – A method for evaluating an AI model’s overall problem-solving ability by estimating the probability that it will successfully answer a given query, rather than judging a single response.
2. Response Calibration – A traditional AI evaluation approach that measures a model’s confidence in the correctness of a single generated response.
3. Verbalized Confidence – A method where the model explicitly states its confidence in the correctness of an answer in natural language, such as a percentage or confidence level.
4. P(True) – A technique that estimates the probability that an answer is correct by analyzing the token probability distribution generated by the model.
5. Linear Probe – A lightweight linear classifier trained on a model’s internal representations to analyze whether the model has learned specific knowledge or capabilities, and to estimate confidence.
6. pass@k – A common AI evaluation metric estimating the probability that a model produces at least one correct answer within k attempts, reflecting the need to explore multiple reasoning paths in complex tasks.
7. Model Routing – A technique that dynamically selects the most suitable AI model to handle a task based on its complexity or requirements, improving efficiency and reducing compute costs.