앞서 공부했던 Conformal Prediction을 LLM에도 확장시켜서 LLM의 응답에 대해 어느정도 사실을 보장할 수 있습니다. 이 글은 LLM에 Conformal Prediction을 적용하는 주요 흐름에 대해 정리한 글입니다.
Conformal Prediction : LLM에서는 어떻게 확장될까?
LLM은 종종 사실과 다른 환각 정보를 포함하거나 부적절한 발언 생성 + 모델의 확신 정도도 불명확한 경우가 많음.
이를 해결하기 위해 Conformal Prediction(CP) 기법이 LLM 출력의 신뢰도 보장 수단으로 도입됨.
CP는 주어진 출력이 올바를 확률을 사용자 지정 수준 이상으로 보장하도록 예측 집합이나 필터링된 출력을 생성하는 통계적 방법.
기존 머신러닝에서 CP는 정형화된 예측 집합(ex. 분류기의 다수 클래스 중 신뢰도 높은 subset 반환)을 제공했다면, LLM에서는 더 다양하고 비정형적인 방식으로 발전하고 있음.
먼저, LLM에서는 예측 대상이 일반적인 머신러닝처럼 정해진 class가 아니고,
- 응답 형식이 자연어 문장으로 자유롭고
- 정답도 고정된 label이 아닌 경우가 대부분
즉, 기존의 정답 label이 포함된 집합을 만드는 CP 구조를 그대로 적용하기 어려움.
따라서 LLM에서는 "예측 집합"을 생성한다기보다, 생성된 문장의 사실 여부를 검증 후 제거 또는 유지하는 방식으로 CP를 활용.
LLM에 CP를 적용하는 대표적인 흐름은 다음과 같음.
LLM에 Conformal Prediction을 적용하는 대표적 흐름
1. 여러 응답 후보 생성 후 믿을 만한 것만 남기는 방식 (Multiple Generations + Filtering)
LLM 출력의 사실적 정확성을 높이기 위해 CP를 적용한 초기 연구들은 여러 후보 응답 세트를 생성하는 접근으로 시작됨.
- 전통적인 CP의 “여러 클래스 중 신뢰수준 내 클래스만 반환” 구조를 LLM 응답 후보 집합으로 확장한 형태.
- 여러 후보 응답 생성
- LLM 샘플링 : 주어진 프롬프트에 대해 LLM은 한 번만 응답을 생성하는 것이 아니라, 여러 번의 샘플링 과정을 통해 다양한 형태의 후보 응답들을 생성.
- 이는 모델의 디코딩 전략을 조절하여 이루어짐.
- ex) temperature 값을 0보다 크게 설정하거나, num_beams 값을 1보다 크게 설정하여 여러 개의 다양한 출력을 뽑아냄.
Quach et al., Conformal Language Modeling, ICLR 2024
- 위 방식을 체계화한 Conformal Language Modeling 기법 제안.
- LM으로부터 여러 응답을 샘플링해 최소 하나의 정답을 포함하는 후보 세트를 구성하고 부적절한 후보는 동시적으로 제거하는 절차 도입.
- open-domain QA, 요약, 방사선 리포트 생성 등에서 높은 확률로 올바른 답변을 포함하면서도 평균적으로 작은 크기의 후보 집합을 얻을 수 있음을 입증.
- ex) 질문에 대해 다수의 답변을 생성하되 CP 보정된 중지 규칙을 이용해 충분한 답이 나올 때까지 시도하고, 거짓일 가능성이 큰 응답은 제거하여 남은 세트에 적어도 하나의 정답이 들어있음을 (ex. 95%) 보장하는 방식.
이 방식의 한계 :
실제 LLM은 다양하고 비정형적인 작업을 다루는데, 이러한 방식은 일반화되기 어려움.
Q&A 같은 task에서는 이러한 후보 출력 set 생성 방식이 합리적일 수는 있음.
- ex) "프랑스의 수도는?" 이라는 질문에 ["파리", "리옹"]과 같이 몇 가지 후보를 제공하고, 사용자가 그 중 맞는 것을 선택할 수 있다면 유용
하지만, LLM은 단순한 질문 응답을 넘어 문서 요약, 코드 생성, 창의적인 글쓰기 등 다양한 작업을 수행하는데, 이때는 여러 개의 후보 출력 제공보다 사용자가 바로 활용할 수 있는 단일하고 일관된 결과물이 더 나음.
- ex) 예를 들어 긴 문서를 요약해 달라고 했을 때 여러 개의 요약본을 제공한다면, 사용자는 어떤 요약본이 더 정확하고 유용한지 다시 확인해야 하는 번거로움이 생김. 또한 출력 자체가 구조화되지 않은 경우(ex. 자유 형식의 대화)에는 후보 set을 나열하는 것은 더욱 복잡하고 비실용적임
즉, LLM의 불확실성 관리를 위해 후보 출력 set을 제공하는 것이 특정 상황에서는 유용할 수 있으나, LLM의 광범위한 실제 적용 분야에서는 단일하고 신뢰할 수 있는 출력을 제공하는 것이 더 중요하며, 따라서 다른 불확실성 정량화 방법이 필요함.
→ 다음 방식인 기존 응답에서 잘못된 주장을 '필터링'하는 방식 나옴.
2. 응답을 한 번 생성하고 내부 문장만 필터링 (One-Shot Generation + Sentence Filtering)
이후 연구들은 단일 응답 내 문장들을 세분화하여 사실 여부를 검증하는 출력 필터링 접근으로 발전.
- LLM이 응답을 한 번 생성하고, 이 응답을 문장/클레임 단위로 파싱.
- 각 클레임에 대해 별도 판별기(혹은 LLM self-eval)로 사실성 점수 계산.
- 컷오프 적용 후, 신뢰수준 1−α 보장을 충족하도록 일부 클레임 삭제.
- 즉, 사실이 아닌 문장만 제거하며 전체 응답의 품질을 유지하는 방법.
- 한계 : parser 품질과 클레임 점수 신뢰성에 따라 CP 보장이 약화될 수 있음.
Mohri & Hashimoto, Language Models with Conformal Factuality Guarantees, ICML 2024
- 출력을 구성하는 하위 주장(sub-claim)들을 추출, 사실일 자신이 없는 부분을 검열하는 Conformal Factuality 프레임워크 제안.
- LLM의 생성 답변을 여러 문장/주장으로 분해한 뒤, 각 주장에 대해 정합 점수를 계산하여 미리 정한 임계값보다 낮은 주장들을 출력에서 제거.
- 이 임계값은 CP를 통해 보정됨.
- 필터링된 최종 답변은 높은 확률(ex. 90%)로 모든 남은 주장이 사실임을 보장.
- 핵심 기여 : LLM 출력에 대해 후처리로 부분적인 back-off를 수행함으로써, 출력의 특정성은 줄어들지만 사실성은 높이는 방법 제시.
- 실제 평가에서 폐쇄형 QA(ex. Natural Questions)와 수학 추론 데이터셋(MATH) 등에 이 방법을 적용한 결과, 출력의 80~90% 정확성을 보장하면서도 원래 출력 내용의 대부분을 유지할 수 있음을 보임.
- 한계 : 각 주장들의 사실 여부를 독립적으로 가정.
Rubin-Toles et al., Conformal Language Model Reasoning with Coherent Factuality, ICLR 2025
- 각 주장들의 사실 여부를 독립적으로 가정한 한계를 극복하기 위해, 문장 간 맥락적 연관성까지 고려한 일관적 사실성(coherent factuality) 개념을 정의 + 이를 만족하도록 출력을 필터링하는 그래프 기반 CP 알고리즘 개발.
- 그래프의 하위구조별로 CP 보정을 적용하여 전체 추론 과정이 검증된 출력만 남김.
- 수학 문제 증명 등 단계적 이유가 필요한 작업에서 모든 단계가 문맥에 비춰 사실임을 높은 확률로 보장할 수 있었음.
Cherian et al., Large language model validity via enhanced conformal prediction methods, NeurIPS 2024
- Mohri의 기존 CP 방법은 특정한 주제(topic)에 따라 불안정한 보장을 제공한다는 한계가 있었음.
- 이를 해결하기 위해, 조건부 CP를 확장하여 응답 주제에 따라 적응적으로 보장 수준을 조절하는 레벨 적응 CP(level-adaptive CP)를 도입함.
- level-adaptive CP : 특정 주제(ex. 유명하지 않은 인물에 대한 응답)에서는 엄격한 95% 보장 대신 조금 완화된 보장 수준을 적용하더라도 중요한 내용은 필터링하지 않고 남기도록 하는 접근.
- CP를 미분가능하게 만들어 스코어 함수를 학습하는 Conditional Boosting 알고리즘 제시하여 기존 휴리스틱 스코어의 한계 극복.
- 이 기법을 통해 사실성 판별을 위한 점수 함수를 최적화한 결과, 이전에는 점수 오류로 제거되던 유용하고 정확한 정보의 보존률을 크게 향상시킬 수 있었음.
- ex) Mohri가 사용한 빈도 점수(여러번 생성시 자주 등장하는 주장일수록 신뢰) 대신, Cherian은 여러 후보 점수를 결합하여 필터링 효율을 높임.
- 의료 QA나 위키 인물 QA 실험에서 출력 유용성을 유지하며 조건부 보장 달성.
Liu & Wu, Multi-group Uncertainty Quantification for Long-form Text Generation, UAI 2025
- 또 다른 흐름으로, 그룹별 편차를 보정하는 멀티그룹 CP 기법도 제안됨.
- ex) LLM이 학습 데이터에서 소외된 주제에 대해 특히 오류율이 높다면, 프롬프트를 특정 속성 그룹으로 나누어 각각 CP 보정을 수행할 수 있음.
- 실제 위키 인물 전기 생성 실험에서, 인물의 인기도나 출신 등에 따라 그룹별로 별도 보정을 적용한 결과, 전반적인 사실성 보장 수준과 그룹별 공정성이 모두 향상됨을 보임.
- CP의 조건부 커버리지(group-conditional coverage) 개념을 LLM 출력에 도입한 사례.
- 특정 조건에서의 과신이나 오류를 줄여 특정 하위 도메인에서도 일관된 신뢰도를 달성하려는 방향.
Jiang et al., Conformal Linguistic Calibration: Trading-off between Factuality and Specificity, Arxiv 2025
- LLM 답변의 자신감 표현 방식 자체를 재구성하는 Conformal Linguistic Calibration(CLC) 제안.
- 모델이 불확실할수록 답변이 덜 구체적으로 표현하도록 유도하는 방법.
- CP를 통해 모델의 애매한 서술이 실제 정확도와 대응되도록 보장.
- ex) "미국에서 가장 큰 도시는 아마도 로스앤젤레스일 것입니다." 와 같이 불확실성을 언어적으로 나타내되, 이 표현이 정확도 60% 수준임을 CP로 보정하는 방식.
- CLC 기법은 응답의 모호성 수준을 조절하여, 높은 사실성 보장 하에 정보 손실을 최소화하는 새로운 균형점 제시.
- 기존의 단순 무응답(ex. 모르겠습니다) 대비 유용한 정보 제공 면에서 우수하면서도, CP로 발화의 정확성 수준을 수치적으로 담보한다는 의의가 있음.
즉, LLM 사실성 보장 분야에서는 (a) 여러 응답을 생성해 그중 정답이 포함됨을 보장하는 접근, (b) 단일 응답을 내부 요소별로 평가해 거짓 요소를 제거하는 접근, (c) 추론 구조나 문맥을 고려한 고도화된 필터링 접근으로 발전해옴. 초기 연구들은 출력 집합(sets) 자체의 커버리지 보장에 집중했으나, 이후에는 출력 내용의 완전성과 조건별 신뢰도까지 다루는 방향으로 발전.
3. 유해 응답 제거를 위한 CP 활용
LLM의 유해하거나 부적절한 응답을 사전에 걸러내는 데에도 CP가 활용됨.
Chen et al., Conformal Tail Risk Control for Large Language Model Alignment, ICML 2025
- LLM 정렬 문제에서 tail risk, 즉 아주 심각한 나쁜 출력이 발생할 확률을 제어하는 Conformal Risk Control 기법 제안.
- 독성, 혐오, 차별적 표현 등의 "꼬리 사건"을 정량화하는 스코어 모델(ex. 독성 점수 모델)을 활용.
- CP를 확장한 이론을 통해 어떠한 LLM이라도 주어진 유해발언 리스크 임계치 이내로 유지되도록 보장.
- 인간 평가와 모델 독성 점수가 어긋나도, CP 캘리브레이션을 통해 모델 독성 판정의 불확실성을 보정 + 높은 신뢰도로 유해도 기준 충족을 보장하는 출력만 통과시키는 것.
- LLM 출력에 대한 인간-기계 독성 평가의 정렬을 통해, 잠재적으로 위험한 발언이 임계 수준 이상 나오지 않도록 통계적으로 안전장치를 제공.
- 특히, 다른 가정 없이 LLM을 블랙박스로 간주하고도 적용 가능해 실용적임.
+ 앞서 언급한 Cherian(2024)의 연구에서는 해당 연구에서 제안한 출력 필터링으로 사실성 외에 다른 척도로도 활용할 수 있음을 시사했음. 예를 들어, 독성 점수를 출력 claim에 대한 정합 점수로 정의하고 CP 임계값을 조정하면, 응답 내 독성 발언을 확률적으로 배제할 수 있음. 이처럼 CP 기반 필터링은 평가 함수만 적절히 주어지면 유해성에 대해서도 적용 가능.실제로 CP는 분포에 무관한 포괄적 보장을 제공하므로, 독성 여부 판정 모델이 편향되어 있어도 marginal 수준에서 오탐률 제한을 보장할 수 있음. 다만 독성 응답 제거에 CP를 적용한 구체적인 연구는 아직 시작 단계임. 앞서 tail risk 연구가 그 시작임.향후 챗봇 내용 필터링이나 콘텐츠 조정에도 CP가 활용될 잠재력을 보여줌.
CP는 블랙박스 LLM에도 적용 가능함!
Su et al., API is Enough: Conformal Prediction for Large Language Models Without Logit-Access, Findings-EMNLP 2024
- 모델의 logit 접근 없이도 CP 구현하는 기법 연구.
- 모델 API를 반복 호출하여 얻은 응답 분포의 다양성(자체 불확실성)과 응답 내용 유사도 등을 결합한 점수로 CP를 수행해, OpenAI와 같은 폐쇄 모델에서도 유효한 예측 집합 얻음.
- 이러한 self-consistency 기반 정합 점수는 폐쇄형 LLM의 불확실성 추정에 활용됨.
검증 가능한 출력 생성을 위한 CP의 구조적 변형
LLM 출력의 검증 가능성을 높이는 방향으로도 CP가 활용됨.
검증 가능성 : 모델의 생성이 외부 지식이나 논리로 확인될 수 있는지.CP는 이를 위해 출력 구조를 재편성하거나 추가 정보와 결합하는 방식으로 응용됨.
- 앞서 Rubin-Toles의 연구에서는 출력을 그래프 구조로 분해하고 각 단계별 사실성을 검증하므로, 최종 출력이 인과관계에 비추어 검증 가능한 형태로 만들어짐.
- 이와 같은 chain-of-thought 방식의 이유를 CP로 보정하면, 사용자에게 중간 추론 근거가 담보된 답변을 제공할 수 있음.
또한, RAG(Retrieval-Augmented Generation) 환경에서 LLM 생성 문장들이 참조 문헌에 의해 지지되는지를 정합 점수로 삼아 CP 필터링을 적용할 수도 있음.
정리하자면...
CP 적용 구조는 크게 다중 응답 생성 후 필터링과 단일 응답 내부 필터링, 그리고 생성 과정 자체 변형(ex. 재질문, 언어표현 조절)으로 구분됨.
정합 점수로는 모델의 로그 확률/softmax를 직접 쓰거나, 자체 일관성 신호(여러 번 생성 빈도), 외부 평가모델 출력(entailment/독성 점수), LLM의 자기평가, 나아가 여러 점수의 학습 결합까지 다양하게 활용됨.
보장 형태 측면에서는, 대부분 marginal 보장(임의 입력에 대해 평균적인 1-α 커버리지)을 기본으로 하되, 최근에는 조건부 보장(응답 토픽이나 속성 조건에 따른 커버리지), 그룹 기반 보장, 임의 리스크 수준 보장 등으로 세분화되고 있음.
이는 LLM 응답의 불확실성이 특정 상황에 치우치지 않도록 하거나, 사용자 맞춤 임계값에 따라 유연하게 보장하려는 흐름.
최근 동향 및 향후 전망은...
CP + LLM 연구는 다음과 같은 확장 방향이 있음.
1. Randomized CP나 적응형 임계값 기법이 도입되어 예측 집합의 효율성을 높이고 있음.
Cherian의 level-adaptive CP는 사용자 요구에 따라 오차율을 조정함으로써 유용성을 높임. 전통 CP의 예측 집합이 너무 큰 문제를 해결하고자 하는 흐름.
2. 구조화된 CP
복잡한 시퀀스 출력이나 계층적 출력(대화 여러 턴, 문서 요약 다단계 구조)에 CP를 적용하기 위해 출력 공간을 분할하거나 nearest-neighbor 기반 비교 등의 기법이 연구되고 있음. 또한 Rubin-Toles의 그래프 접근처럼 출력 요소 간 관계를 활용하는 CP도 이런 맥락.
3. 모델 자체의 calibrate 능력과 CP의 결합.
모델에게 자신의 불확실성을 표현하도록 학습시키고, 이를 CP로 보정하면 사후 필터링 필요 없이 모델이 이미 보장된 형태의 응답을 생성할 수 있음. Jiang의 CLC 연구가 이런 맥락.
4. 도메인 특화 CP 응용지금까지 QA, 요약 등이 주로 다뤄졌다면, 앞으로는 멀티모달 설명 생성에서의 사실성, 지리정보 응답의 정확도 등 다양한 분야의 LLM 출력에 CP를 적용하려는 연구가 기대됨. 특히 법이나 의료 분야처럼 오류 허용률이 매우 낮은 영역에서 CP는 실용적인 안전장치로 쓰일 것으로 기대됨.
5. 실시간성 및 효율성도 향후 과제현재 많은 CP 기법들은 여러 번 모델 호출이나 별도 검증 모델 등을 필요로 하여 응답 지연을 야기할 수 있음.따라서 사전 계산된 CP 임계값을 활용한 빠른 필터링, 또는 한 번의 모델 추론으로 신뢰도 추출 등이 연구될 수 있음.ex. 모델 출력과 함께 신뢰 점수를 생성하도록 미세조정하고, 여기에 CP적 보정을 사전적용하는 방향..
'LLM' 카테고리의 다른 글
| Uncertainty Quantification for LLMs : LLM의 불확실성 측정 - (2) Theoretical Background [1] (0) | 2026.01.26 |
|---|---|
| Uncertainty Quantification for LLMs : LLM의 불확실성 측정 - (1) Introduction (0) | 2026.01.26 |
| 생성형 AI 도구별 활용법 - ChatGPT, NotebookLM, Genspark (1) | 2025.07.24 |
| In-Context Learning and Algorithmic Reasoning of LLMs (0) | 2024.11.20 |
| 트랜스포머 scaling (0) | 2023.11.17 |
댓글