주사위 놀이에서 LLM은 얼마나 신뢰할 수 있을까?

How reliable are LLMs when it comes to playing dice?

💡 최신 대규모 언어 모델(LLM)은 쉬운 확률 문제는 잘 풀지만, 직관에 반하는 문제나 표현이 바뀌면 성능이 크게 떨어지며, 잘못된 정보에 취약하여 아직 진정한 확률적 추론 능력은 부족합니다.

핵심 요약

무엇을 · 이 연구는 대규모 언어 모델(LLM)이 이산 확률 문제를 얼마나 잘 푸는지, 즉 확률적 추론 능력을 평가했습니다.
어떻게 · 연구팀은 두 가지 유형의 데이터셋을 만들었습니다. 하나는 일반적인 확률 문제이고, 다른 하나는 직관에 반하여 휴리스틱 추론을 유도하는 문제였습니다. 8개의 최신 LLM을 '사고의 사슬(Chain-of-Thought)' 프롬프트 사용 여부에 따라 테스트했습니다. 또한, 문제 표현 방식(정식 vs. 변형)과 프롬프트에 오해의 소지가 있는 제안을 포함했을 때의 성능 변화도 분석했습니다.
결과 · LLM은 일반적인 문제에서는 평균 96%의 정확도를 보였지만, 직관에 반하는 문제에서는 59%로 크게 떨어졌습니다. 문제 표현 방식이 바뀌면 성능이 20% 이상 하락했으며, 프롬프트에 잘못된 제안을 넣으면 성능이 최대 34%까지 감소했습니다. 모든 모델이 이러한 영향에 취약했습니다.

LLM이 복잡한 수학 문제에서 뛰어난 성능을 보임에도 불구하고, 확률적 추론 능력에는 한계가 있음을 보여주어 LLM의 실제 적용 가능성과 신뢰성에 대한 중요한 시사점을 제공합니다.

LLM이 의사 결정이나 예측에 사용될 때, 특히 불확실성이 있는 상황에서 잘못된 판단을 내릴 수 있음을 경고합니다. 이는 자율주행, 금융 분석, 의료 진단 등 다양한 분야에서 LLM 활용 시 주의가 필요함을 의미합니다.

현재 LLM은 직관에 반하는 확률 문제나 교묘하게 변형된 문제, 그리고 잘못된 정보가 주어졌을 때 취약점을 보입니다. 이는 LLM이 아직 인간처럼 유연하고 견고한 확률적 사고를 하지 못한다는 것을 시사합니다.

#LLM#확률적 추론#편향

arXiv 원문 보기 → Luca Avena, Gianmarco Bet, Bernardo Busoni · 2026-06-05 · arXiv:2606.07515

이 요약이 유용했나요?

※ 이 요약은 AI 보조로 생성하고 사람이 검수했습니다. 난이도·실생활 영향·톤은 본 사이트의 편집 의견이며, 정확한 내용은 반드시 원문(arXiv)을 확인하세요. 번역은 AI 기반으로 오역 가능성이 있습니다. 출처: arXiv (2606.07515).