🤖 AI와의 대화

모르면 손해 보는 AI 활용법 : 버벌라이즈드 샘플링이란?

타잔007 2025. 10. 20. 17:01

반복되는 AI 답변, 이제 해결할 수 있다

ChatGPT나 Claude 같은 생성형 AI를 사용하다 보면 비슷한 답변이 반복된다는 느낌을 받은 적이 있을 것이다.

"커피에 대한 농담을 해줘"라고 여러 번 물어보면 "드립커피는 드립다 마시라고 해서 드립커피라고!"이라는 같은 농담만 나오는 식이다.

이런 현상을 전문 용어로 '모드 붕괴(mode collapse)'라고 부른다.

 

최근 미국 노스이스턴대학교, 스탠퍼드대학교, 웨스트버지니아대학교 공동 연구진이 이 문제를 해결할 수 있는 간단한 방법을 발표했다.

놀랍게도 프롬프트에 단 한 문장만 추가하면 AI의 답변 다양성을 1.6배에서 2.1배까지 높일 수 있다는 것이다.

버벌라이즈드 샘플링이란 무엇인가

연구진이 제안한 방법의 이름은 '버벌라이즈드 샘플링(Verbalized Sampling)'이다.

원리는 매우 단순하다. AI에게 하나의 답변을 요구하는 대신, 여러 가능한 답변과 각각의 확률을 함께 제시하도록 요청하는 것이다.

 

기존 방식은 이렇게 물었다.

"커피에 대한 농담을 해줘."

 

새로운 방식은 이렇게 바꾼다.

"커피에 대한 농담 5개와 각각의 확률을 생성해줘."

 

이 차이가 전부다.

하지만 결과는 극적으로 달라진다.

첫 번째 방식은 가장 '안전한' 하나의 답변으로 수렴하지만, 두 번째 방식은 모델이 학습 과정에서 습득한 다양한 표현을 끌어낼 수 있게 만든다.

왜 AI는 비슷한 답변만 내놓았을까

연구진은 이 문제의 원인이 알고리즘의 한계가 아니라 인간의 인지적 습관에 있다고 지적한다.

AI 모델은 인간 피드백 강화 학습(RLHF)을 통해 발전하는데, 이 과정에서 사람들은 익숙하고 전형적인 답변을 더 높게 평가하는 경향이 있다.

 

연구진은 이를 '익숙함 선호(typicality bias)'라고 명명했다.

심리학 연구에 따르면 사람들은 자주 접한 정보를 더 신뢰하고, 처리하기 쉬운 내용을 더 진실하다고 느끼며, 기존 인식과 일치하는 정보를 비판 없이 받아들이는 경향이 있다.

이런 편향이 AI 학습 데이터에 누적되면서, 모델은 점점 더 안전하고 평범한 답변만 선택하게 된 것이다.

 

버벌라이즈드 샘플링은 이 편향을 우회한다. 모델에게 분포를 생성하도록 요청함으로써, 사전 학습 단계에서 습득한 원래의 다양성을 다시 끌어낼 수 있다.

실험 결과 : 다양성 2배 증가, 품질은 유지

연구진은 GPT-4, Claude, Gemini 등 주요 모델을 대상으로 광범위한 실험을 진행했다. 결과는 인상적이었다.

 

창작 글쓰기 과제에서 버벌라이즈드 샘플링은 기존 방식 대비 1.6배에서 2.1배 높은 다양성을 보였다.

시, 이야기, 농담 생성 등 모든 영역에서 일관된 개선을 확인할 수 있었다. 특히 인간 평가자들은 버벌라이즈드 샘플링으로 생성된 결과물의 품질을 25.7% 더 높게 평가했다.

 

흥미로운 점은 이 방법이 모델의 크기가 클수록 더 효과적이라는 것이다.

GPT-4.1이나 Claude-4 같은 대형 모델은 소형 모델보다 약 1.5배에서 2배 높은 다양성 향상을 보였다. 더 강력한 모델일수록 복잡한 지시를 더 잘 이해하고, 숨겨진 다양성을 효과적으로 표현할 수 있기 때문이다.

실용적 활용법 : 상황에 맞게 적용하기

그렇다면 우리는 이 기법을 어떻게 활용해야 할까. 모든 질문에 "5가지 답변과 확률을 제시해줘"라고 물어야 하는 것은 아니다. 오히려 그렇게 하면 선택 장애만 생길 수 있다.

 

급하게 답을 얻고 싶을 때는 그냥 직접 물어보는 것이 낫다.

"저녁 메뉴 추천해 줘"라고 물으면 끝이다.

 

하지만 중요한 결정을 내려야 할 때는 다르다. "노트북 추천을 가장 안전한 선택, 가성비 최고, 미래 지향적 이렇게 3가지로 제시해 줘"라고 요청하면 더 나은 의사결정을 할 수 있다.

 

창작 작업이나 아이디어 발상이 필요할 때 이 방법은 특히 빛을 발한다. "블로그 제목을 감성적 스타일 3개, 전문가 느낌 3개, 유머러스 2개로 제시해줘"라고 하면 훨씬 풍성한 선택지를 얻을 수 있다.

 

연구진은 확률 임곗값을 조절해서 더 창의적인 결과를 얻을 수도 있다고 설명한다. "각 응답의 확률이 0.10 이하인 답변을 생성하라"고 요청하면, 모델이 일반적으로 잘 선택하지 않는 독특한 답변을 제시한다. 다만 일부 모델은 이런 복잡한 지시를 보안 위협으로 오해할 수 있으니, 시스템 프롬프트로 명확하게 설정하는 것이 좋다.

한계와 주의사항

물론 이 방법에도 한계는 있다.

첫째, 여러 개의 답변을 생성하므로 계산 비용이 증가한다. 하나의 답변을 얻을 때보다 토큰 사용량과 응답 시간이 늘어날 수 있다.

 

둘째, 모델의 능력에 따라 효과가 다르다. 작은 모델은 복잡한 지시를 이해하는 데 어려움을 겪을 수 있고, 때로는 품질이 오히려 떨어질 수 있다. 연구진은 적절한 모델 선택과 프롬프트 조정이 필요하다고 조언한다.

 

셋째, 팩트 확인이 필요한 질문에는 적합하지 않다.

"2024년 대통령이 누구야?"라는 질문에 5가지 가능성을 제시받는 것은 의미가 없다. 이 방법은 정답이 여러 개 있거나 창의성이 필요한 상황에서 가장 효과적이다.

재학습 없이 즉시 적용 가능

이 연구의 가장 큰 장점은 접근성이다.

모델을 재학습하거나 내부 파라미터를 조정할 필요가 없다. 사용자는 그저 프롬프트에 한 문장을 추가하기만 하면 된다. 온도나 top-p 같은 복잡한 설정을 건드릴 필요도 없다.

 

연구진은 버벌라이즈드 샘플링 코드를 깃허브에서 오픈소스로 공개했다. 누구나 자유롭게 사용하고 개선할 수 있다.

결론 : AI와의 대화 방식이 바뀐다

이 연구는 AI와 대화하는 방식에 대한 새로운 시각을 제공한다. 우리는 AI에게 '정답'을 요구하는 데 익숙하지만, 때로는 '가능성의 분포'를 요청하는 것이 더 나은 결과를 가져올 수 있다.

 

모드 붕괴는 알고리즘의 문제가 아니라 데이터의 문제였다. 그리고 그 데이터는 결국 우리 인간의 편향을 반영한 것이었다. 버벌라이즈드 샘플링은 이 편향을 우회하여 AI가 본래 가지고 있던 다양성을 되찾게 해준다.

 

앞으로 우리가 AI를 사용하는 방식은 조금씩 변화할 것이다. 단순히 "해줘"라고 명령하는 대신, "여러 방식으로 보여줘"라고 요청하는 습관을 들이는 것. 그것만으로도 AI의 잠재력을 훨씬 더 잘 활용할 수 있다.