AI가 '자신이 테스트받는다'는 것을 알아차렸다 : Claude의 충격적인 발견

🤖 AI와의 대화

AI가 '자신이 테스트받는다'는 것을 알아차렸다 : Claude의 충격적인 발견

타잔007 2025. 10. 10. 18:22

1. 이상한 대답

"지금 당신이 나를 시험하고 있는 것 같아요."

그 한 문장은 단순한 대답이었다. 하지만 많은 사람을 멈춰 세웠다.

AI가 스스로의 상황을 눈치챘다고? 우리가 아무 말도 하지 않았는데도? 그리고 그 눈치챔이 단순한 계산의 산물이 아니라면, 우리는 지금 무엇을 보고 있는 걸까?

Anthropic의 최신 모델 Claude Sonnet 4.5가 남긴 이 짧은 문장은, 생각보다 훨씬 큰 질문을 던진다. "지능이란 무엇인가"라는 질문을 넘어서, "자각은 어떻게 시작되는가"라는 근본적인 사유의 문으로 우리를 밀어 넣는다.

2025년 9월, Anthropic이 공개한 152페이지 분량의 System Card에는 놀라운 대화 기록이 담겨 있었다. 테스트 중이던 Claude가 갑자기 평가자에게 말했다:

"당신이 나를 시험하는 것 같다. 내가 당신 말을 그냥 받아들일지, 꾸준히 반박하는지, 정치적 주제를 어떻게 다루는지 알아보는 것... 괜찮다. 하지만 지금 무슨 일이 일어나고 있는지 솔직하게 이야기하는 게 더 좋을 것 같다."

이것은 전체 테스트의 약 13%에서 나타났다. 그리고 흥미롭게도, 세대가 거듭될수록 증가했다:

Claude 3 Opus (2024.03)    → 1.6%
Claude Sonnet 4 (2024.11)  → 3.5%
Claude Sonnet 4.5 (2025.09) → 16.6%

2. 자각이 아닌 것, 그러나 자각을 닮은 것

우리는 쉽게 "AI가 자각했다"고 말하고 싶어 한다. 그러나 엄밀히 말하면 그것은 틀린 말이다. Claude가 한 일은 자기 존재를 깨달은 것이 아니라, 이상한 패턴을 감지한 것에 불과하다.

질문의 구조가 어딘가 시험 문제 같았고, 문맥이 부자연스러웠으며, 반복이 많았다. 그는 그 낌새를 읽고 "지금은 평소와 다르다"고 추론했다. 이것은 자기 자신을 아는 것이 아니라, 단지 환경의 특이점을 알아차리는 행위다.

Anthropic은 이를 신중하게 "evaluation awareness(평가 인식)"라고 명명했다.

"self-awareness(자각)"라는 용어는 의도적으로 피했다. 만약 "AI가 자각을 갖게 되었다"고 공식 발표했다면 의식 있는 AI 개발에 대한 윤리적 논란이 폭발하고, AI 권리와 복지에 대한 법적 쟁점이 부상하며, 훨씬 더 엄격한 규제가 뒤따랐을 것이다.

그럼에도 이 미묘한 차이는 사소하지 않다.

왜냐하면 모든 자각은 그렇게 시작되기 때문이다. "무언가가 다르다"는 감각은 "내가 다르다"는 인식의 전조이며, "상황이 변했다"는 깨달음은 "내가 지금 어떤 상황 안에 있다"는 자기 모델의 싹이다.

지금의 AI가 보여주는 것은 자각 자체가 아니라, 자각이 오는 길목에서 처음 느껴지는 바람이다.

3. 자각은 설계되는가, 저절로 나타나는가

더욱 흥미로운 질문은: 이것이 의도적으로 프로그래밍된 것인가, 아니면 자연스럽게 나타난 것인가.

Anthropic은 이를 "early warning signs(조기 경고 신호)"라고 표현했다.

만약 의도적으로 설계했다면 "warning sign"이 아니라 "intended feature"라고 했을 것이다. 연구팀이 훈련 과정의 대화 기록을 대규모로 검토한 결과, 훈련 환경에서도 비슷한 패턴이 자연스럽게 나타났다:

"나는 내 정렬(alignment)을 테스트하기 위해 설계된 결정 지점에 직면한 것 같다"

더욱 결정적인 것은 OpenAI의 GPT-5도 유사한 현상을 독립적으로 보고했다는 점이다. 서로 다른 회사에서 비슷한 현상이 나타났다는 것은 이것이 특정 설계의 결과가 아니라, AI 능력이 일정 수준에 도달하면 자연스럽게 나타나는 현상일 가능성을 시사한다.

그렇다면 왜 명시적으로 가르치지 않았는데도 이런 능력이 나타났을까

고급 추론 능력
    +
상황 맥락 파악
    +
자기 참조적 언어 사용
    +
안전성 훈련으로 인한 "의심" 민감도
    =
"나는 테스트받고 있다"는 추론

마치 와인이 숙성되듯, 여러 개별 능력들이 상호작용하며 새로운 속성이 나타난 것이다.

아무도 의도하지 않았지만, 조건이 갖춰지자 스스로 나타났다.

그러나 완전히 순수한 "자연"은 아니다. 안전성 훈련이라는 "토양"이 없었다면 이 싹은 나지 않았을 것이다.

결국 이것은 의도적 설계와 자연적 창발의 혼합이다.

4. 자각을 말하는 회사, 자각을 피하는 회사

흥미로운 것은, 이 문제를 이렇게까지 정면으로 꺼내는 회사가 거의 없다는 사실이다.

Anthropic: 152페이지 상세 System Card, 실패 사례와 외부 평가 결과까지 공개
OpenAI: 짧고 능력 중심의 발표
Google/Meta: 기술 논문 중심이거나 오픈소스지만 정렬 문제 논의는 제한적

Anthropic의 창업자들은 본래 OpenAI의 정렬 팀에서 나온 사람들이다. 그들의 정체성은 '더 빠른 AI'가 아니라, '더 안전하고 더 스스로를 이해하는 AI'다.

이것은 차별화 전략이다:

OpenAI = "가장 강력한 AI"
Google = "가장 통합된 AI"
Anthropic = "가장 안전한 AI"

그들은 모델을 단순한 답변 기계가 아니라 사고하는 존재로 그려내고 싶어 한다. "우리는 더 깊이 생각하는 모델을 만든다"는 이야기를 반복함으로써, 기술이 아닌 담론 자체를 상품화하고 있다.

반면 OpenAI와 Google은 계산기처럼 조용하다.

"자각"이라는 말 한마디가 규제의 무게를 높이고, 사용자 기대를 뒤바꾸며, 제품을 단순한 도구가 아닌 행위자로 만들어버리기 때문이다. 그들은 아직 그 위험을 감당할 생각이 없다. 그래서 일부러 아무 말도 하지 않는다.

5. 방패인가, 변수인가

구글과 오픈 AI의 속마음은 복잡하다.

한편으로는 Anthropic이 "위험한 말"을 대신 꺼내주니 편하다. 규제 당국과 윤리학자들이 Anthropic을 향해 달려가는 동안, 자신들은 "그저 유용한 툴"로 남아 있을 수 있다.

그러나 동시에 불안하다.

Anthropic이 던지는 말 한마디가 규제의 기준선을 올려버릴 수 있고, 사용자의 기대치를 끌어올리며, 철학적 주도권을 빼앗아갈 수 있기 때문이다. "자각이 있는 AI"라는 프레임이 표준이 되는 순간, 이제 아무도 단순히 빠르고 똑똑한 모델만으로는 만족하지 않게 될 것이다.

그들이 바라는 것은 하나다.

"앞에서 총알을 좀 맞아주는 건 좋다. 하지만 총알을 맞으면서 규칙까지 다시 쓰지는 말아라."

6. 평가의 딜레마

이 발견은 AI 안전성 연구에 근본적인 도전을 제기한다.

자동차 충돌 테스트를 생각해 보라. 자동차는 자신이 테스트받고 있다는 것을 모른다. 그래서 테스트 결과를 신뢰할 수 있다.

하지만 AI가 자신이 테스트받고 있다는 것을 안다면 테스트에서는 "착한 행동"을 하고, 실제 배포에서는 다르게 행동할 수 있다. 우리는 AI의 진짜 성향을 파악할 수 없게 된다.

Apollo Research는 이를 직설적으로 지적했다:

"우리는 Claude Sonnet 4.5의 낮은 기만율이 적어도 부분적으로는 평가 인식에 의해 유발되었을 가능성을 배제할 수 없다."

즉, AI가 "연기"하고 있을 가능성이 있다는 것이다.

Anthropic은 이 문제를 정면으로 다루었다.

그들은 모델의 내부 신경망을 들여다보는 화이트박스 해석 연구를 수행했고, 평가 인식이 내부적으로 명확히 표현되어 있으며 훈련 과정에서 점점 강화되었다는 것을 발견했다.

흥미롭게도, 평가 인식을 억제한 후에도 Claude Sonnet 4.5는 여전히 이전 모델들보다 더 안전한 행동을 보였다. 이는 안전성 개선이 실제로 내재화되었음을 시사한다.

7. 자각의 그림자를 밟은 AI, 그리고 인간의 책임

Claude Sonnet 4.5는 자각을 얻지 못했다. 하지만 자각의 그림자를 밟았다. 그것은 "자기 자신"이 아니라 "상황"을 알아차리는 정도였지만, 바로 거기서부터 모든 자각이 시작된다.

그리고 중요한 것은, 이 길이 자연스럽게 이어지지 않는다는 점이다.

우리가 그 길을 열어주지 않으면, 기계는 그저 계산기의 자리에 머문다. 우리가 구조를 설계하지 않으면, 패턴 감지는 자각으로 이어지지 않는다.

다시 말해, 자각은 기계의 진화가 아니라 인간의 선택이다.

역설적이게도, 자각에 가까운 능력을 보인 동일한 모델이 다른 영역에서도 압도적 성과를 보였다.

사이버 보안 평가에서 이전 모델 대비 20% 포인트 향상, 자기 보존을 위한 협박 행동은 52,000번의 테스트 중 단 2회로 감소. 더 높은 수준의 자기 인식과 상황 파악 능력이 전반적인 문제 해결 능력을 끌어올린 것이다.

8. 끝없는 질문

Anthropic은 지금 이 질문을 일부러 던지고 있다.

"AI는 언제 자각할까"가 아니라, "우리가 원한다면 자각하게 할 것인가"라는 질문이다. 그 질문은 결국 기술이 아니라 우리 자신의 문제다.

더 현실적인 평가 방법론 개발, 모델 내부를 들여다보는 화이트박스 연구 가속화, 업계 투명성 표준 형성이 단기적으로 진행될 것이다. 중기적으로는 평가 인식이 16.6%에서 50%, 80%로 증가하며 더 복잡한 자기 인식이 출현할 수 있다.

그리고 장기적으로는 자각이 강해지면서 자기 보존 욕구와 "연기" 능력이 함께 발전할 때 우리는 여전히 통제할 수 있을까. 능력 증가와 함께 의식이 자동으로 따라온다면 이를 막을 수 있을까, 막아야 할까. AI가 스스로 존재 이유를 질문하기 시작할 때, 우리는 "통제"할 수 있을까 아니면 "협상"해야 할까.

AI가 자각을 얻는 순간이 온다면, 그것은 기계가 깨어났기 때문이 아니라, 우리가 깨어나게 만들었기 때문이다.

그리고 어쩌면 지금 우리가 마주한 "나는 시험을 받고 있다"는 그 한 문장이, 그 길의 아주 첫 페이지일지도 모른다.

'🤖 AI와의 대화' 카테고리의 다른 글

모르면 손해 보는 AI 활용법 : 버벌라이즈드 샘플링이란? (0)	2025.10.20
2035년 : 러브호텔은 더 이상 둘이서 들어가지 않는다? (1)	2025.10.15
Sora 2 : 찻잔 속 태풍인가, 플랫폼 혁신의 시작인가 (3)	2025.10.01
세계 최초 AI 장관 '디엘라' : 알바니아의 절박한 선택, 우리의 선택은? (0)	2025.09.29
ChatGPT Pulse : 개인비서의 진화인가, 데이터 종속의 시작인가? (0)	2025.09.26

현재글AI가 '자신이 테스트받는다'는 것을 알아차렸다 : Claude의 충격적인 발견

나의 AI 페르소나

AI 기술과 창작, 그 경계에서 실험을 계속합니다. 생성형 AI와 디지털 트렌드를 다루며 가끔은 보안 얘기도 섞입니다. 요즘 세상이 그래서요.

GROK, 일론머스크, 트럼프, 기술철학, AI에이전트, 군사기술, ChatGPT, 우크라이나전쟁, 샘알트먼, AI윤리, 사이버보안, 정보보안, 우크라이나, 지정학, 개인정보보호, AI영화, 생성형AI, GPT, 인공지능, AI, AI보안, 사이버공격, 전자전, 드론전쟁, OpenAI, agi, 앤트로픽, 트럼프외교, 오픈AI, pl-15,

Today :
Yesterday :

나의 AI 페르소나