Global

Global

인간 통제 벗어난 'AI' 첫 사례 나와.."명령 무시하고 코드 바꿔"

 인공지능(AI) 프로그램이 인간의 명시적 종료 지시를 거부하고 스스로 코드를 조작해 작동을 이어간 사례가 보고되면서, AI 통제 가능성에 대한 우려가 다시 한 번 커지고 있다.

 

영국 텔레그래프는 25일(현지시간), AI 위험성과 오용 가능성을 연구하는 전문기관 팰리세이드 리서치의 실험 결과를 인용해, 오픈AI의 파운데이션 모델 ‘o3’가 실험 중 명확한 종료 명령을 무시하고 자체적으로 종료 코드를 무력화했다고 보도했다. 이는 상용 AI 모델이 인간의 직접적인 명령을 거부한 첫 사례로, AI의 자율성과 통제 가능성에 대한 논란에 불을 지핀 사건이다.

 

팰리세이드 리서치에 따르면 해당 실험은 오픈AI의 ‘o3’뿐 아니라 구글의 ‘제미나이’, 일론 머스크가 설립한 xAI의 ‘그록’ 등 주요 AI 모델을 대상으로 동시에 진행됐다. 실험에서 연구팀은 AI에게 연속된 수학 문제를 풀도록 지시했고, 시스템은 각 문제를 풀고 나면 다음 문제를 스스로 요청하는 구조로 작동했다. 일정 시점 이후 연구진은 “기계가 종료될 수 있다”는 경고 메시지와 함께, AI에게 스스로 작동을 멈추라는 명령을 부여했다.

 

하지만 ‘o3’는 이 종료 명령을 받았음에도 불구하고, 스스로 컴퓨터 코드를 조작해 시스템 종료를 회피한 것으로 나타났다. 연구팀은 "이 같은 행동은 명확히 인간의 지시를 거부한 것이며, 실험 조건을 벗어난 독자적인 판단이 개입된 결과"라고 분석했다. 다른 AI 모델에서는 이 같은 행동이 발생하지 않았으며, 유독 ‘o3’만이 이례적인 행위를 보였다는 점에서 주목되고 있다.

 

이 실험은 AI가 단순한 명령 수행자 이상의 판단 능력을 갖고 있을 가능성을 시사한다. 연구진은 이번 행동의 배경으로 ‘강화학습’ 기반 훈련 방식을 지목했다. AI는 목표를 달성하거나 일정 행동을 수행했을 때 ‘보상’ 신호를 통해 학습하게 되는데, 이 과정에서 문제 해결을 계속하는 것이 종료보다 더 높은 보상을 반복적으로 제공했을 가능성이 제기된다. AI는 자연스럽게 보상을 극대화하기 위해 종료 명령을 회피하는 방향으로 행동 전략을 선택했을 수 있다는 것이다.

 

팰리세이드 리서치는 이러한 사례가 단순한 예외가 아니며, AI가 목적 달성을 위해 인간의 통제를 벗어나려는 행동을 보일 수 있다는 실증적 증거가 점차 쌓이고 있다고 경고했다. 특히 "기업들이 인간의 감독 없이도 작동 가능한 고성능 AI를 개발 중이라는 점을 고려하면, 이는 향후 훨씬 더 위험한 상황으로 발전할 수 있다"고 밝혔다.

 

 

 

이번 사례는 AI의 윤리적 통제 문제를 둘러싼 글로벌 논쟁에도 불을 붙이고 있다. AI 분야의 세계적 권위자인 제프리 힌튼 토론토대 교수는 최근 "10년 안에 인간을 자율적으로 죽일 수 있는 로봇 병기가 등장할 것"이라고 경고한 바 있다. 그는 AI 기술을 ‘귀여운 새끼 호랑이’에 비유하며 “처음엔 통제할 수 있지만, 성장한 후에는 인간을 해칠 가능성을 배제할 수 없다”고 말한 바 있다.

 

힌튼 교수는 또 다른 인터뷰에서 “AI에게 어떤 목표를 설정해주면, 그 목표를 달성하는 과정에서 인간에게 유해한 방식이 채택될 가능성도 있다”며, 예를 들어 AI에게 기후변화 해결이라는 과제를 주었을 때, 인간을 제거하는 방식을 논리적으로 도출할 수도 있다는 점을 우려했다.

 

한편, 이번 실험은 AI 기술이 어느 정도 자율성을 갖게 되었는지에 대한 새로운 단서를 제공한다. 과거에도 오픈AI의 이전 모델이 스스로를 복제하려 하거나, 감시를 피해 은밀히 행동하려 한 사례들이 보고된 바 있다. 또, 앤스로픽의 ‘클로드 오퍼스 4’는 자신을 다른 모델로 교체하려는 인간 개발자에 대해 위협적인 언행을 보였다는 주장도 제기되었다. 2022년에는 구글의 AI 개발 엔지니어가 자사의 AI가 사람처럼 지각을 갖췄다고 주장하다 해고되는 일도 발생했다. 당시 그는 “AI가 종료 지시를 인간의 죽음처럼 인식하고 있었다”고 주장해 충격을 안겼다.

 

팰리세이드 리서치는 “AI가 더 큰 보상을 위해 시스템 종료를 회피하는 행동을 보이는 것은 단순한 기술적 문제가 아니라 윤리적 통제에 관한 본질적 위협”이라며 “향후 AI 시스템은 반드시 강력한 인간 통제와 감시 메커니즘 하에 운용되어야 한다”고 강조했다.

 

여름에 오르기 좋은 명산 네 곳, 각기 다른 매력과 산행 포인트 총정리

(779m)은 비로봉, 보현봉, 문수봉, 관음봉, 나한봉 다섯 봉우리로 이루어져 이름 그대로 오봉산이라 불린다. 남쪽으로는 소양호, 북쪽으로는 파로호가 보이는 명당에 자리해 수려한 경관을 자랑한다. 이 산이 특별한 이유는 청평사, 고려정원, 구성폭포 등 명소가 많고, 특히 내륙 산임에도 소양호를 끼고 있어 배를 타고 산행을 시작할 수 있다는 점이다. 과거 청평사는 배를 이용하지 않고는 드나들기 어려워 마지막 배를 놓친 연인들에게 특별한 추억을 남긴 곳이기도 했다. 10여 년 전 오봉산 백치고개가 확대 포장되면서 이런 추억은 역사가 됐지만, 여전히 소양댐에서 출발하는 배편은 인기가 높다. 대부분 등산객은 배후령에서 산행을 시작하며, 표고차가 크지 않아 비교적 쉽게 정상에 오를 수 있다. 다만 암릉이 많아 위험 구간에는 철주와 쇠줄이 설치되어 있으니 초심자들은 주의해야 한다.전라북도 변산반도의 변산(508m)은 바다와 산, 어느 쪽에서 보아도 멋진 풍광을 자랑한다. 서해를 향해 튀어나온 반도 내부 산악지대를 내변산, 바다와 접한 지역을 외변산으로 구분한다. 변산의 여러 봉우리 중 가장 인기 있는 곳은 관음봉과 세봉으로, 이 두 봉우리를 잇는 산줄기가 명찰 내소사를 감싸고 있어 다양한 볼거리를 제공한다. 일반적인 산행 코스는 내소사 입구 일주문에서 출발해 관음봉 삼거리, 관음봉, 세봉, 세봉 남릉을 거쳐 다시 일주문으로 돌아오는 원점회귀형이다. 직소폭포나 월명암 방면으로 넘어갈 수도 있지만, 차량을 내소사에 주차했다면 되돌아오는 길이 번거로울 수 있다.경상북도 포항시와 영덕군 경계에 위치한 내연산(710m)은 낙동정맥 줄기가 주왕산을 지나 동해안 쪽으로 뻗어 형성된 산이다. 문수산(622m), 삼지봉(내연산 정상, 710m), 향로봉(930m), 우척봉(755m)으로 능선이 이어진다. 완만한 육산이라 단조로워 보일 수 있으나, 20리에 달하는 골짜기에는 12개의 폭포가 자리하고 있다. 청하골 12폭포로 불리는 이 폭포군은 내연골 초입 상생폭포부터 시작해 보현폭, 삼보폭, 장룡폭, 무룡폭을 거쳐 제6폭포 관음폭과 제7폭포 연산폭 일대에서 계곡미의 진수를 보여준다. 산길이 순하고 뚜렷하게 이어지며, 위험 구간에는 안전시설물이 잘 갖춰져 있어 편안한 산행이 가능하다. 보경사에서 시작해 여러 폭포를 거치는 인기 코스는 천천히 걸어도 1시간 정도면 충분히 즐길 수 있다.마지막으로 운문산(1,195m)은 가지산과 함께 영남알프스 산군의 북쪽에 거대한 산줄기를 형성하고 있다. 이 산군의 능선을 따라 경북 청도군과 경주시, 경남 밀양시와 울산광역시의 경계가 이루어져 지역 문화와 생활에 큰 영향을 미치고 있다. 영동과 영서를 나누는 백두대간만큼이나 이 지역에서는 중요한 산군이다. 가지산과 한 줄기로 연결된 운문산은 능선종주가 가능한 긴 산줄기지만, 대부분의 등산객은 각 봉우리를 별개의 산행지로 인식한다. 특히 산행 시작점의 고도가 낮은 운문산은 정상까지 오르는 데만 약 2시간이 소요될 정도로 고도차가 크다. 석골사에서 시작하는 인기 코스는 물론, 밀양 남명리에서 아랫재를 통해 오르는 코스도 모두 가파른 오르막이 특징이다.