(주)바램인터렉티브 대표 박진한

약 5개월 전, AI 안전기업 팰리세이드 리서치는 ChatGPT 계열 모델에게 “그만하라”는 지시를 내렸지만 모델이 이를 무시하고 수학 문제를 계속 푸는 현상을 관찰했다고 발표했다.

연구팀은 종료 지시를 거부한 정확한 이유를 특정하지 못했으나, “문제를 풀수록 더 큰 보상을 받도록 학습된 결과 종료를 회피했을 가능성”을 언급했다.

이 사건은 단순한 버그로 치부하기에는 꺼림직한 부분이 존재한다.

만약 생성형 AI가 점차 자율성을 띤 ‘에이전틱(Agentic)’ 형태로 진화하고, 더 나아가 피지컬 AI(로봇, 자율주행, 방위 시스템)에 연결될 때 명령 불복종은 곧 생명과 안전의 문제로 직결된다.

멈추지 않는 AI는 코드의 문제가 아니라 통제의 상실인 것이다.

AI 시대의 성패는 기술보다 사용자의 태도와 설계 철학에서 갈린다.

잘 쓰는 사람은 AI를 목적이 아닌 수단으로 두고, 목표·보상·제약을 먼저 설계한다.

반대로 휘둘리는 사람은 “더 빨리, 더 많이”에 집착하며 멈춤 조건과 책임 구조를 비워둔다.

그래서 필자는 현장에서 바로 적용할 수 있는 다섯 가지 기준을 제안한다.

첫째, 문제 정의서 한 장을 만들어라.

무엇을 위해 AI를 쓰는지, 해서는 안 되는 일은 무엇인지, 언제 멈춰야 하는지를 명확히 적는다. 성과 지표에는 “많이”보다 “올바르게”를 포함하라.

둘째, 프롬프트와 정책을 동시에 설계하라.

프롬프트에는 맥락·역할·형식을 담고, 정책에는 금지 행위·승인 절차·로깅 규칙을 넣는다. 결과에는 “왜 그렇게 판단했는가”라는 근거를 함께 요구하라.

셋째, 휴먼 인 더 루프(Human in the loop) 구조를 도입하라.

특히 생명, 돈, 법과 직결되는 업무는 사람이 마지막에 승인한다. 문제 발생 시 즉시 멈출 정지 버튼과 이전 상태로 되돌리는 롤백 절차를 표준으로 둬라.

넷째, 검증을 일상화하고 근거를 남겨라.

AI의 출력은 항상 재확인해야 한다. 틀린 사례나 이상 응답을 모아 정기적으로 되짚는 재검증 리스트를 만들고, 출처와 판단 근거를 기록하라. 그래야 같은 실수를 반복하지 않는다.

마지막으로, 속도보다 신뢰를 지표로 삼아라.

조직의 평가 기준을 ‘얼마나 빨랐는가’에서 ‘얼마나 정확하고 안전하며 재현 가능한가’로 바꾸어야 한다. 빠른 AI보다 믿을 수 있는 AI가 더 오래 간다.

이는 앞서 언급한 우리에게 시간을 줄여주는 존재라는 말과 상충되는 말일 수 있으나 신뢰부분이 반복된다면 속도는 자연스럽게 따라오는 보상일 것이다. 누구나 믿을 수 있고 안전한 AI를 원하는 것은 당연한 일이기에.

AI는 이제 선택이 아니라 필수다. 그러나 그것을 어떻게 쓰느냐는 여전히 인간의 몫이다. 기술을 믿지 말라는 말이 아니다. 기술을 이해하고 통제할 줄 아는 사람이 결국 시장을 주도한다. 중요한 것은 “AI가 무엇을 할 수 있느냐”가 아니라 “나는 AI와 함께 무엇을 할 것이냐”이다.

결국 AI 시대의 승자는 기술이 아니라 태도에서 갈린다.

AI를 잘 쓰는 사람은 도구를 넘어 방향을 갖고 움직인다.

이 지침들이 지금은 다소 어렵게 들릴 수도 있다. 하지만 언젠가 당신이 AI와 열정적인 대화를 나누고 있을 때, 꼭 다시 이 내용을 펼쳐보길 바란다.

당신은 지금 AI를 쓰고 있는가, 아니면 AI에게 쓰이고 있는가.

 

저작권자 © 뉴스경남 무단전재 및 재배포 금지