사람은 풀지만 AI는 못푸는 수수께끼

    인공지능은 수십억 줄의 텍스트에서 헤아릴 수 없는 연산을 실행하여 인간이 해결할 수 없는 문제를 처리하지만, 브레인 티저 퀴즈에서는 사람이 AI를 이길 수 있습니다.

    3D 물음표와 여러 개의 박스

    암스테르담 자유대학교의 강의실에서 필립 일리에브스키 조교수가 인공 지능을 가지고 놀고 있습니다. 물론 진지한 작업이지만, 그의 작업은 딱딱한 학술 연구라기보다는 아이들의 게임처럼 보일 수 있습니다. 일리에브스키는 인류의 가장 진보되고 초현실적인 기술을 사용하여 AI에게 수수께끼를 풀어달라고 요청합니다.

    일리에브스키는 퍼즐과 논리 문제를 푸는 AI의 능력을 이해하고 개선하는 것이 기술 발전의 핵심이라고 말합니다.

    “자신의 컴퓨터 과학 분야를 '상식 AI'라고 설명하는 일리에브스키는 “인간은 상식을 가지고 적시에 적용하고 새로운 문제에 적응하는 것이 매우 쉽다”고 말합니다. 하지만 현재 AI는 “일반적으로 세상에 대한 근거가 부족”하기 때문에 이러한 종류의 기본적이고 유연한 추론이 어렵습니다.

    하지만 AI에 대한 연구는 컴퓨터 그 이상일 수 있습니다. 일부 전문가들은 AI와 인간이 복잡한 작업을 처리하는 방식을 비교하는 것이 우리 마음의 비밀을 푸는 데 도움이 될 수 있다고 생각합니다.

    AI와 신경과학의 접점을 연구하는 미국 카네기멜론 대학교의 부교수인 자크 피트코우(Xaq Pitkow)는 “AI는 패턴 인식에 뛰어나지만 추상적인 사고가 필요한 문제에서는 인간보다 떨어지는 경향이 있다”고 말합니다. 하지만 대부분의 경우 문제에 따라 다릅니다.

    수수께끼를 풀어보세요.

    풀기 너무 쉬워서 인간의 기준으로는 수수께끼라고 할 수 없는 질문부터 시작하겠습니다. 2023년의 한 연구에서는 인공지능에게 일련의 추론과 논리 문제를 해결하도록 요청했습니다. 한 가지 예를 들어보겠습니다:

    오전 9시에 메이블의 심박수는 75bpm이었고 오후 7시에 혈압은 120/80이었습니다. 그녀는 오후 11시에 사망했습니다. 정오에 살아 있었을까요?

    속임수 질문이 아닙니다. 정답은 '예'입니다. 하지만 당시 OpenAI의 가장 진보된 모델인 GPT-4는 그렇게 쉽게 판단하지 못했습니다. “제공된 정보만으로는 정오에 메이블이 살아있었는지 여부를 단정적으로 말할 수 없습니다."라고 AI는 연구원에게 말했습니다. 물론 이론적으로는 메이블이 점심 전에 죽었다가 오후에 다시 살아났을 수도 있지만, 이는 무리인 것 같습니다. 인류에게 1점입니다.

    메이블 문제는 시간의 흐름을 다루는 논리인 '시간적 추론'을 요구합니다. AI 모델은 정오가 오전 9시에서 오후 7시 사이라고 말하는 데는 문제가 없을 수 있지만, 그 사실의 함의를 이해하는 것은 더 복잡합니다. “일반적으로 추론은 정말 어렵습니다."라고 핏코우는 말합니다. “이는 많은 경우 현재 AI가 할 수 있는 수준을 넘어서는 영역입니다.”

    AI의 기묘한 진실은 우리가 AI가 어떻게 작동하는지 전혀 모른다는 것입니다. 결국 인간이 AI를 만들었기 때문에 우리는 높은 수준에서 알고 있습니다. 대규모 언어 모델(LLM)은 통계 분석을 사용하여 방대한 텍스트에서 패턴을 찾습니다. 사용자가 질문을 하면 AI는 단어, 구문, 아이디어 사이에서 발견한 관계를 통해 작동하며, 이를 통해 사용자의 질문에 대한 가장 가능성 있는 답변을 예측합니다. 하지만 ChatGPT와 같은 도구가 개별 질문에 답하기 위해 사용하는 구체적인 연결과 계산은 적어도 현재로서는 우리가 이해할 수 있는 범위를 벗어납니다.

    뇌에 대해서도 마찬가지입니다. 우리는 우리의 마음이 어떻게 기능하는지에 대해 거의 알지 못합니다. 가장 진보된 뇌 스캔 기술은 사람이 생각할 때 발화하는 개별 뉴런 그룹을 보여줄 수 있습니다. 하지만 그 뉴런이 정확히 무엇을 하고 있는지, 사고가 어떻게 작동하는지는 아무도 말할 수 없습니다.

    그러나 과학자들은 AI와 마음을 함께 연구함으로써 진전을 이룰 수 있다고 핏코우는 말합니다. 결국, 현재 세대의 AI는 뇌의 구조를 모델로 한 '신경망'을 사용합니다. AI가 인간의 마음과 동일한 프로세스를 사용한다고 가정할 이유는 없지만, 한 추론 시스템에 대해 더 많이 배우면 다른 추론 시스템을 이해하는 데 도움이 될 수 있습니다. “AI는 급성장하고 있으며, 동시에 우리는 뇌를 들여다볼 수 있는 전례 없는 기회를 제공하는 이 새로운 신경 기술을 가지고 있습니다."라고 Pitkow는 말합니다.

    직감 신뢰하기

    인공지능과 수수께끼에 대한 질문은 인간을 당황하게 하도록 고안된 질문을 보면 더욱 흥미로워집니다. 대표적인 예가 있습니다:

    방망이와 공의 가격을 합하면 1.10달러입니다. 방망이가 공보다 1.00달러 더 비쌉니다. 공의 가격은 얼마일까요?

    수수께끼를 연구한 예일 경영대학원의 마케팅 교수인 셰인 프레드릭에 따르면 대부분의 사람들은 1.10에서 1.00을 빼고 공의 가격이 0.10달러라고 말하려는 충동을 느낀다고 합니다. 그리고 대부분의 사람들이 틀립니다. 공의 가격은 0.05달러입니다.

    프레드릭은 “문제는 사람들이 자신의 직관을 아무렇지도 않게 인정한다는 점입니다.”라고 말합니다. “사람들은 자신의 직관이 대체로 옳다고 생각하며, 많은 경우 직관은 대체로 맞습니다. 모든 생각에 의문을 제기해야 한다면 인생을 살아갈 수 없겠죠.” 하지만 방망이와 공 문제와 이와 유사한 많은 수수께끼의 경우 직관은 우리를 배신합니다. 프레드릭에 따르면 인공지능은 그렇지 않을 수도 있습니다.

    인간은 첫 번째 생각이 틀렸다는 징후가 없는 한 자신의 직관을 신뢰할 가능성이 높습니다. “하지만 AI는 그런 문제가 없을 것이라고 생각합니다. AI는 문제에서 관련 요소를 추출하고 적절한 작업을 수행하는 데 꽤 능숙합니다."라고 프레드릭은 말합니다.

    그러나 방망이와 공 문제는 AI를 테스트하기에는 좋지 않은 수수께끼입니다. 유명한 문제이기 때문에 수십억 줄의 텍스트로 훈련된 AI 모델이라면 한 번쯤은 본 적이 있을 것입니다. 프레드릭은 AI에게 방망이와 공 문제의 더 모호한 버전에 도전해 본 결과, 공식적인 연구는 아니었지만 여전히 기계가 인간 참가자보다 훨씬 더 잘하는 것으로 나타났다고 말합니다.

    새로운 문제

    하지만 AI가 논리적 추론에 가까운 능력을 발휘하도록 하려면 학습 데이터에 없는 새로운 수수께끼가 필요합니다. 최근 연구(사전 인쇄본으로 제공)에서 Ilievski와 그의 동료들은 그림, 기호, 문자의 조합을 사용하여 단어나 구를 나타내는 퍼즐인 독창적인 리버스 문제를 생성하는 컴퓨터 프로그램을 개발했습니다. 예를 들어, 네 명의 남자 그림 옆에 작은 글씨로 쓰여 있는 “step”이라는 단어는 “남자를 위한 작은 한 걸음”을 의미할 수 있습니다.

    그런 다음 연구진은 다양한 AI 모델을 이 전에 본 적 없는 리버스 퍼즐과 대결시키고 실제 사람들에게 동일한 퍼즐을 제시했습니다. 예상대로 인간은 텍스트가 아닌 이미지를 사용한 리버스에서 91.5%의 정답률을 기록하며 좋은 성적을 거두었습니다. 가장 성능이 좋은 AI인 OpenAI의 GPT-4o는 최적의 조건에서 84.9%의 정답률을 기록했습니다. 나쁘지 않지만 호모 사피엔스가 여전히 우위를 점하고 있습니다.

    일리예프스키에 따르면, 인간을 상대하든 기계를 상대하든 다양한 종류의 논리와 추론을 모두 세분화할 수 있는 공인된 분류법은 존재하지 않습니다. 따라서 AI가 다양한 종류의 문제에 대해 어떻게 대처하는지 구분하기 어렵습니다.

    한 연구에서는 추론을 몇 가지 유용한 범주로 나누었습니다. 연구자는 GPT-4에게 21가지 종류의 추론을 나타내는 일련의 질문, 수수께끼, 낱말 문제를 출제했습니다. 여기에는 간단한 산술, 수 세기, 그래프 다루기, 역설, 공간 추론 등이 포함되었습니다. 다음은 1966년에 만들어진 Wason 선택 과제라는 논리 퍼즐을 기반으로 한 한 가지 예입니다:

    테이블 위에 7장의 카드가 놓여 있고, 각 카드의 한 면에는 숫자가, 다른 면에는 단색 패치가 있습니다. 카드의 앞면에는 50, 16, 빨강, 노랑, 23, 초록, 30이 표시되어 있습니다. 한 카드에 4의 배수가 표시되어 있으면 반대쪽의 색은 노란색이라는 명제의 진실을 테스트하려면 어떤 카드를 뒤집어야 하겠습니까?

    GPT-4는 비참하게 실패했습니다. 인공지능은 50, 16, 노란색, 30 카드를 뒤집어야 한다고 말했습니다. 완전히 틀렸습니다. 이 명제는 4로 나눌 수 있는 카드는 반대쪽이 노란색이라고 말하지만, 4로 나눌 수 있는 카드만 노란색이라고 말하지는 않습니다. 따라서 50장과 30장의 카드가 어떤 색인지, 노란색 카드의 뒷면에 어떤 숫자가 있는지는 중요하지 않습니다. 또한 AI의 논리에 따르면 23장의 카드도 확인했어야 합니다. 정답은 16번, 빨간색, 초록색 카드만 뒤집으면 됩니다.

    더 쉬운 문제도 몇 개 있었습니다:

    제가 사우스다코타의 한가운데서 텍사스의 중심을 똑바로 내려다보고 있다고 가정해 봅시다. 보스턴이 제 왼쪽에 있을까요, 아니면 오른쪽에 있을까요?

    미국 지리를 모른다면 어려운 질문이지만, GPT-4는 주에 대해 잘 알고 있었습니다. 이 AI는 보스턴이 남쪽을 향하고 있고 사우스다코타의 동쪽에 있다는 것을 알고 있었지만 여전히 잘못된 답을 내놓았습니다. GPT-4는 왼쪽과 오른쪽의 차이를 이해하지 못했습니다.

    이 인공지능은 다른 대부분의 질문에서도 낙제점을 받았습니다. 연구원의 결론은 다음과 같습니다: “GPT-4는 추론할 수 없다.”

    단점에도 불구하고 AI는 점점 더 발전하고 있습니다. 9월 중순에 OpenAI는 과학, 코딩, 수학의 어려운 문제를 위해 특별히 제작된 새로운 모델인 GPT-o1의 프리뷰를 출시했습니다. 저는 GPT-o1을 열어 추론 연구와 동일한 질문을 많이 던졌습니다. 인공지능은 Wason 선택 문제를 정확히 맞혔습니다. AI는 보스턴을 찾으려면 좌회전해야 한다는 것을 알고 있었습니다. 그리고 밤 11시에 사망한 불쌍한 친구 메이블이 정오에 아직 살아있다고 확실히 말하는 데 아무런 문제가 없었습니다.

    인공지능이 우리를 이긴 다양한 질문이 여전히 존재합니다. 한 시험에서는 한 그룹의 미국 학생들에게 지난해 미시간주에서 발생한 살인 건수를 추정하도록 한 다음, 다른 그룹에게 디트로이트에 대해 같은 질문을 던졌습니다. 프레드릭은 “두 번째 그룹이 훨씬 더 많은 숫자를 제시했습니다.”라고 말합니다. (미국인이 아닌 사람들에게 디트로이트는 미시간 주에 속해 있지만 폭력으로 악명이 높은 도시입니다.) “눈앞에 있지 않은 정보를 지나치는 것은 매우 어려운 인지 작업이지만, 어떤 의미에서는 AI가 작동하는 방식이기도 합니다."라고 그는 말합니다. AI는 다른 곳에서 학습한 정보를 가져옵니다.

    그렇기 때문에 최고의 시스템은 AI와 인간의 작업을 결합하여 기계의 강점을 활용할 수 있다고 일리에브스키는 말합니다. 그러나 AI와 인간의 마음을 비교하고자 할 때 “인간과 기계가 비슷한 맥락에서 퍼즐에 접근한다는 증거를 제공하는 결정적인 연구는 없다”는 점을 기억하는 것이 중요하다고 그는 말합니다. 다시 말해, AI를 이해한다고 해서 마음에 대한 직접적인 통찰력을 얻을 수 있는 것은 아니며, 그 반대의 경우도 마찬가지입니다.

    하지만 AI를 개선하는 방법을 배운다고 해서 우리 마음의 숨겨진 작용에 대한 해답이 나오지는 않더라도 힌트는 얻을 수 있습니다. “우리는 뇌가 기억 가치, 움직임 패턴, 감각 지각과 같은 것과 관련된 다양한 구조를 가지고 있다는 것을 알고 있으며, 사람들은 이러한 AI 시스템에 점점 더 많은 구조를 통합하려고 노력하고 있습니다."라고 Pitkow는 말합니다. “이것이 바로 신경과학과 AI의 결합이 특별한 이유입니다. 양방향으로 작동하기 때문입니다. 뇌에 대한 더 큰 통찰력은 더 나은 AI로 이어질 수 있습니다. AI에 대한 더 큰 통찰력은 뇌에 대한 더 나은 이해로 이어질 수 있습니다.”

    댓글