시험장에 들어가서, 대학을 졸업한 사람이라면 누구나 풀 수 있는 시험을 치르고, 그 과목을 전혀 공부한 적이 없는 학생이 만점을 받는다고 상상해 보세요. 이것이 오늘날의 첨단 인공지능(AI) 모델이 하는 일입니다. 그렇다면 AI 모델은 어떻게 평가될까요? 왜 새로운 테스트가 중요할까요? 그리고 AI가 너무 빨리 발전하면 어떤 위험에 직면하게 될까요? 이 글에서 자세히 살펴보겠습니다.
AI는 우리가 테스트할 수 있는 것보다 더 빨리 학습하고 있다
OpenAI, Google DeepMind, Anthropic에서 개발한 것과 같은 AI 시스템은 인간을 대상으로 설계된 테스트를 통과할 수 있는 수준에 도달했으며, 때로는 최고의 전문가보다 더 나은 성과를 거두기도 합니다. 이러한 모델은 다음과 같은 문제를 성공적으로 해결했습니다.
– 법률 시험(미국 변호사 시험) – 전문가 수준의 점수 획득
– 의료 면허 시험 – 일부 의사보다 더 나은 질병 진단
– SAT 및 대학 입학시험 – 인간 응시자와의 일치
그러나 AI가 매우 빠르게 발전하고 있기 때문에 전통적인 평가 시험은 이를 따라잡지 못하고 있습니다. 새로운 AI 모델은 우리가 설정한 작업을 빠르게 학습하기 때문에 실제 진행 상황을 측정하기가 점점 더 어려워지고 있습니다.
이를 따라잡기 위해 AI 연구자들은 AI 모델을 한계까지 밀어붙일 수 있는 더 강력하고 정교한 테스트를 개발하고 있습니다. 그러나 새로운 테스트가 등장하더라도 AI는 예상보다 빠르게 기록을 경신하고 있습니다. 이에 따라 이러한 강력한 시스템에 대해 우리가 실제로 얼마나 이해하고 있는지에 대한 큰 의문이 제기되고 있습니다.
AI 지능을 어떻게 측정합니까?
AI 지능을 테스트하는 것은 인간의 지능을 테스트하는 것과 매우 유사하지만, 몇 가지 중요한 차이점이 있습니다.
초기에는 이미지 인식, 언어 번역, 기본적인 질문에 대한 답변과 같은 간단한 작업이 주요 성과로 간주하였습니다. 그러나 AI가 발전함에 따라 연구자들은 진행 상황을 측정하기 위해 더 어려운 도전 과제가 필요했습니다.
전통적인 AI 평가: 초기 테스트
초기 AI 테스트는 다음에 중점을 두었습니다.
– 언어 이해 – AI가 인간과 같은 방식으로 텍스트를 이해하고 생성할 수 있습니까?
– 이미지 인식 – AI가 사진 속의 사물을 식별할 수 있습니까?
– 논리적 추론 – AI가 간단한 논리 퍼즐을 풀 수 있습니까?
AI가 점점 더 똑똑해짐에 따라 연구자들은 인간 시험에서 AI를 테스트하기 시작했습니다.
– SAT와 GRE – 대학 입학시험에 사용됩니다.
– 변호사 시험 – 법률 지식을 테스트하는 데 사용됩니다.
– 의학 시험 – AI의 질병 진단 능력을 평가하는 데 사용됩니다.
놀랍게도, GPT-4와 클로드 같은 AI 모델은 이러한 테스트에서 매우 높은 점수를 받았으며, 때로는 최고의 인간 채점자보다 더 높은 점수를 받았습니다.
그러나 문제는 다음과 같습니다. AI가 이미 인간 테스트를 통과했다면, 그 진정한 잠재력을 어떻게 측정할 수 있을까요?
점점 더 어려워지는 AI 테스트의 등장
AI 모델이 전통적인 테스트를 능가함에 따라, 연구자들은 이 시스템이 얼마나 발전했는지 확인하기 위해 새롭고 매우 엄격한 평가를 만들었습니다. 가장 까다로운 새로운 테스트 중 하나는 프론티어매스로, 비영리 연구 기관인 Epoch AI가 최고의 수학자들과 협력하여 개발한 것입니다.
프론티어매스: 새로운 차원의 AI 테스트
프론티어매스(FrontierMath, AI의 한계를 테스트하는 수학적 벤치마크)는 인간 전문가조차 해결하기 어려운 매우 어려운 수학 문제를 통해 AI에 도전하도록 설계되었습니다. 결과는 다음과 같습니다.
– 2023년 11월 – 프론티어매스에서 테스트 된 최초의 AI 모델은 2%의 점수를 받았습니다.
– 2023년 12월 – OpenAI의 o3 모델은 25.2%의 점수를 받았습니다. 빠른 개선 속도로 연구원들을 놀라게 했습니다.
단 한 달 만에 2%에서 25.2%로 급증한 것은 우려를 불러일으켰습니다. AI가 이렇게 빠르게 발전하고 있다면, 문제 해결, 추론, 과학적 발견 등의 분야에서 인간과 같은 수준 또는 그 이상의 수준에 도달할 때 어떤 일이 일어날까요?
수학을 넘어: 다른 고급 AI 평가하기
AI의 전반적인 기능을 더 잘 이해하기 위해 연구원들은 AI가 시스템을 해킹하거나 코드를 깰 수 있는지 테스트하는 사이버 보안 평가를 개발하고 있습니다.
– 사이버 보안 평가 – AI가 시스템을 해킹하거나 암호화를 깰 수 있는지 테스트
– 생물테러 평가 – AI가 유해한 생물학적 작용제를 설계할 수 있는지 확인하기 위한 평가
– 창의력 평가 – 혁신적인 아이디어를 생성하는 AI의 능력을 측정하기 위한 평가
목표는 AI의 미래 능력이 위험 수준에 도달하기 전에 예측하는 것입니다.
왜 AI의 급속한 발전이 문제가 되는 걸까요?
AI 모델이 점점 더 똑똑해지는 예측할 수 없는 속도는 흥미롭고 걱정스러운 일입니다.
흥미로운 측면
– AI는 인간보다 더 복잡한 과학적 문제를 더 빨리 해결하는 데 도움이 될 수 있습니다.
– AI는 의학 연구의 속도를 높이고 새로운 치료법을 발견하는 데 도움이 될 수 있습니다.
– AI는 어려운 작업을 자동화함으로써 생산성을 향상할 수 있습니다.
부작용
– AI는 우리가 이해할 수 없는 능력을 개발할 수 있습니다.
– AI는 예측할 수 없고 통제하기 어려울 수 있습니다.
– AI는 사이버 보안, 전쟁, 생물 테러에 악용될 수 있습니다.
일부 연구자들은 AI가 우리가 깨닫지 못하는 사이에 인간의 이해 수준을 넘어서는 수준으로 발전할 수 있다고 우려합니다. 따라서 AI의 한계를 실제로 측정하는 강력한 평가(테스트)는 AI가 안전하고 유익한 상태를 유지하는 데 매우 중요합니다.
AI 평가의 미래
AI 모델이 계속해서 기록을 경신함에 따라 더 나은 평가 테스트를 만들기 위한 경쟁은 더욱 치열해질 것입니다. 전문가들은 다음과 같이 예측합니다.
1. 더 발전된 AI 안전성 테스트
– 정부와 기술 기업들은 위험한 행동을 감지하기 위해 더 엄격한 AI 테스트 방법을 개발할 것입니다.
– AI 모델은 학문적인 문제뿐만 아니라 실제 시나리오에서 테스트 될 것입니다.
2. 더 엄격한 AI 규제
– 정부는 AI의 성장을 모니터링하고 잠재적인 위험을 방지하기 위한 법안을 도입할 수 있습니다.
– 기업은 AI를 대중에게 공개하기 전에 보안 위협을 테스트해야 합니다.
3. AI는 미래의 교육과 일을 변화시킬 것입니다
– 학교는 AI가 이미 많은 전통적인 시험 문제를 해결할 수 있기 때문에 학생들을 가르치는 방식을 바꿀 수 있습니다.
– 직장은 AI가 더 복잡한 작업을 대신할 것이기 때문에 직무 역할을 조정할 것입니다.
AI의 급속한 성장에 발맞출 수 있을까요?
AI 모델은 놀라운 속도로 진화하고 있으며, 인간보다 훨씬 빠른 속도로 측정할 수 있는 속도로 학습하고 개선하고 있습니다. 전통적인 테스트는 현대의 AI에 너무 쉽기 때문에 연구자들은 이러한 시스템에 도전하기 위해 프론티어매스와 같은 더 어려운 평가를 개발했습니다. 그러나 이러한 새로운 테스트를 사용하더라도 AI는 여전히 놀라운 속도로 기대치를 초과하고 있습니다.
이러한 발전은 놀라운 돌파구를 가져올 잠재력을 가지고 있지만, 통제, 보안 및 의도하지 않은 결과에 대한 심각한 우려도 제기합니다. 오늘날 우리가 직면한 가장 큰 도전은 다음과 같습니다.
AI의 성장을 따라잡을 수 있을까요? 아니면 우리가 준비하기도 전에 AI가 인간의 이해력을 능가하게 될까요? 한 가지 확실한 것은 AI 혁명은 당분간 멈추지 않을 것이라는 점입니다.
[다른글 더보기]