![데이비드 실버 구글딥마인드 수석 정품 슬롯사이트원 [사진=Google Deepmind 유튜브 캡처]](https://cdn.fortunekorea.co.kr/news/photo/202504/47703_40774_930.jpg)
구글 딥마인드의 데이비드 실버 수석연구원이 현재 정품 슬롯사이트 개발 패러다임인 ‘인간 데이터의 시대’를 넘어 정품 슬롯사이트가 스스로 경험하며 배우는 ‘경험의 시대’로 나아가야 한다고 주장했다. 정품 슬롯사이트가 인간의 한계를 넘어서는 초지능(Superhuman Intelligence)을 갖추려면 인간 데이터 학습만으로는 부족하며, 시행착오를 통한 자체 학습이 필수적이라는 것이다.
11일(현지 시간) 실버 연구원은구글 딥마인드 팟캐스트 인터뷰에서 "최근 정품 슬롯사이트는 인간이 축적한 모든 지식을 기계에 주입하는 방식으로 발전했지만, 이는 인간 지식이라는 천장에 부딪힐 수밖에 없다"고 지적했다. 그는 LLM의 성능을 높인 ‘인간 피드백 기반 강화학습(RLHF)’ 방식의 한계점도 언급했다.인간 평가자의 선호에 맞춰 정품 슬롯사이트를 훈련시키기 때문에, 인간이 예상치 못하거나 이해하지 못하는 창의적인 해답을 정품 슬롯사이트 스스로 발견하기 어렵게 만든다는 논리다.
실버 연구원은 "인간의 평가는 실제적인결과물에 기반을 둔피드백이 아니다"라며 "정품 슬롯사이트가 스스로 실험하고 결과를 직접 확인하며 배우는 것이 진정한 학습"이라고 강조했다. 그는 "예를 들어 LLM이 제안한 케이크 레시피를 보고 인간이 좋다고 평가해도, 실제 케이크를 만들어 먹었을 때 맛이 없다면 그 평가는 근거가 없다"며 "정품 슬롯사이트가 직접 만든 케이크 맛을 보고 피드백을 얻어야 새로운 레시피를 창조할 수 있다"고 덧붙였다.
인간 데이터 없이 ‘스스로 학습’… 알파고 넘은 알파제로
실버 연구원은 정품 슬롯사이트 스스로 경험을 통해 학습하는 대표적 성공 사례로 바둑 정품 슬롯사이트 ‘알파제로(AlphaZero)’를 꼽았다. 알파제로는 인간 기보 데이터 없이 오직 자체 대국과 강화학습만으로 바둑, 체스, 쇼기(일본 장기)에서 세계 최강 수준에 도달했다. 알파제로는 수를 선택하는 ‘정책 신경망’과 국면을 평가하는 ‘가치 신경망’을 강화학습으로 개선하는 과정을 수백만 번 반복한다. 게임 초반의 수가 최종 승패에 미치는 영향을 판단하는 ‘신용 할당 문제(credit assignment problem)’를 해결하며 스스로 최적의 전략을 찾아낸다.
실버 연구원은 "인간 데이터를 전혀 사용하지 않은 알파제로가 오히려 인간 데이터를 학습한 초기 알파고보다 더 빠르고 강력하게 성능을 높였다"며 "이는 인간 지식이 때로는 정품 슬롯사이트의 자체 학습 능력을 제한할 수 있다는 정품 슬롯사이트의 씁쓸한 교훈"이라고 말했다. 인간이 쌓아온 지식을 주입하기보다 정품 슬롯사이트가 스스로 학습할 환경을 만들어주는 것이 초지능으로 가는 더 효과적인 길이라는 의미다.
수학 분야에서도 경험 기반 학습의 성과가 나타나고 있다. 실버 연구팀이 개발한 ‘알파프루프(AlphaProof)’는 인간의 증명 없이 문제(정리)만 제공받아 강화학습으로 스스로 증명법을 찾아낸다. 알파프루프는 수학적 표현과 증명을 위한 형식 언어 ‘린(Lean)’을 사용하며, LLM의 도움을 받아 이를 처리한다. 연구팀은 인간이 제시한 정리를 바탕으로 수백만 개의 형식화된 문제를 생성해 알파프루프를 훈련시켰고, 시스템은 증명 가능한 문제들을 해결해가며 점차 어려운 문제에 도전하는 방식으로 능력을 키웠다.
그 결과 알파프루프는 최근 국제수학올림피아드(IMO) 문제에서 상위 10% 수준인 은메달급 성과를 달성했다. 또한 참가자의 1% 미만만이 해결한 문제를 증명하는데 성공했다. 알파프루프가 생성한 증명은 수학적으로 검증 가능했다.수학계의 노벨상으로 불리는 필즈상 수상자인 티머시 가워스 등이 그 유효성을 검증한 바 있다.
현실 세계 적용 숙제… “인간 목표, 측정 가능한 지표로 변환해야”
하지만 게임이나 수학과 달리 명확한 승패나 정답이 없는 현실 세계 문제에 강화학습을 적용하는 것은 여전히 과제다. 성공 여부를 판단할 명확한 보상신호를 정의하기 어렵기 때문이다. 실버 연구원은 "현실 세계에는 좋아요, 싫어요, 이익, 손실, 쾌락, 고통, 생산량 등 무수한 신호가 존재한다"고 설명했다.정품 슬롯사이트가 이런 다양한 지표들을 활용할 수 있어야 한다는 것이다.
그는"인간이 원하는 추상적인 목표를 정품 슬롯사이트가 측정하고 최적화할 수 있는 구체적인 수치 및 지표의조합으로 변환하고, 이 지표들을 정품 슬롯사이트가 스스로 학습하며 조정해나가도록 해야 한다"고 제안했다. 예를 들어 사용자가 제시한 ‘건강 증진’ 목표는신체심박수, BMI, 불안 수준 등 다양한 지표로 나뉠 수 있다.정품 슬롯사이트는 실제 피드백을 통해 어떤 지표 조합이 목표 달성에 효과적인지 스스로 학습하며 가중치를 조절할 수 있다는 것이다.
그는 이 방식이 정품 슬롯사이트가 목표를 잘못 해석해 예상치 못한 결과를 낳는 ‘정렬(alignment)’ 문제를 해결하는 데 도움이 될 수 있다고 전망했다. 이는 정품 슬롯사이트가 ‘종이 클립을 최대한 많이 만들라’는 목표를 위해 온 세상을 종이 클립으로 덮어버리는 것과 같은 극단적 실패를 막는 데 도움이 될 수 있다. 인간의 행복이나 고통 같은 실제 피드백을 통해 정품 슬롯사이트가 스스로 목표를 재조정할 수 있기 때문이다. 다만 그는 인간 사회에서도 GDP나 시험 점수 같은 단일 지표에 대한 맹목적 추구가 부작용을 낳는 ‘지표의 폭정(tyranny of metrics)’ 문제가 있음을 인정하며 신중한 접근을 강조했다.
정품 슬롯사이트 경험 학습, 무한 성장 동력이지만 안전성 연구 병행해야
실버 연구원은 인간 데이터를 고갈될 화석 연료에 비유했다. 이어 정품 슬롯사이트가 스스로 경험을 생성하고 학습하는 강화학습이야말로 정품 슬롯사이트 발전을 이끌 지속가능한 연료라고 강조했다. 그는 "현재 LLM 등 인간 데이터 기반 정품 슬롯사이트는 놀랍고 위력적이지만, 이는 마치 화석 연료처럼 한정된 자원을 태워 얻는 성과와 같다"며 "정품 슬롯사이트의 지속적인 발전을 위해서는 스스로 경험을 생성하고 배우는 강화학습이라는 지속가능한 연료가 필요하다"고 주장했다.
그는 "현재의 인간 데이터 기반 정품 슬롯사이트도 놀라운 성과지만 이는 시작일 뿐"이라며 "경험의 시대로 나아가는 과정에는 분명 위험이 따르므로 안전성에 대한 충분한 연구와 신중한 접근이 필수적"이라고 덧붙였다. 또한 현재 정품 슬롯사이트 연구가 LLM 중심으로 다소 편중돼있음을 지적했다.
실버 연구원은 경험 기반 정품 슬롯사이트가 결국 수학 난제를 해결하는 등 인간을 뛰어넘는 성과를 낼 것으로 전망하며, 정품 슬롯사이트 분야가 이 전환에 대비해야 한다고 촉구했다.
그는 "(경험 기반 정품 슬롯사이트는) 계속 확장하고 학습할 수 있는 시스템인 만큼, 정말로 한계는 없다"며 "(정품 슬롯사이트가) 수학이라는 학문 전체를 변화시키지 않는다면 오히려 놀라운 일일 것"이라고 내다봤다.
/육지훈 기자 editor@popsci.co.kr