오픈AI는 지난 20일로 12 근무일에 걸친 제품 발표와 새 기능 시연의 대장정을 마무리했다.
‘오픈AI의 12일’이란 제목으로 진행된 이 온라인 이벤트는 동영상 생성 서비스 ‘소라(Sora)’ 출시를 비롯해 챗GPT 검색 무료화, 오픈AI o1 및 o3 모델과 새로운 개발자 도구 등이 발표됐다.
오픈AI는 일련의 발표를 통해 언어모델을 넘어 멀티모달에 상당한 투자를 하고 있고, 추론 모델의 성능과 안전성 향상을 위한 새로운 기법을 선보인다는 점을 강조했다. 같은 기간 동안 구글도 ‘제미나이 2.0 플래시’, ‘베오2(Veo 2)’ 등을 선보이며 불꽃 튀는 경쟁을 벌였다. 세계 최고 생성형 AI 스타트업과 스타트업처럼 달리는 구글의 경쟁이 정신을 쏙 뺀 보름이었다. 일단 오픈AI의 12일 발표 내용을 정리했다.
12월5일 오픈AI o1 모델 출시
이벤트 첫날 오픈AI는 ‘오픈AI o1’ 모델의 정식 출시를 발표했다. 챗GPT플러스와 팀 구독자는 이날부터 오픈AI o1 정식 버전을 사용할 수 있게 됐다.
정식 버전은 미리보기 버전보다 더 빨라졌고, 복잡한 문제의 오류를 34% 줄였다고 한다.
o1 모델은 이미지 분석 기능을 제공해 시각적 콘텐츠에 대한 자세한 설명을 업로드하는 것으로 답을 얻을 수 있다. 오픈AI는 o1 기능을 확장해 챗GPT에서 웹부라우징과 파일업로드를 포함할 계획이고, API 액세슬르 제공할 것이라고 밝혔다. API 액세스는 시스템 통합을 위한 비전 작업, 함수 호출, 구조화된 출력 등을 지원한다.
오픈AI는 이와 함께 월 200달러의 요금제인 ‘챗GPT 프로’도 출시했다. 챗GPT 프로 요금제는 오픈AI o1과 o1 미니, GPT-4o, 어드밴스드 보이스 등에 대한 무제한 액세스를 제공한다.
더 많은 컴퓨팅을 사용해 고난도 문제에 더 나은 답을 제공하는 o1 프로 모드도 이용할 수 있다. o1 프로 모드는 데이터 과학, 프로그래밍, 판례 분석 등에서 더 신뢰할 수 있고 정확하며 포괄적인 응답을 생성한다고 회사측은 설명했다. o1과 o1 프리뷰와 비교해 수학, 과학, 코딩 전반의 ML 벤치마크에서 더 나은 성과를 보이는 것으로 제시됐다.
이 모드로 질문하면 답변을 생성하는데 더 긴 시간이 걸린다. 챗GPT는 진행률 표시줄로 표시하고 다른 대화로 전환하면 앱 내 알림으로 결과 생성을 알려준다.
오픈AI는 이와 함께 기존 기관 10명의 의학 연구자에게 챗GPT 프로 접근을 제공하는 보조금 프로그램을 발표했다. 보조금은 다른 분야로 확대될 예정이다.
12월 6일 강화미세조정(RFT)
이날은 새로운 기능이나 모델을 공개하지 않고 ‘강화미세조정(Reinforcement fine tuning)’을 소개했다. 오픈AI에 의하면, 기존 강화학습에 의한 감독미세조정을 넘어서며 AI 모델 훈련의 새로운 방식이다.
강화미세조정은 모델 사용자 지정 기술이다. 개발자와 엔지니어가 특정 전문 분야 작업에 적합하도록 전문가 모델을 만들게 해준다고 한다. 개발자는 수십에서 수천개 고품질 작업을 사용해 모델을 커스터마이징하고, 제공된 참조 답변으로 모델의 응답을 평가할 수 있다.이 기술로 모델은 유사한 문제를 통해 추론 방식을 강화하고 해당 전문 분야의 특정 작업에 대한 정확도를 개선하게 된다.
오픈AI는 법률, 보험, 의료, 금융, 엔지니어링 등의 분야에서 객관적으로 올바른 답을 내놓는 유망한 결과를 냈다고 전했다.
연구자는 알파 버전의 RFT API에 접근해 도메인별 작업에서 해당 기술을 테스트할 수 있다. 오픈AI는 알파 테스트 참가자의 피드백으로 API를 개선해 내년초 일반에 공개할 예정이라고 밝혔다.
12월9일 소라
이날 오픈AI의 문제작인 동영상 생성 서비스 ‘소라’가 출시됐다. 챗GPT 플러스와 프로 구독자는 소라 서비스를 이용할 수 있다.
이날 출시된 버전 ‘소라 터보’는 지난 2월 연구용 미리보기 버전보다 더 빠르게 자연어에서 비디오를 생성한다고 한다.
오픈AI 소라는 자연어 텍스트로 비디오를 만드는 모델이다. 기본적으로 정적 노이즈로 보이는 기본 비디오에서 시작해 여러 단계에 걸쳐 노이즈를 제거해 점진적으로 비디오를 생성하는 디퓨전 모델이다.
챗GPT 사용자는 최대 1080p 해상도, 최대 20초 길이의 비디오를 와이드스크린, 수직 또는 정사각형 종횡비로 생성할 수 있다. 자체 자산을 확장하거나 리믹스, 블렌딩할 수 있고, 완전히 새로운 콘텐츠도 만들 수 있다.
소라의 인터페이스도 새로워졌다. 스토리보드를 이용해 각 프레임 별로 입력할 수 있다.
오픈AI는 소라에 다양한 안전 장치를 적용했다. 폭력적이거나, 선정적이거나, 혹은 비윤리적인 묘사를 요청할 수도 샏성할 수 없다. 비디오는 기본적으로 C2PA를 포함해 소라에서 만들어진 영상이란 메타데이터를 갖게 된다. 워터마크도 기본적으로 달린다.
챗GPT 플러스 사용자는 매달 480p 해상도 비디오 50개, 5초 길이의 720p 해상도 비디오를 생성할 수 있다. 프로 사용자는 최대 500개 비디오와 20초 분량 1080p 해상도 영상을 생성할 수 있다. 다운로드 시 워터마크도 없다.
챗GPT 팀, 엔터프라이즈, 에듀 등의 구독자는 소라를 따로 가입해야 한다. 18세 미만 사용자는 소라를 이용할 수 없다.
12월 10일 캔버스
오픈AI는 무료 사용자를 포함한 모든 챗GPT 가입자에게 ‘캔버스(Canvas)’ 기능을 제공한다고 발표했다.
캔버스 기능은 채팅 형식을 넘어 글쓰기와 코딩 프로젝트를 위한 전용 인터페이스를 제공하며, GPT-4o에 직접 통합됐다. 챗GPT가 어디에 집중해야 하는지 특정 부분을 강조 표시하거나 인라인 피드백과 제안을 제공할 수 있다. 문서 길이를 조정하고, 독자 수준을 조절할 수 있다. 문법, 명확성, 일관성을 확인해 퇴고할 수 있다.
사용자는 캔버스 인터페이스에서 파이썬 코드를 실행할 수 있다. 코드 검토, 로그 추가, 주석 추가, 버그 수정, 타 언어로 포팅 등이 가능하다.
오픈AI는 웹사용자도 캔버스 기능을 이용할 수 있으며, 윈도우용 데스크톱 앱에서도 이용할 수 있다고 했다. 또 향후 더 많은 기능 업데이트를 약속했다.
12월 11일 애플인텔리전스
오픈AI는 애플인텔리전스와 챗GPT 통합에 대한 자세한 내용을 소개했다. 이날 발표에서 iOS, 아이패드OS, 맥OS 등의 기기와 챗GPT 통합이 이뤄질 예정이란 내용이 나왔다.
아이폰 16 시리즈, 아이폰15프로, A17 프로 혹은 M1 칩 탑재 아이패드, M1 이상 탑재 맥 등에서 챗GPT 통합 기능을 이용할 수 있다.
챗GPT의 이미지 및 문서 분석 기능에 직접 접근하고, 모든 챗GPT 구독 게층에서 작동한다. 애플의 개인정보보호 프레임워크 내에서 작동한다. 다만, 엔터프라이즈 및 팀 계정은 애플인텔리전스 통합 접근을 위해 관리자의 별도 승인을 받아야 한다.
12월 12일 챗GPT 음성의 진화
챗GPT의 새로운 ‘시각적 고급 음성 모드’ 기능이 소개됐다. 모바일 챗GPT 앱에서 사용자가 음성 대화 중에 주변 환경을 보여주거나 화면을 AI 모델과 공유할 수 있는 기능이다.
‘산타 음성’ 기능도 소개됐다. 모바일, 웹브라우저, 데스크톱 등의 앱에서 챗GPT 인터페이스의 눈송이 아이콘을 누르면, 산타클로스 음성으로 대화할 수 있다. 산타 모드 음성 대화는 임시 대화로 저장되지 않는다.
챗GPT 음성의 발전은 언어모델의 멀티모달로 진일보, 그리고 사용자와 AI 간 소통 수준의 진보를 의미한다. AI는 사용자가 텍스트를 입력해주길 기다리지 않고 카메라나 마이크를 활용해 사용자와 함께 입력값을 찾고 이해한다. 사람이 말로 직접 설명하기보다 객체를 직접 인지하고 답을 내주는 진정한 동반자로 올라서고 있다.
12월 13일 챗GPT ‘프로젝트’
챗GPT에서 관련 대화와 파일을 그룹으로 묶을 수 있는 구성 기능이 발표됐다. GPT-4o 모델과 함께 작동해 특정 작업이나 주제 관련 자원을 프로젝트로 묶어 쉽게 관리하게 해준다.
사이드바에서 더하기 아이콘을 클릭해 프로젝트를 만들 수 있고, 향후 대화에 대한 맥락을 제공하는 파일과 사용자 지정 지침을 추가할 수 있다.
오픈AI는 향후 추가 파일 유형 지원, 구글드라이브 및 마이크로소프트 원드라이브 등 클라우드 스토리지 통합, o1 등 다른 모델 호환 등을 제공할 것이라고 밝혔다.
챗GPT 플러스, 프로, 팀 등의 구독자는 웹사이트, 윈도우 데스크톱 앱에서 프로젝트 기능을 이용할 수 있다. 모바일 앱과 맥OS 앱은 보기 전용 모드를 이용할 수 있다.
12월 16일 챗GPT 검색 무료화
오픈AI는 ‘챗GPT 서치’를 모든 사용자에게 제공한다고 발표했다. 웹 검색 기능을 무료화한 것이다. 챗GPT 검색은 10월 출시됐다.
검색 기능은 맵 인터페이스를 갖게 됐고, 고급 음성 모드와 통합돼 음성 대화 중 웹을 검색할 수 있다.
12월 17일 오픈AI o1 및 개발자 도구
이날은 개발자를 위한 새로운 업데이트로 채웠다.
API 플랫폼을 통한 오픈AI o1 모델이 출시됐다. 함수 호출, 개발자 메시지, 구조화된 출력, 비전 등의 기능도 발표됐다. GPT-4o 오디오 가격 60% 인하, 이전 오디오 요금의 10분의 1에 해당하는 GPT-4o 미니 옵션 출시도 나왔다. 웹RTC 통합 간소화도 소개됐다.
이와 함께 개발자가 모델을 커스터마이징하는 새로운 방법을 제공하는 ‘선호도미세조정(PFT, Preference Fine-Tuning)’이 발표됐다. 사용자와 개발자의 선호도에 따라 모델을 쉽게 커스터마이징 할 수 있다.
고(Go)와 자바 언어용 소프트웨어개발키트(SDK) 베타 버전도 나왔다.
12월 18일 챗GPT 무료 전화
오픈AI는 챗GPT에게 무료로 전화를 걸어 통화하고, 왓츠앱으로 챗GPT에게 메시지를 보내는 기능을 소개했다.
미국 사용자는 ‘1-800-CHATGPT’란 번호로 전화를 걸면 챗GPT와 음성으로 채팅할 수 있다. 전화통화는 15분까지 무료라. 글로벌 사용자는 왓츠앱에서 동일 전화번호를 통해 챗GPT와 메시지를 주고 받을 수 았다.
이 기능은 재미를 위한 기능으로 챗GPT와 소통할 수 있는 다양한 방식을 알리기 위한 실험적 기능이다.
12월 19일 SW 개발도구 확장과 생산성 앱 지원
오픈AI는 챗GPT의 데스크톱 앱을 여러 개발환경의 확장으로 붙일 수 있다고 밝혔다. 파이참, 인텔리제이 IDE 등 젯브레인스의 통합개발환경(IDE)나 애플 엑스코드 IDE와, 커서 및 VS코디움, BB에디트, 텍스트메이트 등의 편집기를 챗GPT와 통합할 수 있게 됐다.
또한 데스크톱 앱에 고급 음성 모드 호환성을 추가하고, 애플노트, 노션, 큅(Quip) 등과 통합도 발표했다.
이 기능은 해당 앱에서 단축키를 눌러 수동으로 챗GPT를 활성화하면 된다.
챗GPT 앱은 통합된 각종 도구 앱의 작성 콘텐츠를 바로 읽고 해당 도구의 맥락을 유지하면서 답변을 제공한다.
12월 20일 오픈AI o3
오픈AI는 마지막 날 새로운 추론 모델인 o3와 o3 미니의 미리보기 버전을 발표했다.
이벤트 첫날 출시된 오픈AI o1 모델의 후속버전인데, o2란 영국통신사 상표 때문에 o3라고 붙였다고 한다.
o3 모델은 주어진 문제를 종합적으로 이해하고 새로운 기술을 즉석에서 익혀 해결할 수 있다. 이 모델은 ‘개인 사고의 사슬(private chain of thought)’ 방식을 사용한다. 시뮬레이션 추론이라고도 불린다. 무차별 대입 방식으로 추론을 시뮬레이션하고, 결과의 정확도를 높인다. 이른바 숙고하는 AI 모델이다.
o3 모델은 현존하는 가장 강력한 추론 모델로 소개됐다. 초기 평가에서 코드포스 프로그래밍 대회에서 2727점을 받았고, AIME2024 수학 문제에서 96.7%를 기록했다고 한다.
오픈AI는 o3 모델을 인공일반지능(AGI)을 위한 중요 이정표라고 강조했다. o3 모델은 Epoch AI의 프론티어 매스 평가에서 문제의 25.2%를 풀었다. AGI 판단 척도로 많이 활용되는 ARC-AGI 테스트에선 85% 이상의 점수를 받았다고 했다. ARC-AGI 벤치마크에서 85%는 인간 수준과 유사한 정도라고 한다.
오픈AI는 이와 함게 ‘심의적 정렬(Deliberative alignment)’이란 기술 연구 결과도 발표했다. 심의적 정렬은 o1과 o3 모델 개발에도 사용된 기술로, 모델에게 AI 안전에 입각한 텍스트를 직접 가르치고 추론 시점에 AI 안전 스펙에 대해 심의하도록 모델을 훈련시키는 접근 방식이다. 모델이 추론할 때 학습 단계에 익힌 기본 안전 스펙을 떠올려 그를 감안한 답변을 내놓게 한다는 것이다.
오픈AI는 o3 모델의 정식 출시 일정을 밝히지 않았다. 샘 알트만 최고경영자(CEO)는 o3 미니 모델을 내년 1월말 출시할 수 있다고 밝혔다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network