2025년 4월 16일 오픈 AI에서 추론모델인 o3와 o4 mini 모델을 출시하였습니다.
너무 많은 기업에서 너무 많은 LLM과 서비스를 쏟아내다 보니, 뭐가 뭔지 헷갈릴 때가 많습니다.
간단히 살펴보면, ChatGPT 서비스에 주로 사용되는 GPT-4o 모델은 LLM을 기반한 멀티모달 모델로 일반적인 요청에 가장 빠르고 정확한 답변을 주는 모델입니다.
그에 반해 o3, o4와 같은 모델은 빠른 답변보다 추론에 특화된 모델입니다. 즉 생각하는 모델이라는 거죠.
이번에 o3와 o4-mini가 출시됐는데, 좀 전에 말했듯이 이 모델들은 행동보다 생각을 많이 하는 모델들이라고 했잖습니까?
그런데 거기에 행동을 할 수 있는 600여 개의 도구들을 붙여버린 거죠.
더 많은 일을 처리해 낼 수 있겠죠?
이번 모델은 RL(강화학습)을 통해 성능을 상당히 향상했다고 합니다.
어떤 도구를 언제 사용해야 하는 지도 이 강화학습을 통해서 이뤄졌다고 하죠.
또, 이번 모델은 이미지를 통해 사고할 수 있는 모델이라고 설명하고 있습니다.
기존 모델이 이미지를 그대로 인식하는 수준이었는데 반해, 이번 모델들은 화질이 좋지 않은 이미지가 들어오면, 도구를 활용해 이미지를 개선시킨 후에 해석을 할 수 있다고 합니다.
AIME의 문제를 해결하는 방법도 괜찮았습니다.
다중 for문을 이용해서 해결할 수 있는 문제가 제시됐는데, 이 문제해결 방식이 흥미롭습니다.
먼저 다중 for문을 이용해서 노가다 방식으로 문제를 해결한 후, 해결과정을 분석해서 좀 더 스마트한 방식으로 문제를 해결합니다.
그 후 답을 다시 검증하는 거죠.
이런 과정들이 중간에 사용자의 지시 없이 모델이 알아서 처리를 하더라는 거죠.
놀라운 지점이 있었습니다.
언제나 신규 모델이 출시되면 그렇듯이, 여러 벤치마크 테스트에서 좋은 성적을 거뒀다고 말하고 있습니다.
o3는 o1의 10배 훈련데이터를 사용했다고 합니다.
많은 자원을 들인 만큼 라마 4와 같은 벤치마크 논란은 없었으면 합니다.
흥미로운 점은 도구를 사용했을 때 벤치마크 점수가 훨씬 좋았다는 점입니다.
인간이 도구를 사용하면서 강해졌듯이, AI도 비슷한 길을 걷는 걸까요?
벤치마크에서 특히 코딩 능력의 향상도 빼놓을 수 없습니다.
코딩 능력을 측정하는 SEW-Bench에서 o3는 69.1%, o4-mini는 68.1%를 기록했는데, 이는 기존 최고였던 claude 3.7 sonnet의 62.3%를 뛰어넘는 성적이었습니다.
저번주에 원래 라마 4가 뛰어 넘었다고 말했었는데, 지금은 거짓말이 돼 버렸죠? 지금은 32위...
비교 테스트가 필요해 보입니다.
아직 SWE-Bench Verified 리더보드에는 안 나오네요.
이번 모델들은 단순 코드 생성이 아닌, 코드베이스 이해를 기반한 코딩을 한다고 합니다.
얼마 전 소개드렸던 Augment Agent와 비교가 필요해 보이네요.
누가 더 좋은 성능을 내는지는 알 수 없지만, 코드베이스의 이해를 기반한 코딩이 방향은 맞는 것 같습니다.
o3와 o4-mini는 오픈 AI 구독자면 사용해 볼 수 있습니다.
들어가 보니까 모델이 추가돼 있네요.
향후 오픈 AI는 빠른 시일 내에 o3-pro를 월 200달러인 챗GPT 프로 구독자에게 제공한다고 하네요.
써보고 싶긴 한데, 월에 30만 원은 좀...
그리고 이번에 코딩 자동화 도구인 codex cli도 출시를 했습니다. codex cli는 경량 코딩 자동화 도구인데, 커멘드라인 인터페이스를 가진 코딩 자동화 도구라고 생각하시면 됩니다.
이미지와 동영상을 가지고 시연을 했는데, 생각보다 좋은 성능을 보여준 것 같습니다.
커멘드라인 인터페이스라 진입장벽은 좀 있어 보입니다.
참고하시면 좋을 것 같습니다.
지금까지 o3와 o4-mini에 대해 알아봤습니다.
성능이 좋아지고, 가격이 낮아지고, 도구를 활용할 수 있고...
매주 나오는 AI 뉴스들을 보면 기능개선 속도가 훨씬 빨라진 것 같습니다.
'AI' 카테고리의 다른 글
NotebookLM을 이용해 더 스마트해지세요 (0) | 2025.05.08 |
---|---|
구글 All in one 코딩 자동화 도구 Firebase Studio 출시 (0) | 2025.04.21 |
코딩보다 프로젝트를 이해해는 AI 코딩 에이전트 Agument Agent (0) | 2025.04.15 |
AI 페어 프로그래밍을 꼭 해야하는 이유 (2) | 2024.11.13 |
[30분 완성] chatGPT 만들기(Langchain + streamlit) (0) | 2024.08.28 |