OpenAI GPT‑5.1-Codex-Max 출시

길가다주웠어 · 2025-11-20T14:09:51+09:00

Codex에서 사용 가능한 새로운 프론티어 에이전트 코딩 모델.기반 기술: 소프트웨어 엔지니어링, 수학, 연구 등 에이전트 작업을 학습한 기초 추론 모델 업데이트 버전.주요 특징:개발 전 단계에서 더 빠르고, 지능적이며, 높은 토큰 효율성 제공.장기 작업 최적화:압축(Compaction) 기술 최초 적용: 여러 컨텍스트 윈도우를 넘나들며 작동.단일 작업에서 수백만 개의 토큰을 일관성 있게 처리.프로젝트 규모 리팩토링, 심층 디버깅, 장시간 에이전트 루프 수행 가능.사용 가능 플랫폼: Codex CLI, IDE 확장 프로그램, 클라우드, 코드 리뷰 (API 곧 출시).최첨단 코딩 역량 (Frontier coding capabilities)훈련 데이터: PR 생성, 코드 리뷰, 프론트엔드 코딩, Q&A 등 실제 소프트웨어 엔지니어링 작업 기반.성능: 다수 최첨단 코딩 평가에서 이전 모델 상회.실사용 개선:최초로 윈도우(Windows) 환경 작동 훈련.Codex CLI 협업 능력 강화를 위한 작업 훈련 포함.벤치마크 비교 compaction 활성화, extra high(xhigh)reasoning 기준)속도 및 비용 (Speed and cost)토큰 효율성: 효과적인 추론 능력으로 효율성 대폭 향상.SWE-bench Verified 결과:'중간(medium)' 노력 단계 기준, 기존 모델 대비 성능 우위.생각 토큰(thinking tokens) 30% 절감.reasoning effort 단계:Extra High(‘xhigh’): 지연 시간에 민감하지 않은 작업을 위해 신설 (더 오래 생각하여 품질 향상).중간(Medium): 일상적인 작업용으로 권장.비용 절감: 토큰 효율성 개선이 실질적 개발 비용 절감으로 연결.예: GPT‑5.1-Codex보다 훨씬 저렴한 비용으로 고품질 프론트엔드 디자인 제작.장기 실행 작업 (Long-running tasks)압축(Compaction) 기능:기존 컨텍스트 한계로 실패하던 작업(복잡한 리팩토링, 장시간 루프 등) 해결.가장 중요한 맥락은 보존하고 기록을 정리(pruning).작동 메커니즘: 세션이 한계에 도달하면 자동 압축 -> 새로운 윈도우 확보 -> 완료 시까지 반복.지속성:범용적이고 신뢰할 수 있는 AI의 기반 능력.한 번에 수 시간 독립 작업 가능 (내부 평가서 24시간 이상 작업 확인).구현 반복, 테스트 오류 수정, 최종 결과 도출까지 수행.안전하고 신뢰할 수 있는 AI 에이전트 구축 (Building safe and trustworthy AI agents)평가 성과: 압축 기능을 통해 장기 추론, 코딩, 사이버 보안 분야에서 성과 향상.사이버 보안 역량:'Preparedness Framework' 기준 '높음(High)' 미달이나 역대 최고 수준 능력 보유.빠르게 진화하는 역량에 맞춰 안전장치 강화 및 Aardvark 프로그램 등으로 방어자 지원.모니터링 및 대응:보안 전용 모니터링 가동 중 (대규모 악용 사례 없음).고급 기능에 대한 추가 완화 조치 준비 및 악의적 시도 차단.샌드박스 및 보안:기본적으로 보안 샌드박스 실행 (파일 쓰기 제한, 네트워크 비활성).인터넷 활성화 시 프롬프트 인젝션 위험 존재 -> 제한 모드 권장.검토 중요성:장기 작업 수행 시 배포 전 인간 검토 필수.터미널 로그, 툴 호출, 테스트 결과 제공으로 검토 지원.Codex는 인간을 대체하는 것이 아닌 'additional reviewer' 역할.배포 접근법: 방어/공격 양면성을 고려한 반복적 배포 및 방어 도구(취약점 스캔 등) 보존.이용 안내 (Availability)대상 요금제: ChatGPT Plus, Pro, Business, Edu, Enterprise.API: CLI/API 키 사용자를 위해 곧 출시 예정.기본 모델 변경: 오늘부터 GPT‑5.1-Codex를 대체하여 기본 모델로 적용.권장 사항: 에이전트 코딩 작업에는 GPT‑5.1-Codex-Max 및 Codex 제품군 사용 권장 (범용 GPT‑5.1과 구분).부록: 모델 평가 (Appendix: Model evaluations)벤치마크GPT‑5.1-Codex (high)GPT‑5.1-Codex-Max (xhigh)SWE-bench Verified (n=500)73.7%77.9%SWE-Lancer IC SWE66.3%79.9%Terminal-Bench 2.052.8%58.1%

Codex에서 사용 가능한 새로운 프론티어 에이전트 코딩 모델.
기반 기술: 소프트웨어 엔지니어링, 수학, 연구 등 에이전트 작업을 학습한 기초 추론 모델 업데이트 버전.
주요 특징:
- 개발 전 단계에서 더 빠르고, 지능적이며, 높은 토큰 효율성 제공.
장기 작업 최적화:
- 압축(Compaction) 기술 최초 적용: 여러 컨텍스트 윈도우를 넘나들며 작동.
- 단일 작업에서 수백만 개의 토큰을 일관성 있게 처리.
- 프로젝트 규모 리팩토링, 심층 디버깅, 장시간 에이전트 루프 수행 가능.
사용 가능 플랫폼: Codex CLI, IDE 확장 프로그램, 클라우드, 코드 리뷰 (API 곧 출시).

최첨단 코딩 역량 (Frontier coding capabilities)

훈련 데이터: PR 생성, 코드 리뷰, 프론트엔드 코딩, Q&A 등 실제 소프트웨어 엔지니어링 작업 기반.
성능: 다수 최첨단 코딩 평가에서 이전 모델 상회.
실사용 개선:
- 최초로 윈도우(Windows) 환경 작동 훈련.
- Codex CLI 협업 능력 강화를 위한 작업 훈련 포함.
벤치마크 비교 compaction 활성화, extra high(xhigh)reasoning 기준)

속도 및 비용 (Speed and cost)

토큰 효율성: 효과적인 추론 능력으로 효율성 대폭 향상.
SWE-bench Verified 결과:
- '중간(medium)' 노력 단계 기준, 기존 모델 대비 성능 우위.
- 생각 토큰(thinking tokens) 30% 절감.
reasoning effort 단계:
- Extra High(‘xhigh’): 지연 시간에 민감하지 않은 작업을 위해 신설 (더 오래 생각하여 품질 향상).
- 중간(Medium): 일상적인 작업용으로 권장.
비용 절감: 토큰 효율성 개선이 실질적 개발 비용 절감으로 연결.
- 예: GPT‑5.1-Codex보다 훨씬 저렴한 비용으로 고품질 프론트엔드 디자인 제작.

장기 실행 작업 (Long-running tasks)

압축(Compaction) 기능:
- 기존 컨텍스트 한계로 실패하던 작업(복잡한 리팩토링, 장시간 루프 등) 해결.
- 가장 중요한 맥락은 보존하고 기록을 정리(pruning).
작동 메커니즘: 세션이 한계에 도달하면 자동 압축 -> 새로운 윈도우 확보 -> 완료 시까지 반복.
지속성:
- 범용적이고 신뢰할 수 있는 AI의 기반 능력.
- 한 번에 수 시간 독립 작업 가능 (내부 평가서 24시간 이상 작업 확인).
- 구현 반복, 테스트 오류 수정, 최종 결과 도출까지 수행.

안전하고 신뢰할 수 있는 AI 에이전트 구축 (Building safe and trustworthy AI agents)

평가 성과: 압축 기능을 통해 장기 추론, 코딩, 사이버 보안 분야에서 성과 향상.
사이버 보안 역량:
- 'Preparedness Framework' 기준 '높음(High)' 미달이나 역대 최고 수준 능력 보유.
- 빠르게 진화하는 역량에 맞춰 안전장치 강화 및 Aardvark 프로그램 등으로 방어자 지원.
모니터링 및 대응:
- 보안 전용 모니터링 가동 중 (대규모 악용 사례 없음).
- 고급 기능에 대한 추가 완화 조치 준비 및 악의적 시도 차단.
샌드박스 및 보안:
- 기본적으로 보안 샌드박스 실행 (파일 쓰기 제한, 네트워크 비활성).
- 인터넷 활성화 시 프롬프트 인젝션 위험 존재 -> 제한 모드 권장.
검토 중요성:
- 장기 작업 수행 시 배포 전 인간 검토 필수.
- 터미널 로그, 툴 호출, 테스트 결과 제공으로 검토 지원.
- Codex는 인간을 대체하는 것이 아닌 'additional reviewer' 역할.
배포 접근법: 방어/공격 양면성을 고려한 반복적 배포 및 방어 도구(취약점 스캔 등) 보존.

이용 안내 (Availability)

대상 요금제: ChatGPT Plus, Pro, Business, Edu, Enterprise.
API: CLI/API 키 사용자를 위해 곧 출시 예정.
기본 모델 변경: 오늘부터 GPT‑5.1-Codex를 대체하여 기본 모델로 적용.
권장 사항: 에이전트 코딩 작업에는 GPT‑5.1-Codex-Max 및 Codex 제품군 사용 권장 (범용 GPT‑5.1과 구분).

부록: 모델 평가 (Appendix: Model evaluations)

벤치마크	GPT‑5.1-Codex (high)	GPT‑5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%