AI·10일·327

6월 말 기준으로 어느 연구소가 가장 성능 좋은 모델을 보유하게 될 것 같음?

이번 달 주요 AI 연구소들의 대형 릴리스에 대한 루머와 기대가 많음.
Anthropic은 이미 Opus 4.8을 출시했고, 이번 달에 추가 모델을 내놓지 않을 가능성이 있음. Sonnet 4.8 정도는 나올 수 있지만, 그게 Anthropic의 최상위 모델은 아닐 것임. Mythos는 이번 달 출시될 수도 있고 아닐 수도 있는데, 가능성은 있는 상태.
Google은 이미 Gemini 3.5 Pro를 확인했으므로, 6월 중 출시될 가능성이 거의 확실해 보임.
OpenAI의 GPT-5.6 가능성에 대한 루머도 들은 바 있음. 요즘은 점진적 성능 향상이 흔하고, 특히 올해 OpenAI는 그런 흐름을 보였기 때문에 프런티어 경쟁을 유지하기 위해 무언가를 출시할 수도 있음.
저는 AI 업데이트를 자주 보는 그냥 평범한 사람임. 여러분은 어떻게 생각함?

^{source reddit}

루머 기준: 가장 능력 있는 건 Mythos일 듯함. 근데 너무 비싸서 실질적 승자는 5.6이 될 듯함
- 사람들은 5.6이 Mythos만큼 좋거나 더 좋을 거라고 추측 중임, 적어도 Anthropic이 공개하려는 public version 기준으로는.
  그 외에도 OAI에 Mythos와 비슷한 실제 모델이 이미 있다는 루머도 있었음(5.6 말고)
  - OpenAI 내부 모델이 일반 지능 모델임, 아니면 수학 특화임? 어려운 Erdős 문제 몇 개를 풀었다는 건 아는데, 그냥 일반 지능 모델인지 궁금했음.
  - 일반 모델이라고 말했던 걸로 기억함
  - OAI는 이미 더 나은 모델 GPT-5.5 pro가 있음...
- 처음부터 Mythos를 써본 사람으로서 말하는데, 루머가 너무 과장함. 확실히 아주 강한 모델은 맞지만, 사이버보안에서는 5.5보다 아주 약간 강한 정도임. 내 감으로는 5.6이 현재 Mythos보다 더 싸고 더 좋을 듯함. 물론 Anthropic도 가만히 있진 않겠지만.
  - 난 이제 Anthropic의 Mythos hype 안 믿음
  - 난 저 사람이 Mythos를 써봤다고 안 믿음.
  - Source: trust me bro
  - 너 Mythos 없음.
  - 이름이 mythos임. 그러니까 모두가 접근권 있다고 거짓말해도 되는 거임.
- 일반 지능 기준으로는 5.5-pro가 Mythos-preview보다 나아 보임. 다만 둘 다 테스트 비용이 꽤 비싸서 확실히 알 만큼 테스트가 충분하진 않음.
  - 영국 보안기관이 테스트했는데 mythos와 맞먹고, 지금 사용 가능함
Google은 확실히 아님. 아마 OpenAI일 듯.
- 무슨 근거로 그렇게 말함?
  - Google은 방금 IO 이벤트를 했고, 공개한 모델이 몇 주 전에 OpenAI가 공개한 모델보다 좋지 않음. 이제 OpenAI는 다음 1~2주 안에 또 다른 모델을 낼 것으로 예상됨.
    Google은 광고 사업을 유지할 수 있을 만큼 충분히 좋고 충분히 싼 모델을 만들려는 것 같음(예: 검색을 Gemini로 대체하면서도 광고 수익은 계속 키우는 것). 문제는 OpenAI도 같은 사업(무료 AI의 광고)을 노리고 있고, 경쟁할 수 있어 보인다는 점임(방금 사용자 10억 명에 도달함).
  - 뭐? Google은 엄청 똑똑한 flash 모델을 공개했음. 자기들 frontier는 공개하지도 않았음.
  - kimi k2.6은 코딩에서 flash보다 나음. 3.5 pro는 더 비싸고 gpt나 claude보다 멍청할 가능성이 높음. 물론 그냥 추측임.
    google은 코딩에 그렇게 신경 안 쓰는 것 같음. 그리고 antigravity는 그들에게 좀 사이드 프로젝트처럼 보임
  - 난 코딩에 small/flash 모델 안 쓰고, 왜 써야 하는지도 잘 모르겠음
  - 더 비싸고 5.5 Low보다 구림
  - 모든 AI lab에는 미공개 모델이 있음. Mythos에 대해서는 이미 알고 있음. OpenAI가 erdos 문제를 푸는 데 사용한 아직 공개 안 된 모델들이 있다는 것도 알고 있음.
    Google에는 정확히 뭐가 있음? 뭔가는 있겠지, 최소한 그러길 바라지만, 미공개 모델이 있을 거라고 추정한다고 해서 SOTA 수준이라고 말하는 건 공정하지 않음.
    Mythos도 같은 기준으로 봄. 완전 공개 모델은 아니지만, 그래도 적어도 관련 정보를 일부 공개하긴 했음.
    내 기준으로는 gpt 5.5가 현재 SOTA임.
  - Gemini 3.1 Pro가 SOTA라고 생각 안 함? 나는 일반적인 일상 질문에 쓰는데 결과가 좋음.
    arena.ai에서는 Opus 바로 뒤이고 GPT보다 위임
  - 아니
  - 아이고 또 openAI가 google을 잡으러 간다는 그 레퍼토리 시작이네. openAI가 google 줘팬지 거의 4년 됐는데, google을 밀어낸 횟수는 정확히 0번임.
    그리고 google은 벤치마킹이 아니라 agentic ai에 집중하고 있음. 그래서 단일 차트에서 1위를 못 하는 거지, 실제로 뭔가를 대신 해주는 AI는 꽤 좋음. chatbots가 아니라 spark 같은 걸 다음 큰 것으로 보고 집중하는 중임.
나는 mythos 초기 접근권을 받은 큰 회사 중 하나에서 사이버보안 일을 함. IMO Mythos는 온라인에서 너무 과장됨, 대부분 써보지도 않은 사람들이 띄우는 거임.
Mythos와 5.5 Cyber 둘 다 써본 입장에서, 내 의견(우리 팀 대부분도 비슷함)은 Mythos latest가 5.5보다 아주 약간 나은 정도고, 5.6이 현재 Mythos보다 더 강해질 거라고 봄.
- 그러면 “맙소사, 우리 모델이 너무 강해서 팔기 무섭다”가 대부분 마케팅이라는 게 사실임?
  - 맞음. 이런 회사들에서 보는 헤드라인의 99%는 대부분 마케팅임.
  - 100% compute 문제였는데 마케팅 hype로 바꾼 거임
  - compute가 부족했고, 출시조차 못 해서 “두려움”이라는 명목으로 제한 공개한 거임, aka 마케팅.
    OpenAI도 몇 년 전에 똑같이 했음, 너무 무서워서 공개 못 한다고.
  - 맞음 GPT2, 근데 그때도 Dario 아이디어였음... 그게 그 사람 스타일임
  - openai와 anthropic이 처음부터 해오던 똑같은 마케팅 전술임. mythos 다음 모델을 출시할 준비가 되면 또 “이건 모든 걸 완전히 바꿀 거고, 너무 강력해서 사람들이 두려워해야 한다”가 나오고, 출시되면 유저들은 “그래 꽤 괜찮네”라고 할 거임.
  - 맞음
    그래서 Antropic이 걱정됨.
    그렇게 계속하면 곧 신뢰를 잃을 거임... 요즘 Grok처럼, 누가 Grok 모델 기다림? :)
  - 난 사실 완전히 진짜였다고 봄. Anthropic이 아마 그 모델이 모든 걸 해킹하지 않게 할 만큼 safety training을 충분히 못 했을 가능성이 큼. 그래서 공개하기엔 너무 강한 게 맞지만, 그런 강한 모델은 공개될 수 없어서가 아니라 Anthropic이 충분히 좋은 guardrails를 못 만들었거나, 제대로 하느라 몇 달 걸린 거임. 반면 OpenAI는 safety training을 아주 잘해서 강하고 안전한 모델을 둘 다 공개할 수 있음.
- 유용한 인사이트임.
- 흥미로움
- 멋진 이름 상은 확실히 가져감.
  - 맞음 이름 짓기는 확실히 훨씬 좋음 ㅎㅎ
Google은 Anthropic이나 OpenAI와 같은 게임을 하는 게 아님. 그게 전부라면 동급 품질의 LLM을 못 낼 이유는 없어 보임. 하지만 그들은 다양한 사업에 AI를 개발하고 통합하는 동시에 Gemini를 통해 LLM as a service도 제공 중임.
난 google이 실제로 이 경쟁 안에 있는지 잘 모르겠음.
- Google과 Microsoft는 그냥 기능적으로 충분하고 수익 날 만큼 싼 수준까지 가려는 것 같음.
- 사용자한테는 대충 하고, apple에는 전력투구하는 중임. wwdc에서 어떻게 되는지 보자
Google은 진짜 업그레이드해야 함.
Google은 저 리스트에 들어갈 자격 없음. 모델을 개선해야 함. 신뢰성이 없음. Open Ai와 Anthropic 모델도 완벽하진 않지만, 신뢰 가능하고 유용함
Google은 이미 이 게임에서 탈락했음.
- 몇 년 동안 이 말 많이 들었는데 보통 나중에 보면 틀린 말이 되더라.
언제나처럼 OpenAI.
Remmeber that both anthropic and openai are releasing their IPOs in Q4. They want all the hype and release vuz they can get. Anthropic did excellent marketing with Mythos, simply by calling it "too dangerous to release". Not to say it's not good, but overly hyped. I'm really surprised openai stepped up recently. 5.5 has been solid and codex app is good. They announced their unified app (chat + codex) gives you 1 platform with built in image generation which makes a variety of work massively improved (decks, front end, app development). If 5.6 does what 5.5 did to 5.4, they could be leading by the end of June. Anthropic also have announced a model post Mythos. Chinese companies are leading on token usage and affordability and open weight and source.
내 의견은 이거임: 최고의 모델이 이기는 게 아니라, 사람들이 감당할 수 있는 모델이 이김. swe bench에서 80이냐 85냐는 사람들이 신경 안 씀. 너희 모델을 쓸 수 있는 가격인가, 아니면 최종 소비자용으로 API를 쓸 수 있는가가 중요함.
난 결국 Google이 이 모든 걸 이길 거라고 아직 생각하지만, 6월 말 기준으로는 openai
- Google이 “이기는” 유일한 방법은 OpenAI나 Anthropic 중 하나를 사들이는 것임.
  - Google은 그들 중 유일하게 안정적인 수입원이 있음
    Openai는 이기지 못하면 결국 스스로 파산할 거고, anthropic은 이제 막 흑자 전환했지만 계속 유지될지는 확신 안 됨
    Google 모델은 뒤처져 있지만, 앞에 있는 사람들의 발전을 그냥 훔치면서도 지급능력을 유지할 수 있으면 그건 별로 중요하지 않음.
    TPU 관점도 있음
- 큰 기업들은 너무 커서 망하지 않음
최고의 모델은 Anthropic의 Mythos/Oceanus라고 생각함. 출시된 모델을 말하는 거라면 예측하기 어렵겠지만.
GPT 5.6은 큰 도약은 아닐 것 같음. Codex 사용자들을 위한 쪽이 더 클 것 같고, 무엇보다 결과물을 더 보기 좋게 만드는 데 초점을 둘 듯함. 프론트엔드 얘기는 많이 하지만, 다른 영역에서 모델이 훨씬 더 유능해진다는 말은 그렇게 많이 안 했음.
Gemini 3.5 pro는 꽤 매력적인 모델이 될 것 같지만 아무도 쓰고 싶어 하진 않을 듯하고, 최고의 모델은 아닐 것 같음. 아마 다른 lab들이 가진 것과 비슷한 수준일 듯한데, 이게 Google의 MO였던 것 같음.
- 위에서 쓴 Mythos 관련 내 댓글 TLDR: Mythos는 강한 모델이지만 Anthropic이 엄청 과장함
  - 내 사용 사례에서는 사이버보안은 별로 신경 안 쓰고, 프로그래밍도 전혀 관심 없음. 내가 찾는 건 EQ가 더 좋고, 인간처럼 글을 더 잘 쓰고, 글을 인간 수준에 가깝게 리뷰하는 모델임. 일반적으로 Anthropic이 그쪽은 좀 더 나은 것 같음, 물론 5.5 pro도 그 작업에는 훌륭한 모델임. 이 특정 작업에서는 mythos 같은 아주 큰 모델이 작고 더 잘 튜닝된 OpenAI 모델보다 실제로 더 능력 있을 것 같음. 4.5의 진짜 후속을 아직 못 봤고, 그런 방향의 모델을 보고 싶음
  - 말 됨. 5.5는 기본적으로 간결함을 최적화하는 것 같음, 그게 token burn을 피하는 방식이니까. 네 취향에 맞춘 특정 prompting으로 해결될 수 있을지 궁금함
  - 5.5 Pro는 매우 유능하고, 아마 바로 그 이유 때문에 더 잘하는 듯함. 그래도 큰 모델이 해결해줄 수 있는 영역 중 하나라고 생각함. 4.5가 5.5 thinking보다 인간처럼 들리는 데 더 나았기 때문임. 물론 그건 시스템 프롬프트 영향도 분명 일부 있을 거임.
의견이 이렇게 빨리 바뀐 게 흥미로움. 1년 전만 해도 Google이 자원은 더 많지만 그걸로 이긴다는 뜻은 아니라고 했다가 downvote 먹었음. 걔들은 결정적인 순간에 망치는 묘한 능력이 있음. 이제는 모두가 Gemini는 경쟁자도 아니라고 동의하는 듯함.
돌아가서 자랑하고 싶음. 진짜 모두가 OpenAI는 AOL 같고, Gemini 2.5 Pro 이후로 따라잡을 가능성이 없다고 말했었음 lol.
- 아이러니하게도 gdm은 더 많은 자원이 없음 lol
  - Alphabet과 그 모든 제품은 이제 기본적으로 전부 AI임. LLM에 OpenAI보다 적은 돈을 투자하고 있다고는 의심됨.
  - 무슨 소리임, google cloud는 google 회사에서 엄청 큰 부분임. 그리고 gdm을 위해 compute를 넉넉히 보유하기보다 파는 걸 선호함
Gemini는 너무 구려서 gpt와 Claude랑 비교조차 안 됨.
비용 때문에 5.6.
원래 Google이어야 했지만 현실적으로는 다음 anthropic일 듯함. Anthropic은 이제 너무 커져서 좋은 모델을 내기 어려움.
업계의 스포츠화가 계속되는 중임.
이들 모두 비공개로는 엄청난 모델을 갖고 있을 게 분명하지만, 왠지 Google이 최고 모델을 갖고 있을 것 같음. 무한한 돈, 뛰어난 연구자들, 사실상 인터넷 전체를 플래시 드라이브에 담아 가진 회사임. 그 모델을 6월에 공개할지는 다른 문제임. 내 돈은 문자 그대로 Google에 걸었음.
아마 GPT-5.6, 하지만 xAI/grok-4.5를 기대 중임
google. 지켜봐라!
확실히 5.6
내 돈은 Anthropic에 걸겠음.
그래도 다른 lab들을 쉽게 배제하는 건 조심스러움. 졌다는 얘기를 여러 번 듣고도 한 달 뒤에 선두를 가져간 경우를 여러 번 봤기 때문임. Open AI, Google, 심지어 DeepSeek도 왕관을 훔칠 수 있음.
- 벤치마크가 너무 들쭉날쭉하고, 모델들이 benchmaxxed to the tits 상태라 말하기 항상 좀 어려움.
  - 웃기게도, 지금 OpenAI가 아마 benchmaxxing 안 하는 유일한 lab일 거라고 생각함. SWE Bench Pro 숫자를 보면 다른 모델들보다 훨씬 낮은데도 모델 능력은 의심할 여지 없이 top 2, 아니면 최고임
- Google은 확실히 언더독임. 엔터프라이즈를 염두에 둔 다른 게임을 하는 것 같음. 근데 마지막 flash 릴리스는.. 흥미로웠음..
확실히 gpt 5.6임, gpt 5.5도 4.8 opus보다 나음. 그래서 5.6은 claude를 완전히 죽일 거임. Gemini는 pro 모델을 한동안 안 냈고, 좋을 수도 있지만 antigravity가 claude code나 codex harness만큼 좋지 않아서 별로 중요하지 않음. Codex도 플러그인으로 큰 업데이트를 가져옴, 예를 들어 이제 codex에서 바로 사이트 배포 가능함. Openai가 이기고 있음
- “이거/저거 완전히 죽일 거임”
  모든 sub이 자기가 뭘 말하는지 진짜 안다고 생각하는 사람들로 가득하다는 걸 떠올리기 싫음 🥲
- 5.5가 opus 4.8보다 뭐가 더 낫다고 느끼는지 궁금함. 난 둘 다 있고, 문제 해결, 수학, 기본 코딩에서는 확실히 opus 쪽으로 기움. 새 image 2가 멋지고 OpenAI의 limit이 더 좋고 인터넷 사이트 검색도 더 좋은 건 알지만, 그 이상은 잘 모르겠음
- 솔직히 말하면 5.6은 지금까지는 좀 멍청해 보임.
  - 무슨 소리임? 5.6은 아직 안 나왔는데 lol.
  - Lol 미안, 내가 잘못 썼음... 5.5.
OpenAI.
그들의 전체 비즈니스 모델은 자기 모델이 최고/가장 많이 쓰이도록 보장하는 것임. Google처럼 공급망이 수직 통합되어 있지 않다는 사실에 대한 유일한 실질 방어 수단이 그거라서임. Google은 자체 TPU를 만들 수 있음.
그들의 sota 모델이 뒤처지기 시작하고 사용자 수도 함께 떨어지면, 매출은 하향 나선으로 빠질 거임.
OpenAI가 경쟁사 직후에 새 모델을 내는 패턴을 보이는 이유가 이거임.
OAI ... Gemini는 구림
가장 최근에 출시하는 쪽
Openai. Mythos는 그냥 마케팅 hype임
돈을 건다면 내 추측은 이럼: OpenAI - Anthropic - Google DeepMind - Gemini는 이상함. 예전에는 가장 강한 모델 중 하나처럼 느껴졌는데, 지금은 꽤 실망스럽게 느껴짐. Claude는 현실 사용에서 traction이 있고, OpenAI보다 명확히 뒤처진다는 느낌은 별로 없음. 하지만 난 뉴스의 주장, 벤치마크, hype보다는 내 모델 사용 경험에 주로 의존하는 중임.
솔직히 말하기 어려움, 요즘은 token efficiency가 더 목표인 것 같음
선생님 여긴 polymarket이 아님.
OpenAI가 가장 완성된 AI suite를 갖고 있음.
그 질문에 답하려면 먼저 정의해야 함: 지능이란 무엇인가? 능력이란 무엇인가?
Openai가 다음 AI를 업데이트할 거라고 봄
Google; Mythos는 자체 테스트만 된 bs일 뿐이고 PR BS일 수도 있음. Google은 Gemini 3.5 Pro를 준비 중이고 아마 이번 달 출시할 거임. OpenAI는 아마 GPT-6 전까지 다른 AI 모델을 내지 않을 듯함. Grok은 항상 다음 대단한 걸 갖고 있다고 주장하지만 결국 항상 기대 이하임 😂
OpenAI가 실수로 이걸 올렸다가 바로 내렸음, 어머나!
- 흠? 어디였음?
- 네가 이 BS 사진 생성한 거지?
아무 이유 없이 Google에 한번 걸어봄 🥴
아마 google. 돈도 더 많고, Gpu도 더 많고, 엔지니어도 더 많음
이 질문은 bot이 쓴 것 같으니 네가 수집하는 데이터 더럽히려고 말하겠음. 새 Pythia 1000M 모델이 6월 말 기준 단연 가장 능력 있는 모델이 될 거임
mythos를 포함한다면 anthropic. 아니면, 그리고 포함해야 하는지도 모르겠지만, openAI
gemini는 요즘 치매 걸린 듯함
우리는 이미 선도적인 폐쇄형 모델과 심지어 오픈소스 모델까지 모두 같은 LLM plateau에 도달하는 걸 보고 있음. 이게 곧 바뀔 증거는 안 보임. 지능이 아니라 context와 efficiency의 소폭 개선이 계속될 거라고 예상함. 한동안 이 패턴이었음.
- 1~2주 정도 말하는 거임? 2개월 전과 비교해도 발전은 꽤 눈에 띄는데.

네가 방금 말한 모든 줄이 틀림. 모델은 꾸준히 똑똑해지고 있음. artificial analysis graph over time을 봐라. early 2025 이후 능력치가 기울어진 선으로 올라가고 있음.

OpenAI.
Google은 경쟁에 있는 게 아니라, 그냥 경쟁자들이 무너지길 기다리는 중임.
Anthroslop이 Mythos를 낼 수도 있는데, 모두를 실망시킬 거고, OpenAI는 계속 king of the hill로 남을 거임.
어쨌든 내 예상은 그럼.
- lol
Google
google은 아님
나는 Anthropic이 우리 모두를 true AGI까지 데려갈 거라고 생각함. Mythos가 해낸 일들의 양은 완전히 미쳤음.
- mythos가 정확히 뭘 했는데 chat gpt가 Erdos conjecture를 반박한 걸 뛰어넘음?
- 나는 mythos 초기 접근권을 받은 큰 회사 중 하나에서 사이버보안 일을 하고, mythos를 정기적으로 사용함. 좋은 모델이고 5.5 Cyber를 아주 근소하게 앞섬(5.5로 바꿔서 비용을 줄일 수 있을지 보려고 전체 조직 설문을 했는데, 약 90%가 둘이 동급이라고 했음).
  Mythos는 실제 성과에 비해 대중에게 너무 과장되어 있음. 지금 Mythos의 리드가 극도로 좁기 때문에, 5.6이 훨씬 나은 가격대에서 이걸 넘어선다 해도 놀랍지 않음.
- mythos가 뭘 했는데 lol 취약점 찾기??
Lol 이 중 하나는 다른 것들과 다름
그리고 당연히 mythos일 거임
아마 Google. 하지만 Google이 진짜 필요했던 건 3.5 flash로 공개한 것임.
Apple이 새 Siri에 Gemini를 쓰고, 그것도 Google cloud에서 돌아갈 예정임.
그래서 Google에는 매우 효율적이고 빠른 것이 필요했고, 3.5 flash로 그걸 얻은 셈임.
Apple이 Gemini를 채택하면서 Google은 이제 스마트폰의 99%를 갖게 됐고, 그건 Google이 필요로 하는 compute 양이 미친 수준이라는 뜻임.
그냥 GPT 5.6이나 Mythos 같은 모델을 그 많은 사람에게 돌리면서 비용을 관리 가능하게 유지할 수 있다고 생각하지 않음.
이미 새 Siri에는 waitlist가 있을 거라는 루머도 있음.
이 그림에는 플레이어가 너무 많고, Google은 왠지 해낼 수 없는 느낌임. 벤치마크 점수? 가능함. 이미지 모델? 응, 완전 가능함. 하지만 탄탄한 LLM / General intelligence는 손이 닿지 않는 듯함. 어째 그들의 모델은 hallucination factory처럼 보임. OpenAI와 Anthropic 사이에서는 그냥 타이밍 문제처럼 느껴지고, 나는 OpenAI가 실제로 전반적으로 앞서 있다고 의심하지만, Mythos가 보여주는 게 진짜이고 그 trajectory를 계속 이어간다면 Anthropic이 가질 수도 있음.
나에게 흥미로운 질문은 Anthropic이 공개적으로 Mythos는 출시하기엔 너무 위험하다고 말하고 있다는 점임, 맞지? 그럼 다음 모델들이 그만큼 강하거나 더 강하면, 보류할까? OpenAI도 똑같이 할까, 아니면 밀고 나갈까?
그리고 이 모든 건 중국 lab들을 제외한 얘기임. 그들이 뭔가 미친 걸 우연히 발견하고 “Deepseek moment”를 맞으면, 뒤로 물러서서 비밀로 둘 리는 없지 않음?
다만 돌아보면, 지금 6월 7일이고 3주가 그렇게 긴 시간은 아닌 듯함... 6월 안에 Mythos-tier 모델을 보게 될까, OpenAI는 뭘 내놓을까? GPT 5.6과 Mythos가 나오면 누구든 이길 수 있음. Google 빼고. 미안 Google...
확실히 open AI는 아님 lol 걔들은 grok보다도 뒤처짐
- 어떻게?
- 전혀 사실 아님. Codex 써봤음?
xAI
- 이번 달에 뭔가 큰 걸 낼 것으로 예상됨?

전 OpenAI 한표

AI 목록