원문: venturebeat.com | 토론: GeekNews · 댓글 4개

핵심 요약 Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지가 Apache 2.0 오픈소스로 공개됐다. 벤치마크상 GPT-5-mini와 Claude Sonnet 4.5를 능가한다고 주장하나, 실제 사용자 경험에서는 Sonnet 4.5 수준에 미치지 못한다는 평가가 지배적이다. 비전 모델의 경우 비전 트랜스포머로 인해 VRAM 소모가 크고, 122B 모델은 96GB GPU에서도 올라가지 않는 사례가 보고됐다. 다만 self-hosted 환경에서 이 수준의 성능이 가능하다는 점 자체는 인상적이라는 평가다.

커뮤니티 의견

  • @chcv0313: “RTX Pro 6000(96GB)을 보유중인데, ollama로 122B 모델이 안올라갑니다. 비전 트랜스포머 때문인가 합니다.”
  • @kensin2: “cuda 기반의 llama.cpp 서버로 돌려야 성능 나옵니다.”

💡 실무 포인트: 로컬 LLM 배포 시 비전 모델의 추가 VRAM 오버헤드를 반드시 고려하고, ollama 대신 llama.cpp 서버 기반 배포를 검토하라.