원문: venturebeat.com | 토론: GeekNews · 댓글 4개

핵심 요약 Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지는 Apache 2.0 오픈소스로 공개되었다. 벤치마크상 GPT-5-mini와 Sonnet 4.5를 능가한다고 주장하지만, 커뮤니티에서는 실제 사용 시 과대광고에 미치지 못한다는 피드백이 많다. 비전 모델의 경우 VRAM 소비가 예상보다 크며, 122B 모델은 96GB GPU에서도 올리기 어렵다는 보고가 있다.

커뮤니티 의견

  • @chcv0313: “RTX Pro 6000(96GB)을 보유중인데, ollama로 122B 모델이 안올라갑니다. 비전 트랜스포머 때문인가 합니다”
  • @ng0301: “비전 인코더 사용되면 1B모델도 9G VRAM 먹더라구요”
  • @kensin2: “cuda 기반의 llama.cpp 서버로 돌려야 성능 나옵니다”

💡 실무 포인트: 로컬 LLM 배포 시 비전 인코더의 추가 VRAM 소비를 반드시 고려하고, ollama 대신 llama.cpp 서버 기반 배포를 검토하라.