Alibaba Qwen 팀이 텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 최신 옴니모달 모델을 공개했다. Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 능력을 대폭 강화했다. Plus·Flash·Light 3가지 크기의 Instruct 버전을 제공하며, 256k 롱컨텍스트 입력과 10시간 이상의 오디오/영상 처리를 지원한다.

💡 실무 포인트: 멀티모달 파이프라인을 구축 중이라면 Qwen3.5-Omni의 Light 버전으로 프로토타이핑을 시도해볼 만하다. 256k 컨텍스트와 영상 처리 지원은 회의록 자동 요약이나 영상 분석 등에 실용적이다.