자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM 기반 에이전트다. ‘동쪽으로 확장’, ‘과학 승리’ 등 고수준 의도를 입력하면 에이전트가 실제 조작을 수행한다. Strategy, Action, HITL(Human-in-the-Loop)의 3계층 구조로 전략과 실행을 분리했으며, 복잡한 전략 게임에서 VLM 에이전트의 가능성을 보여주는 실험적 프로젝트다.

커뮤니티 의견

  • @bus710: “열심히 점령/문화/과학/외교 승리로 달리고 있으면 꼭 어디서 종교 승리로 뒤통수 맞던”

💡 실무 포인트: VLM 에이전트의 Strategy-Action-HITL 3계층 분리 아키텍처는 게임 외 복잡한 의사결정 자동화(업무 프로세스, 테스트 자동화 등)에도 적용 가능하다.