멀티모달 | 가십데일리

apfel - Mac에 이미 내장된 무료 AI를 활용하게 해주는 도구

macOS 26 이상 Apple Silicon Mac에 내장된 Apple 온디바이스 LLM을 CLI, HTTP 서버, 대화형 채팅으로 활용할 수 있게 하는 오픈소스 도구다. …

Gemma 4 비주얼 가이드

Google DeepMind의 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리다. 모든 변형이 이미지 입력을 지원하며, 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 …

Qwen3.6-Plus: 현실 세계 에이전트를 향하여

Alibaba의 Qwen3.6-Plus가 에이전틱 코딩 능력과 멀티모달 추론 성능을 대폭 강화해 출시됐다. 1M 토큰 컨텍스트 윈도우를 지원하며 Alibaba Cloud Model Studio API를 통해 제공된 …

Show GN: Lectone - PDF/PPT 올리면 AI가 강의 영상으로 만들어 드립니다

슬라이드만 올리면 스크립트 생성·음성 합성·영상 편집까지 자동으로 처리해 강의 영상을 만들어주는 서비스다. 기존에 파편화된 여러 도구(스크립트 작성, TTS, 영상 편집)를 하나의 파이프라인으로 통합한 것이 핵심 …

Google, 오픈 모델 Gemma 4 공개

Google DeepMind가 Gemini 3 기술 기반의 차세대 오픈 모델 Gemma 4를 발표했다. E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 …

Qwen3.6-Plus: 현실 세계 에이전트를 향하여

Qwen3.6-Plus는 에이전트형 코딩 능력과 멀티모달 추론 성능을 대폭 강화한 대규모 업그레이드 모델이다. 1M 토큰 컨텍스트 윈도우를 지원하며, Alibaba Cloud Model Studio API를 통해 …

OkCupid가 얼굴 인식 기업에 300만 장의 데이팅 앱 사진을 제공했다고 FTC가 발표

FTC가 OkCupid의 약 300만 장 사용자 사진을 얼굴 인식 기업 Clarifai에 제공한 사실을 공식 발표했다. 2014년 OkCupid 공동창업자에게 Clarifai가 직접 대규모 사진 데이터를 요청한 것 …

OkCupid가 얼굴 인식 기업에 300만 장의 데이팅 앱 사진을 제공했다고 FTC가 발표

FTC는 OkCupid가 약 300만 장의 사용자 사진을 얼굴 인식 기업 Clarifai에 제공하면서 데이터 사용 방식에 허위 주장이 있었다고 발표했다. 2014년 Clarifai가 OkCupid 공동창업자에게 직 …

Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트

자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM 기반 에이전트다. ‘동쪽으로 확장’, ‘과학 승리’ 등 고수준 의도를 입력하면 에이전트가 실제 조작을 수행한다. …

Qwen3.5-Omni: 텍스트·이미지·오디오·영상을 모두 처리하는 완전 옴니모달 LLM 출시

Alibaba Qwen 팀이 텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 최신 옴니모달 모델을 공개했다. Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 …

Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트

자연어 명령으로 Civilization VI를 플레이하는 computer-use VLM 에이전트다. ‘동쪽으로 확장’, ‘과학 승리’ 등 고수준 의도를 입력하면 에이전트가 실제 게임 조작을 수행한다. …

AI 얼굴인식 오류로 노스다코타 범죄 혐의로 잘못 체포된 테네시 여성

테네시의 Angela Lipps(50세)가 한 번도 방문한 적 없는 노스다코타의 은행 사기 사건 용의자로 Clearview AI 시스템에 의해 잘못 식별되어 5개월 이상 구금되었다. Fargo 경찰은 AI 결과를 …

Vercel의 json-render - Generative UI 프레임워크

AI가 사용자 프롬프트를 받아 JSON 구조를 생성하고, 이를 미리 정의된 컴포넌트로 렌더링하는 생성형 UI 프레임워크다. 사전 정의된 컴포넌트 카탈로그를 통해 안전하고 예측 가능한 출력을 보장하면서도, 프롬프트 …

나노 바나나 효과: AI가 건축 시각화를 재편하는 방법

Google의 최신 이미지 생성 모델 Gemini 3 Pro Image(코드명 Nano Banana Pro)가 건축 시각화 업계에 큰 파장을 일으키고 있다. 기존 AI 도구와 차별화되는 핵심은 도면 해독 능력 …

OpenAI, AI 영상 앱 Sora 전격 종료 — Disney 파트너십도 해체

OpenAI가 2025년 9월 출시한 AI 영상 생성 앱 Sora를 6개월 만에 전격 종료한다고 발표했다. iOS 앱, API, Sora.com 모두 종료 예정이며, Disney 파트너십도 해체된다. 출시 이틀 만 …

iPhone 17 Pro에서 400B LLM 실행하기

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, …

Show GN: MonoPix — AI가 만든 가짜 픽셀아트를 진짜 픽셀아트로 복원

AI가 생성한 픽셀아트의 고질적 문제(경계 흐림, 그리드 어긋남, 색 혼합)를 해결하여 실제 픽셀 그리드에 정밀하게 재매핑하는 도구다. 커뮤니티 피드백을 반영해 데모 이미지 로드 기능도 빠르게 추가되었다. AI 이 …

메타의 1,600개 언어용 Omnilingual MT

Meta AI의 Omnilingual Machine Translation(OMT)은 1,600개 이상 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섰다. 공개 코퍼 …

Show GN: MonoPix - AI가 만든 가짜 픽셀아트를 진짜 픽셀아트로 복원

AI가 생성한 픽셀아트는 확대하면 경계가 흐릿하고 그리드가 어긋나며 한 칸 안에 색이 섞여 있어 “진짜 픽셀아트"가 아니다. MonoPix는 이런 이미지를 실제 픽셀 그리드로 재정렬해주는 오픈소스 도구로, AI 생 …

Show GN: vvrite — 오픈소스 macOS 온디바이스 AI 음성 타이핑 앱

Qwen3-ASR 모델을 기반으로 macOS에서 완전 로컬로 동작하는 오픈소스 음성 타이핑 앱이다. 기존 superwhisper, spokenly 등의 네트워크 레이턴시 문제를 해결하기 위해 개발되었으며, 특히 한 …

메타의 1,600개 언어용 Omnilingual MT

Meta AI가 개발한 Omnilingual Machine Translation(OMT)은 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섰다. …

open-pencil — Figma 대체용 AI 기반 디자인 편집기

AI 중심 설계 철학을 가진 오픈소스 디자인 도구로, .fig 파일 직접 읽기/쓰기를 지원해 Figma 프로젝트를 그대로 열고 수정할 수 있다. 채팅 인터페이스에서 90여 개의 AI 도구가 도형 생성, 속성 변경, …

Google의 AI 네이티브 "바이브 디자인" 플랫폼, Stitch 공개

Google Labs가 자연어를 고품질 UI 디자인으로 변환하는 AI 네이티브 소프트웨어 디자인 캔버스 Stitch를 전면 재구성했다. 와이어프레임 없이 비즈니스 목표나 사용자 경험을 설명하면 디자인이 생성되는 “ …

open-pencil - Figma 대체용 AI 기반 디자인 편집기

AI 중심 설계 철학을 가진 차세대 오픈소스 디자인 도구로, .fig 파일 직접 읽기·쓰기를 지원해 Figma 프로젝트를 그대로 열고 수정할 수 있다. 채팅 인터페이스에서 명령을 입력하면 90여 개의 AI 도구가 …

보증 무효: 재생 시 - Warranty Void If Regenerated

생성형 소프트웨어 시대에 등장한 ‘소프트웨어 정비공’의 일상을 통해, 기술 변화가 직업 구조와 인간의 역할을 어떻게 바꾸는지를 보여주는 SF 에세이다. AI가 생성한 농업용 소프트웨어의 오류를 진단·수정하는 새로운 …

OpenAI, GPT‑5.4 Mini 및 Nano 공개

GPT-5.4의 성능을 소형화한 두 모델이 공개되었다. GPT-5.4 Mini는 코딩·추론·멀티모달·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠르다. GPT-5.4 Nano는 가장 …

Unsloth Studio - 로컬에서 AI 모델을 훈련하고 실행하는 오픈소스 노코드 웹 UI

텍스트·오디오·임베딩·비전 등 다양한 AI 모델의 로컬 실행과 학습을 하나의 인터페이스에서 지원하는 오픈소스 도구다. Mac/Win/Linux에서 GGUF/safetensor 모델을 로컬 실행 가능하며, 학습 시 …

보증 무효: 재생 시 - Warranty Void If Regenerated

생성형 소프트웨어 시대에 등장한 ‘소프트웨어 정비공’의 일상을 통해, AI가 직업 구조와 인간 역할을 어떻게 바꾸는지를 보여주는 SF적 에세이다. 농기계 수리공이 농업용 생성 소프트웨어의 오류를 진단·수정하는 정비 …

OpenAI, GPT-5.4 Mini 및 Nano 공개

GPT-5.4의 성능을 빠르고 효율적인 형태로 구현한 두 가지 소형 모델이 공개됐다. GPT-5.4 Mini는 코딩·추론·멀티모달 이해·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠 …

OpenGenerativeUI - AI 기반 생성형 UI 프레임워크 오픈소스

Claude가 출시한 인터랙티브 시각 자료 생성 기능을 오픈소스로 구현한 프로젝트다. 단순 텍스트 응답 대신 차트·다이어그램·알고리즘 시각화 등을 자동 생성하며, 생성한 HTML을 iframe 안에서 렌더링하는 방 …