멀티모달 | 가십데일리

Spotify의 AI DJ가 클래식 음악의 악장 순서나 작품 구조를 이해하지 못하는 사례를 통해 도메인 특화 AI의 한계를 보여준다. 이는 AI 문제라기보다 제품 설계 문제이며, “셔플 + 음성 멘트” 수준의 구현 …

프롬프트 없이 4개의 선택지만으로 애니메이션 캐릭터를 디자인할 수 있는 서비스다. AI 이미지 생성의 프롬프트 엔지니어링 장벽을 선택형 UI로 낮춘 접근이 특징이다. 게임 개발 중 캐릭터 디자인이 필요했으나 프롬프 …

코드 작성 없이 대화 중 차트, 다이어그램, 시각화를 실시간으로 생성하는 기능을 베타로 출시. 기존 Artifacts가 공유·다운로드용 독립 결과물이라면, 이번 시각 자료는 대화 맥락에서 이해를 돕기 위한 임시 인 …

구글지도가 Gemini 모델을 결합한 대화형 탐색(Ask Maps)과 몰입형 내비게이션을 발표, 10년 만의 최대 개편. Ask Maps는 복잡한 실제 질문에 대화형으로 답변하며, 3억 개 이상의 장소 정보와 5억 …

애니메이션 캐릭터 디자인을 프롬프트 없이 4개의 선택만으로 생성할 수 있는 서비스. 프롬프트 학습의 진입장벽을 제거하고, 선택형 UI로 AI 이미지 생성의 접근성을 극대화한 사례. 💡 실무 포인트: AI 기능의 …

노스다코타주 사기 사건 수사에서 AI 얼굴인식 시스템이 잘못된 인물 식별을 한 결과, 무고한 여성이 5개월간 인터뷰조차 없이 구금되었다. AI는 ‘가능한 일치’를 표시했을 뿐인데, 인간 수사관이 이를 확정적 증거처 …

Anthropic이 코드 작성 없이 대화 중 차트·다이어그램·시각화를 실시간으로 생성하는 기능을 베타로 출시했다. 기존 Artifacts가 공유·다운로드용 독립 결과물이라면, 이번 시각 자료는 대화 맥락에서 이해를 …

구글 지도가 Gemini 모델을 결합하여 대화형 탐색 기능 Ask Maps와 몰입형 내비게이션이라는 10년 만의 최대 개편을 발표했다. Ask Maps는 3억 개 이상의 장소 정보와 5억 명 이상의 기여자 리뷰를 …

사용자가 가상 회사의 CEO가 되어 여러 AI 에이전트를 지휘·협업시키는 로컬 우선 AI 에이전트 오피스 시뮬레이터다. 픽셀 아트 기반 오피스 인터페이스를 통해 AI들의 업무 수행 과정을 실시간으로 모니터링할 수 …

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

Meta 전 최고 AI 과학자 얀 르쿤이 공동 설립한 스타트업 Advanced Machine Intelligence(AMI)가 10억 달러 이상의 투자를 유치했다. 세계 모델(world model)을 개발해 물리적 …

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

Meta 전 최고 AI 과학자 얀 르쿤이 공동 설립한 스타트업 Advanced Machine Intelligence(AMI)가 10억 달러 이상의 투자를 유치했다. AMI는 세계 모델(world model)을 개발 …

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

책에 밑줄 친 문장을 촬영하면 AI(Gemini Vision)가 밑줄·형광펜 표시를 인식하여 문장을 추출하고 디지털 서재로 정리해주는 iOS 앱이다. Apple VisionKit → GPT → Gemini 순으로 …

Meta AI 안경이 수집하는 영상·음성 데이터를 케냐 하청업체 노동자들이 검수·주석 처리하는 과정에서, 나체·성행위·금융정보 등 민감한 사생활 데이터가 그대로 노출되고 있다는 실태가 폭로되었다. Meta가 얼굴 …

Meta의 AI 스마트 안경으로 수집된 사생활 영상과 음성 데이터가 케냐 하청업체에서 검수·주석 처리되고 있으며, 나체·성행위·금융정보 등이 포함된 사례가 증언됐다. 내부 문서에 따르면 정치적으로 혼란스러운 시기에 …

Karpathy의 microgpt 프로젝트를 기반으로 GPT 전체 파이프라인을 인터랙티브 웹사이트로 시각화한 프로젝트이다. 토크나이징부터 임베딩, 어텐션, 추론까지 내부 흐름이 단계별로 보이도록 구현되었다. 한국어 …

AI 도구가 디자인 시스템을 직접 활용해 UI를 생성하면서, 디자이너의 역할이 단순 시각 설계에서 전략과 조율 중심으로 이동하고 있다. 핵심 질문은 “누가 누구의 일을 뺏나"가 아니라, 프로세스가 어떻게 바뀌는가이 …

Google이 Nano Banana Pro의 고급 기능과 Gemini Flash의 속도를 결합한 Nano Banana 2를 공개했다. 고속 이미지 생성과 편집 반복이 가능하며, 세계 지식 기반 렌더링, 정확한 텍스 …

Perplexity AI가 Claude Opus 4.6, Gemini, Grok, ChatGPT 5.2, Veo 3.1 등 경쟁사 최신 모델 19개를 하나의 지능형 에이전트 시스템으로 통합한 Perplexity …

Google의 Nano Banana Pro의 고급 기능과 Gemini Flash의 속도를 결합한 이미지 생성 모델. 고속 이미지 생성과 편집 반복이 가능하며, 세계 지식 기반 렌더링, 정확한 텍스트 표현 및 번역, …

Perplexity Computer의 핵심은 Claude Opus 4.6, Gemini, Grok, ChatGPT 5.2, Veo 3.1 등 경쟁사 최신 모델들을 하나의 지능형 에이전트 시스템으로 통합한 것이다. …