가십데일리
  • 전체 글
  • 검색
  • 아카이브
  • 태그
  • 소개
Home » Tags

멀티모달

AI 3월 17일

Spotify의 AI DJ의 끔찍한 어리석음

Spotify의 AI DJ가 클래식 음악의 악장 순서나 작품 구조를 이해하지 못하는 사례를 통해 도메인 특화 AI의 한계를 보여준다. 이는 AI 문제라기보다 제품 설계 문제이며, “셔플 + 음성 멘트” 수준의 구현 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 16일

Show GN: My Oshi Canvas — 프롬프트 없이 캐릭터를 만드는 서비스

프롬프트 없이 4개의 선택지만으로 애니메이션 캐릭터를 디자인할 수 있는 서비스다. AI 이미지 생성의 프롬프트 엔지니어링 장벽을 선택형 UI로 낮춘 접근이 특징이다. 게임 개발 중 캐릭터 디자인이 필요했으나 프롬프 …

AI GeekNews Diffusion 원문↗ 토론↗
AI 3월 15일

Claude, 대화 내에서 인터랙티브 시각 자료 생성 기능 추가

코드 작성 없이 대화 중 차트, 다이어그램, 시각화를 실시간으로 생성하는 기능을 베타로 출시. 기존 Artifacts가 공유·다운로드용 독립 결과물이라면, 이번 시각 자료는 대화 맥락에서 이해를 돕기 위한 임시 인 …

AI GeekNews Claude 원문↗ 토론↗
AI 3월 15일

Google Maps, 새 AI 기능 Ask Maps와 몰입형 내비게이션 발표

구글지도가 Gemini 모델을 결합한 대화형 탐색(Ask Maps)과 몰입형 내비게이션을 발표, 10년 만의 최대 개편. Ask Maps는 복잡한 실제 질문에 대화형으로 답변하며, 3억 개 이상의 장소 정보와 5억 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 15일

Show GN: My Oshi Canvas - 프롬프트 없이 선택만으로 캐릭터를 만드는 서비스

애니메이션 캐릭터 디자인을 프롬프트 없이 4개의 선택만으로 생성할 수 있는 서비스. 프롬프트 학습의 진입장벽을 제거하고, 선택형 UI로 AI 이미지 생성의 접근성을 극대화한 사례. 💡 실무 포인트: AI 기능의 …

AI GeekNews Diffusion 원문↗ 토론↗
AI 3월 14일

AI 얼굴인식 오류로 무고한 여성이 수개월간 구금됨

노스다코타주 사기 사건 수사에서 AI 얼굴인식 시스템이 잘못된 인물 식별을 한 결과, 무고한 여성이 5개월간 인터뷰조차 없이 구금되었다. AI는 ‘가능한 일치’를 표시했을 뿐인데, 인간 수사관이 이를 확정적 증거처 …

AI GeekNews 보안 원문↗ 토론↗
AI 3월 14일

Claude, 대화 내에서 인터랙티브 시각 자료 생성 기능 추가

Anthropic이 코드 작성 없이 대화 중 차트·다이어그램·시각화를 실시간으로 생성하는 기능을 베타로 출시했다. 기존 Artifacts가 공유·다운로드용 독립 결과물이라면, 이번 시각 자료는 대화 맥락에서 이해를 …

AI GeekNews Claude 원문↗ 토론↗
AI 3월 14일

Google Maps, 새 AI 기능 Ask Maps와 몰입형 내비게이션 발표

구글 지도가 Gemini 모델을 결합하여 대화형 탐색 기능 Ask Maps와 몰입형 내비게이션이라는 10년 만의 최대 개편을 발표했다. Ask Maps는 3억 개 이상의 장소 정보와 5억 명 이상의 기여자 리뷰를 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 13일

Claw-Empire — CEO의 책상에서 지휘하는 AI 에이전트 제국

사용자가 가상 회사의 CEO가 되어 여러 AI 에이전트를 지휘·협업시키는 로컬 우선 AI 에이전트 오피스 시뮬레이터다. 픽셀 아트 기반 오피스 인터페이스를 통해 AI들의 업무 수행 과정을 실시간으로 모니터링할 수 …

AI GeekNews 에이전트 원문↗ 토론↗
AI 3월 13일

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 13일

얀 르쿤, 물리적 세계를 이해하는 AI 구축 위해 10억 달러 조달

Meta 전 최고 AI 과학자 얀 르쿤이 공동 설립한 스타트업 Advanced Machine Intelligence(AMI)가 10억 달러 이상의 투자를 유치했다. 세계 모델(world model)을 개발해 물리적 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 12일

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 12일

얀 르쿤, 물리적 세계를 이해하는 AI 구축 위해 10억 달러 조달

Meta 전 최고 AI 과학자 얀 르쿤이 공동 설립한 스타트업 Advanced Machine Intelligence(AMI)가 10억 달러 이상의 투자를 유치했다. AMI는 세계 모델(world model)을 개발 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 8일

Nvidia PersonaPlex 7B on Apple Silicon

Apple Silicon에서 Swift/MLX로 구현된 PersonaPlex 7B 모델이 실시간 양방향 음성 대화(full-duplex)를 지원한다. 기존의 ASR→LLM→TTS 3단계 음성 파이프라인을 하나의 모 …

AI GeekNews TTS 원문↗ 토론↗
AI 3월 6일

언더로그 - 밑줄 친 문장을 촬영하면 AI가 서재로 옮겨주는 iOS 앱

책에 밑줄 친 문장을 촬영하면 AI(Gemini Vision)가 밑줄·형광펜 표시를 인식하여 문장을 추출하고 디지털 서재로 정리해주는 iOS 앱이다. Apple VisionKit → GPT → Gemini 순으로 …

AI GeekNews Gemini 원문↗ 토론↗
AI 3월 5일

메타 스마트 안경 개발 노동자들 "우리는 모든 것을 본다" — 개인정보 유출 논란

Meta AI 안경이 수집하는 영상·음성 데이터를 케냐 하청업체 노동자들이 검수·주석 처리하는 과정에서, 나체·성행위·금융정보 등 민감한 사생활 데이터가 그대로 노출되고 있다는 실태가 폭로되었다. Meta가 얼굴 …

AI GeekNews 보안 원문↗ 토론↗
AI 3월 4일

메타 스마트 안경 개발 노동자들 "우리는 모든 것을 본다" - 개인정보 유출 논란

Meta의 AI 스마트 안경으로 수집된 사생활 영상과 음성 데이터가 케냐 하청업체에서 검수·주석 처리되고 있으며, 나체·성행위·금융정보 등이 포함된 사례가 증언됐다. 내부 문서에 따르면 정치적으로 혼란스러운 시기에 …

AI GeekNews 보안 원문↗ 토론↗
AI 3월 3일

Show GN: microGPT를 웹사이트로 시각화해보았습니다

Karpathy의 microgpt 프로젝트를 기반으로 GPT 전체 파이프라인을 인터랙티브 웹사이트로 시각화한 프로젝트이다. 토크나이징부터 임베딩, 어텐션, 추론까지 내부 흐름이 단계별로 보이도록 구현되었다. 한국어 …

AI GeekNews GPT 원문↗ 토론↗
AI 3월 3일

프로덕트 디자인이 변하고 있다

AI 도구가 디자인 시스템을 직접 활용해 UI를 생성하면서, 디자이너의 역할이 단순 시각 설계에서 전략과 조율 중심으로 이동하고 있다. 핵심 질문은 “누가 누구의 일을 뺏나"가 아니라, 프로세스가 어떻게 바뀌는가이 …

AI GeekNews 멀티모달 원문↗ 토론↗
AI 3월 1일

Nano Banana 2: 프로 기능과 빠른 속도를 결합

Google이 Nano Banana Pro의 고급 기능과 Gemini Flash의 속도를 결합한 Nano Banana 2를 공개했다. 고속 이미지 생성과 편집 반복이 가능하며, 세계 지식 기반 렌더링, 정확한 텍스 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 1일

Perplexity Computer — 19개 AI 모델을 조율하는 범용 디지털 워커

Perplexity AI가 Claude Opus 4.6, Gemini, Grok, ChatGPT 5.2, Veo 3.1 등 경쟁사 최신 모델 19개를 하나의 지능형 에이전트 시스템으로 통합한 Perplexity …

AI GeekNews 에이전트 원문↗ 토론↗
AI 2월 28일

Nano Banana 2: 프로 기능과 빠른 속도를 결합

Google의 Nano Banana Pro의 고급 기능과 Gemini Flash의 속도를 결합한 이미지 생성 모델. 고속 이미지 생성과 편집 반복이 가능하며, 세계 지식 기반 렌더링, 정확한 텍스트 표현 및 번역, …

AI GeekNews Google 원문↗ 토론↗
AI 2월 28일

경쟁사 AI 5개를 하나로 묶은 Perplexity Computer, 멀티모델 오케스트레이션 전략

Perplexity Computer의 핵심은 Claude Opus 4.6, Gemini, Grok, ChatGPT 5.2, Veo 3.1 등 경쟁사 최신 모델들을 하나의 지능형 에이전트 시스템으로 통합한 것이다. …

AI GeekNews 에이전트 원문↗ 토론↗
« Prev 
© 2026 가십데일리 · Powered by Hugo & PaperMod