Gemma 4 비주얼 가이드
Google DeepMind의 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리다. 모든 변형이 이미지 입력을 지원하며, 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 …
Google DeepMind의 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리다. 모든 변형이 이미지 입력을 지원하며, 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 …
Google DeepMind가 Gemini 3 기술 기반의 차세대 오픈 모델 Gemma 4를 발표했다. E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 …
Gemini embedding-2-preview의 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로 …
Gemini embedding-2-preview 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, …
대시캠 등 영상 파일에서 자연어로 장면을 검색해 해당 구간을 자동으로 잘라내는 의미 기반 검색 시스템이다. Google Gemini Embedding 2 모델로 비디오 자체를 벡터로 임베딩하고, ChromaDB에 …
Google의 최신 이미지 생성 모델 Gemini 3 Pro Image(코드명 Nano Banana Pro)가 건축 시각화 업계에 큰 파장을 일으키고 있다. 기존 AI 도구와 차별화되는 핵심은 도면 해독 능력 …
블로그 퇴고 과정을 AI 5명(멀티 모델)에게 위임하는 자동 검수 파이프라인을 구축한 사례다. Gemini와 Claude를 병렬로 실행하여 라인 단위 리뷰를 수행하며, 단일 모델 대비 검출 범위와 정확도를 높였다. …
AI가 작성한 블로그 초안을 5개 AI 리뷰어가 라인 단위로 병렬 검수하는 파이프라인을 구축한 경험기다. 직접 퇴고하는 시간을 줄이기 위해 AI에게 AI를 검수시키는 구조를 설계했으며, Gemini와 Claude를 …
프롬프트만으로 프로덕션급 애플리케이션을 제작할 수 있도록 Google AI Studio가 업그레이드되었다. Google Antigravity 코딩 에이전트를 기반으로 멀티플레이어 경험, 외부 라이브러리 설치, 데이 …
구글지도가 Gemini 모델을 결합한 대화형 탐색(Ask Maps)과 몰입형 내비게이션을 발표, 10년 만의 최대 개편. Ask Maps는 복잡한 실제 질문에 대화형으로 답변하며, 3억 개 이상의 장소 정보와 5억 …
구글 지도가 Gemini 모델을 결합하여 대화형 탐색 기능 Ask Maps와 몰입형 내비게이션이라는 10년 만의 최대 개편을 발표했다. Ask Maps는 3억 개 이상의 장소 정보와 5억 명 이상의 기여자 리뷰를 …
MLC-LLM과 Metal API 가속을 활용하여 Gemma 3 모델을 iOS 기기에서 로컬로 구동하는 방법과 실측 성능 지표를 정리한 포스팅이다. 모바일에서도 지연 시간이 거의 없는 추론 환경을 구축할 수 있으며 …
Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …
Gemma 3 모델을 MLC-LLM을 통해 iOS 기기에서 로컬로 구동하는 방법과 실구동 성능 지표를 정리한 포스팅이다. Metal API 가속을 통해 모바일 기기에서도 지연 시간이 거의 없는 추론 환경을 구축할 …
웹페이지, GitHub 레포, 논문, 유튜브 영상을 AI로 요약해 검색 가능한 형태로 저장하는 크롬 확장이다. 원래 n8n + Gemini + Obsidian으로 구축한 개인 자동화를 확장 형태로 재구현했으며, …
Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …
책에 밑줄 친 문장을 촬영하면 AI(Gemini Vision)가 밑줄·형광펜 표시를 인식하여 문장을 추출하고 디지털 서재로 정리해주는 iOS 앱이다. Apple VisionKit → GPT → Gemini 순으로 …
카네기멜론대학에서 개설한 현대 AI 시스템의 작동 원리를 다루는 입문 과정이다. 머신러닝과 대규모 언어모델을 중심으로 ChatGPT, Gemini, Claude 같은 시스템의 기반 기술을 학습한다. AI 도우미 사 …
Google이 10년 넘게 “API 키는 비밀이 아니며 공개해도 안전하다"고 안내해왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변모했다. 기존에 Google Maps, Firebase …
Google이 10년 넘게 API 키는 비밀이 아니며 공개해도 안전하다고 안내해 왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변했다. 기존에 Google Maps, Firebase 등에 …
SEO 전문가 Dan Petrovic이 Google Gemini API의 원시 데이터를 분석해 Google AI 검색(Gemini 기반)이 웹페이지에서 어떤 문장을 답변 근거(grounding snippet)로 뽑 …
Google이 10년 넘게 API 키는 비밀이 아니며 공개해도 안전하다고 안내해 왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변했다. 기존에 Google Maps, Firebase 등에 …
번아웃과 불안장애 치료 경험을 바탕으로 만든 2분 웹앱이다. 3개의 질문으로 막연한 불안을 구체화하고 그 생각과 거리를 둘 수 있도록 설계했다. 바닐라JS로 만들었고, AI는 Gemini를 연동했다. AI를 웰니스 …
SEO 전문가 Dan Petrovic(DEJAN)이 Google Gemini API의 원시 데이터를 분석해 Google AI 검색(Gemini 기반)이 웹페이지에서 어떤 문장을 답변 근거(grounding …
번아웃과 불안장애를 겪으면서 여러 치료를 받은 경험을 바탕으로 2분 웹앱을 만들었다. 3개의 질문으로 막연한 불안을 구체화하고 그 생각과 거리를 둘 수 있도록 설계했다. 바닐라JS로 만들었고, AI는 제미나이를 연 …
저렴한 Gemini 토큰을 Claude Code의 에이전트 설계와 결합하여 사용하는 프록시 백엔드 구현 사례가 공유되었다. 핵심은 Anthropic API 형식을 다른 LLM 제공자 형식으로 변환하는 프록시 서버를 …
소프트웨어 엔지니어가 Gemini 토큰을 저렴하게 활용하기 위해 Claude Code에 Gemini 백엔드를 프록시로 연결하는 방법을 공유했다. Gemini CLI가 너무 “전투적”(코드만 읽으라고 해도 자꾸 수정 …