Gemini

Gemma 4 비주얼 가이드

Google DeepMind의 Gemma 4는 E2B·E4B·31B·26B A4B 4가지 모델로 구성된 멀티모달 LLM 패밀리다. 모든 변형이 이미지 입력을 지원하며, 로컬 어텐션(슬라이딩 윈도우)과 글로벌 어텐션 …

Google, 오픈 모델 Gemma 4 공개

Google DeepMind가 Gemini 3 기술 기반의 차세대 오픈 모델 Gemma 4를 발표했다. E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 …

PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

Gemini embedding-2-preview의 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로 …

PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

Gemini embedding-2-preview 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, …

Gemini의 비디오 임베딩 기능을 활용한 SentrySearch

대시캠 등 영상 파일에서 자연어로 장면을 검색해 해당 구간을 자동으로 잘라내는 의미 기반 검색 시스템이다. Google Gemini Embedding 2 모델로 비디오 자체를 벡터로 임베딩하고, ChromaDB에 …

나노 바나나 효과: AI가 건축 시각화를 재편하는 방법

Google의 최신 이미지 생성 모델 Gemini 3 Pro Image(코드명 Nano Banana Pro)가 건축 시각화 업계에 큰 파장을 일으키고 있다. 기존 AI 도구와 차별화되는 핵심은 도면 해독 능력 …

Gemini + Claude 병렬 리뷰 파이프라인으로 블로그 품질 자동 검증하기

블로그 퇴고 과정을 AI 5명(멀티 모델)에게 위임하는 자동 검수 파이프라인을 구축한 사례다. Gemini와 Claude를 병렬로 실행하여 라인 단위 리뷰를 수행하며, 단일 모델 대비 검출 범위와 정확도를 높였다. …

Gemini + Claude 병렬 리뷰 파이프라인으로 블로그 품질 자동 검증하기

AI가 작성한 블로그 초안을 5개 AI 리뷰어가 라인 단위로 병렬 검수하는 파이프라인을 구축한 경험기다. 직접 퇴고하는 시간을 줄이기 위해 AI에게 AI를 검수시키는 구조를 설계했으며, Gemini와 Claude를 …

Google AI Studio, 새로운 "풀스택 바이브 코딩 환경"으로 업그레이드

프롬프트만으로 프로덕션급 애플리케이션을 제작할 수 있도록 Google AI Studio가 업그레이드되었다. Google Antigravity 코딩 에이전트를 기반으로 멀티플레이어 경험, 외부 라이브러리 설치, 데이 …

Google Maps, 새 AI 기능 Ask Maps와 몰입형 내비게이션 발표

구글지도가 Gemini 모델을 결합한 대화형 탐색(Ask Maps)과 몰입형 내비게이션을 발표, 10년 만의 최대 개편. Ask Maps는 복잡한 실제 질문에 대화형으로 답변하며, 3억 개 이상의 장소 정보와 5억 …

Google Maps, 새 AI 기능 Ask Maps와 몰입형 내비게이션 발표

구글 지도가 Gemini 모델을 결합하여 대화형 탐색 기능 Ask Maps와 몰입형 내비게이션이라는 10년 만의 최대 개편을 발표했다. Ask Maps는 3억 개 이상의 장소 정보와 5억 명 이상의 기여자 리뷰를 …

MLC-LLM으로 iOS에서 로컬 LLM(Gemma 3) 실행하기

MLC-LLM과 Metal API 가속을 활용하여 Gemma 3 모델을 iOS 기기에서 로컬로 구동하는 방법과 실측 성능 지표를 정리한 포스팅이다. 모바일에서도 지연 시간이 거의 없는 추론 환경을 구축할 수 있으며 …

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

MLC-LLM으로 iOS에서 로컬 LLM(Gemma 3) 실행하기

Gemma 3 모델을 MLC-LLM을 통해 iOS 기기에서 로컬로 구동하는 방법과 실구동 성능 지표를 정리한 포스팅이다. Metal API 가속을 통해 모바일 기기에서도 지연 시간이 거의 없는 추론 환경을 구축할 …

NOD — 웹 콘텐츠를 AI로 요약하고 검색 가능한 지식으로 저장하는 크롬 확장

웹페이지, GitHub 레포, 논문, 유튜브 영상을 AI로 요약해 검색 가능한 형태로 저장하는 크롬 확장이다. 원래 n8n + Gemini + Obsidian으로 구축한 개인 자동화를 확장 형태로 재구현했으며, …

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 …

언더로그 - 밑줄 친 문장을 촬영하면 AI가 서재로 옮겨주는 iOS 앱

책에 밑줄 친 문장을 촬영하면 AI(Gemini Vision)가 밑줄·형광펜 표시를 인식하여 문장을 추출하고 디지털 서재로 정리해주는 iOS 앱이다. Apple VisionKit → GPT → Gemini 순으로 …

CMU 10-202: 현대 인공지능 입문

카네기멜론대학에서 개설한 현대 AI 시스템의 작동 원리를 다루는 입문 과정이다. 머신러닝과 대규모 언어모델을 중심으로 ChatGPT, Gemini, Claude 같은 시스템의 기반 기술을 학습한다. AI 도우미 사 …

Google API 키는 비밀이 아니었다. 그러나 Gemini가 규칙을 바꿨다

Google이 10년 넘게 “API 키는 비밀이 아니며 공개해도 안전하다"고 안내해왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변모했다. 기존에 Google Maps, Firebase …

Google API 키는 비밀이 아니었다. 그러나 Gemini가 규칙을 바꿨다

Google이 10년 넘게 API 키는 비밀이 아니며 공개해도 안전하다고 안내해 왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변했다. 기존에 Google Maps, Firebase 등에 …

Google AI 검색이 콘텐츠를 읽는 방식 실증 분석

SEO 전문가 Dan Petrovic이 Google Gemini API의 원시 데이터를 분석해 Google AI 검색(Gemini 기반)이 웹페이지에서 어떤 문장을 답변 근거(grounding snippet)로 뽑 …

Google API 키는 비밀이 아니었다. 그러나 Gemini가 규칙을 바꿨다

Google이 10년 넘게 API 키는 비밀이 아니며 공개해도 안전하다고 안내해 왔으나, Gemini API 활성화 이후 동일 키가 민감한 인증 수단으로 변했다. 기존에 Google Maps, Firebase 등에 …

Show GN: 2분 불안 관리 앱

번아웃과 불안장애 치료 경험을 바탕으로 만든 2분 웹앱이다. 3개의 질문으로 막연한 불안을 구체화하고 그 생각과 거리를 둘 수 있도록 설계했다. 바닐라JS로 만들었고, AI는 Gemini를 연동했다. AI를 웰니스 …

Google AI 검색이 콘텐츠를 읽는 방식 실증 분석

SEO 전문가 Dan Petrovic(DEJAN)이 Google Gemini API의 원시 데이터를 분석해 Google AI 검색(Gemini 기반)이 웹페이지에서 어떤 문장을 답변 근거(grounding …

Show GN: 2분 불안 관리 앱

번아웃과 불안장애를 겪으면서 여러 치료를 받은 경험을 바탕으로 2분 웹앱을 만들었다. 3개의 질문으로 막연한 불안을 구체화하고 그 생각과 거리를 둘 수 있도록 설계했다. 바닐라JS로 만들었고, AI는 제미나이를 연 …

Ask GN: 'Claude Code에 Gemini 연결하는 법'에 대해 궁금한 분 계실까요?

저렴한 Gemini 토큰을 Claude Code의 에이전트 설계와 결합하여 사용하는 프록시 백엔드 구현 사례가 공유되었다. 핵심은 Anthropic API 형식을 다른 LLM 제공자 형식으로 변환하는 프록시 서버를 …

Ask GN: 'Claude Code에 Gemini 연결하는 법'에 대해 궁금한 분 계실까요?

소프트웨어 엔지니어가 Gemini 토큰을 저렴하게 활용하기 위해 Claude Code에 Gemini 백엔드를 프록시로 연결하는 방법을 공유했다. Gemini CLI가 너무 “전투적”(코드만 읽으라고 해도 자꾸 수정 …