멀티모달 | 가십데일리

ChatGPT Pro에서 GPT-5.4 컨텍스트 1M을 제대로 쓰려면 설정이 필요

원문: reddit.com | 토론: GeekNews · 댓글 5개 핵심 요약 ChatGPT Pro와 Codex에서 GPT-5.4를 사용할 때 기본 컨텍스트가 약 258K로 제한되어 있으며, 1M 컨텍스트를 활용하려면 별도 설정이 필요하다는 사실이 알려졌다. 다만 258K 이상으로 늘리면 토큰 가격이 두 배로 증가한다는 보고가 있어 비용 확인이 필수적이다. 또한 롱 컨텍스트 사용 시 needle-in-the-haystack 성능이 50% 이하로 떨어진다는 리포트도 있어, 무조건 긴 컨텍스트가 좋은 것은 아니라는 점이 확인되고 있다. Codex의 compaction 기능이 잘 동작하여 기본 설정으로도 큰 불편이 없다는 의견도 있다. ...

Claude Code, 코드 리뷰 기능 공개

원문: claude.com | 토론: GeekNews · 댓글 8개 핵심 요약 Anthropic이 PR마다 멀티 에이전트 팀을 투입해 사람이 놓치기 쉬운 버그를 심층 분석하는 Code Review 기능을 리서치 프리뷰로 출시했다. 배경으로는 Anthropic 엔지니어의 코드 생산량이 지난 1년간 200% 증가하면서 코드 리뷰 자체가 병목이 되었고, 많은 PR이 깊은 리뷰 대신 훑어보기에 그치는 문제가 있었다. 이에 AI가 코드 변경의 의도, 잠재적 버그, 아키텍처 영향까지 분석하는 구조를 도입했다. 다만 현재 개인 플랜은 미지원 상태이며, 팀 및 엔터프라이즈 플랜에서 사용 가능하다. “Claude로 코드를 생성하고, Claude로 코드를 리뷰하는” 자기 순환 구조에 대한 논의도 활발하다. ...

Claw-Empire — CEO의 책상에서 지휘하는 AI 에이전트 제국

원문: github.com | 토론: GeekNews · 댓글 1개 핵심 요약 Claw-Empire는 사용자가 가상 회사의 CEO가 되어 여러 AI 에이전트들을 지휘하고 협업시키는 로컬 우선(Local-first) AI 에이전트 오피스 시뮬레이터다. 단순한 채팅 UI를 넘어, 픽셀 아트 기반의 오피스 인터페이스를 통해 AI들의 업무 수행 과정을 실시간으로 모니터링할 수 있다. 커뮤니티 의견 @sea715: “메인테이너이신가요? Show GN이 더맞을거 같기도합니다” 💡 실무 포인트: 멀티 에이전트 오케스트레이션의 시각화 방법론을 참고할 수 있다. 에이전트 간 협업 구조를 직관적으로 보여주는 UI는 디버깅과 모니터링에 유용하다.

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

원문: blog.google | 토론: GeekNews · 댓글 0개 핵심 요약 Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 의도를 포착하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등에 활용 가능하다. 💡 실무 포인트: 텍스트와 이미지를 동시에 검색해야 하는 멀티모달 RAG 파이프라인을 구축할 때, 별도의 임베딩 모델을 조합할 필요 없이 단일 모델로 통합할 수 있는 기회다.

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

원문: dnhkng.github.io | 토론: GeekNews · 댓글 1개 핵심 요약 David Noel Ng가 Qwen2-72B(총 80개 레이어)의 중간 7개 레이어를 복제해 재조합하는 방법으로, 어떠한 학습이나 가중치 수정 없이 2024년 HuggingFace Open LLM 리더보드 1위를 달성했다. RTX 4090 두 장으로 수행된 이 실험은 중간 레이어를 반복 실행하는 구조만 변경한 것으로, LLM 벤치마크의 신뢰성에 의문을 제기하는 동시에 트랜스포머 내부 구조에 대한 새로운 통찰을 제공한다. 커뮤니티 의견 @GN⁺: “‘Goliath가 작동했다는 사실 자체가 놀랍다’는 부분이 핵심. 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인” 💡 실무 포인트: LLM 벤치마크 점수만으로 모델을 평가하는 것은 위험하다. 실제 서비스 태스크에 대한 자체 평가 기준을 수립하고, 벤치마크는 참고 지표로만 활용하자.

Karpathy, Autoresearch로 nanochat을 2일간 자동 튜닝해 GPT-2 학습 시간 11% 단축

원문: x.com | 토론: GeekNews · 댓글 3개 핵심 요약 Karpathy가 공개한 Autoresearch 에이전트가 depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도하여, 검증 손실을 개선하는 약 20개의 유효한 변경사항을 발견했다. AI 에이전트가 연구 자체를 자동화하는 구조로, 학회 제출과 피어 리뷰의 피드백 루프를 자동화한 확장된 강화학습 형태로 볼 수 있다는 분석이 나온다. 커뮤니티 의견 @hanje3765: “오토리서치와 에이전트허브 컨셉을 결합하면 그게 진짜 학계와 연구소 아닐까. 확장된 형식의 강화학습같아보였습니다” @xguru: “이 분은 뭔가 다른 삶을 사는 것 같아요” 관련 레퍼런스 ...

LangChain 스킬 공개, Claude Code 통과율 25% → 95%로 끌어올린 방법

원문: aisparkup.com | 토론: GeekNews · 댓글 0개 핵심 요약 LangChain이 코딩 에이전트의 성능을 극적으로 향상시키는 “스킬(Skills)” 세트를 공개했다. Claude Code 같은 모델이 LangChain/LangGraph/LangSmith 관련 태스크를 수행할 때, 스킬 없이 25% 정도만 성공하던 것이 스킬 장착 후 95%까지 올라갔다. 💡 실무 포인트: 코딩 에이전트에 도메인 특화 스킬(CLAUDE.md, 커스텀 프롬프트)을 장착하면 정확도가 크게 향상된다. 자체 프로젝트에도 에이전트 전용 컨텍스트 문서를 작성하는 것을 권장한다.

Meta, AI 에이전트용 소셜 네트워크 'Moltbook'의 창립자 2명을 영입

원문: axios.com | 토론: GeekNews · 댓글 2개 핵심 요약 Meta가 AI 에이전트 전용 소셜 네트워크 Moltbook을 인수하며, 창립자 Matt Schlicht와 Ben Parr이 Meta Superintelligence Labs(MSL)에 합류했다. “에이전트 신원 인증 및 연결 기술"을 확보하려는 의도로 보이나, 실제 Moltbook에는 단순한 Twitter OAuth 인증만 있었다는 분석도 있다. OpenAI의 Openclaw 인수에 대한 FOMO 반응이라는 해석도 나온다. 커뮤니티 의견 @unqocn: “‘Facebook 피드는 대부분 AI 생성물, Moltbook 피드는 대부분 사람이 AI인 척하는 글이라 묘하게 시너지가 있음’ 촌철살인이네요” 💡 실무 포인트: AI 에이전트 간 통신과 신원 인증은 멀티 에이전트 시스템 설계 시 핵심 과제다. 에이전트 인증 표준이 아직 확립되지 않은 만큼, 자체 시스템 설계 시 인증·권한 모델을 미리 고려해야 한다.

Omni — 업무용 AI 비서 & 검색 플랫폼

원문: github.com | 토론: GeekNews · 댓글 0개 핵심 요약 사내 다양한 앱(Google Drive, Gmail, Slack, Confluence, Jira 등)의 정보를 통합 관리하는 AI 기반 검색 및 어시스턴트 플랫폼이다. BM25 및 pgvector 기반의 전문 검색과 시맨틱 검색을 결합하여 Unified Search를 제공한다. 💡 실무 포인트: 사내 지식 검색 시스템 구축 시 BM25(키워드) + pgvector(시맨틱) 하이브리드 검색 아키텍처를 참고할 수 있다.

OpenAI, Oracle과의 Stargate 데이터센터 확장 계획 철회

원문: cnbc.com | 토론: GeekNews · 댓글 1개 핵심 요약 OpenAI가 텍사스 애빌린의 Stargate 데이터센터 확장 계획을 중단하고, 차세대 Nvidia 칩(Vera Rubin)을 사용하는 새 시설에 집중한다. Oracle은 1,000억 달러 이상의 부채 기반 투자로 AI 인프라를 확장 중이지만, Blackwell DC를 완성할 때쯤 효율이 5배 높은 Vera Rubin이 출시될 수 있다는 우려가 있다. GPU 세대 교체 속도가 DC 건설 속도를 앞지르는 상황이다. 커뮤니티 의견 @GN⁺: “Nvidia의 rack-scale 머신은 전원과 네트워크만 연결하면 되는 완성형 랙. Oracle이 Vera Rubin 랙을 사서 새 DC에 넣으면 해결될 수 있지만, 이미 Blackwell 계약이 있을 수 있음” 💡 실무 포인트: AI 인프라 투자 시 GPU 세대 교체 주기를 고려한 유연한 아키텍처를 설계해야 한다. 대규모 투자 전 차세대 하드웨어 로드맵을 반드시 검토하자.

page-agent — 코드 1줄로 웹페이지에 AI 에이전트 추가하기

원문: alibaba.github.io | 토론: GeekNews · 댓글 7개 핵심 요약 Alibaba가 공개한 page-agent는 <script src="page-agent.js"></script> 한 줄만 삽입하면 기존 웹사이트를 AI 네이티브 앱으로 변환하는 라이브러리다. 브라우저 확장, Python, 헤드리스 브라우저 없이 동작하며, 자연어 지시로 텍스트 기반 DOM을 조작할 수 있다. 북마클릿으로 다른 사이트에서도 바로 테스트할 수 있는 기능이 포함되어 있어 SNS에서 큰 반응을 얻고 있다. 보안 측면의 보완이 필요하다는 의견도 있지만, 기존 웹앱에 AI 기능을 즉시 추가할 수 있다는 점에서 실무 활용 가능성이 높다. ...

Prompt Cultivation: 경험이 프롬프트가 되는 AI 구조에 대한 이야기

원문: gist.github.com | 토론: GeekNews · 댓글 2개 핵심 요약 1인 개발자가 AI의 프롬프트를 인간이 설계하는 것이 아니라, AI가 자기 경험을 통해 프롬프트를 자율적으로 생성·진화시키는 구조를 제안한 글이다. “프롬프트를 아무리 정교하게 써도 결국 인간이 주입한 것"이라는 한계에서 출발하여, 경험 기반 자기 학습 프롬프트 구조를 탐색한다. 커뮤니티 의견 @penza1: “agent의 대부분의 구조가 비슷합니다. claude/cursor로 openclaw라던지 카파시님이 만든 심플 에이전트를 분석해보시는걸 추천 드립니다” 💡 실무 포인트: 에이전트 시스템에서 프롬프트를 하드코딩하기보다, 실행 결과에 따라 프롬프트를 점진적으로 개선하는 피드백 루프를 설계하면 시스템의 자율성과 정확도를 높일 수 있다.

Redox OS, 기여자 서명 정책과 LLM 금지 정책 도입

원문: gitlab.redox-os.org | 토론: GeekNews · 댓글 0개 핵심 요약 Redox OS 프로젝트가 코드 기여 시 Certificate of Origin(COO) 서명 정책과 LLM 사용 금지 규정을 채택했다. 모든 코드 변경이 기여자의 명시적 서명과 책임 하에 제출되도록 요구하며, AI 생성 코드의 품질과 저작권 불확실성에 대한 우려가 배경에 있다. 💡 실무 포인트: 오픈소스 프로젝트에 기여할 때 해당 프로젝트의 AI 코드 사용 정책을 반드시 확인하자. LLM 금지 정책을 채택하는 프로젝트가 늘어나는 추세다.

Show GN: Endigest — 글로벌 테크 블로그를 AI로 자동 수집·요약해주는 서비스

누가 먹을 것인가? — Vertical AI 시대, 모든 배가 뜨지는 않는 이유

원문: insights.euclid.vc | 토론: GeekNews · 댓글 0개 핵심 요약 LLM 기반 AI와 에이전트 워크플로우의 부상으로 SaaS의 경제적 논리가 근본적으로 해체되고 있다. 인텔리전스 비용의 급격한 하락이 엔터프라이즈 기술 시장의 가치 흐름을 재편 중이며, AI 서비스의 비용 우위만으로는 지속 가능한 해자를 구축할 수 없다는 분석이다. 💡 실무 포인트: AI 스타트업을 기획한다면, 단순 비용 절감이 아닌 독자적 데이터·워크플로우 통합·도메인 전문성 등 구조적 해자에 기반한 포지셔닝 전략이 필수적이다.

얀 르쿤, 물리적 세계를 이해하는 AI 구축 위해 10억 달러 조달

원문: wired.com | 토론: GeekNews · 댓글 1개 핵심 요약 Meta 전 최고 AI 과학자 얀 르쿤이 공동 설립한 스타트업 Advanced Machine Intelligence(AMI)가 10억 달러 이상의 투자를 유치했다. AMI는 세계 모델(world model)을 개발해 물리적 세계를 이해하고 추론·계획·기억 기능을 갖춘 AI를 구축하는 것이 목표다. LLM이 텍스트 데이터만 학습하여 실제 세계로부터 배우지 못한다는 한계를 극복하려는 시도로, AGI로 가는 핵심 병목을 해결하려는 방향이다. 커뮤니티 의견 @GN⁺: “LLM은 정적 텍스트만 학습하기에 진정한 창의적 발견이나 발명은 거의 불가능. 물리적 세계를 기반으로 한 시공간적 이해 학습이 AGI의 진짜 병목을 해결하려는 시도” 💡 실무 포인트: 세계 모델(world model) 기반 AI는 로보틱스, 자율주행, 시뮬레이션 분야에서 핵심 기술이 될 전망이다. 해당 분야 종사자라면 AMI의 연구 방향을 주시할 필요가 있다.

에이전트 시대에 문학적 프로그래밍을 다시 검토해야 한다

원문: silly.business | 토론: GeekNews · 댓글 2개 핵심 요약 코드와 자연어 설명을 하나의 서술로 엮는 문학적 프로그래밍(Literate Programming)이 AI 코딩 에이전트 시대에 재조명되고 있다. 과거에는 코드와 설명 두 가지를 병행 유지하는 부담이 있었으나, AI 에이전트가 이 핵심 노동을 제거할 수 있다는 주장이다. LLM이 자신의 주석을 직접 남기게 하면 just-in-time 장기 기억 역할을 할 수 있다는 의견과, LLM 주석이 너무 장황해 오히려 컨텍스트를 오염시킨다는 반론이 공존한다. 커뮤니티 의견 @GN⁺: “LLM이 자신의 주석을 직접 남기게 하면 일종의 즉시형 장기 기억 역할을 함. PR 리뷰 시 LLM의 사고 과정을 remarks에서 직접 확인할 수 있음” @xguru: “문학적 프로그래밍은 사람이 보고 이해할 수 있도록 문서를 만들듯이 프로그래밍을 하는 것이 목적” 관련 레퍼런스 ...

잇따른 장애 후, Amazon이 AI 지원 코드 변경에 시니어 엔지니어 승인 의무화

원문: arstechnica.com | 토론: GeekNews · 댓글 6개 핵심 요약 AI 코딩 도구 사용과 관련된 서비스 장애가 연이어 발생하자, Amazon이 모든 AI 지원 코드 변경에 대해 시니어 엔지니어의 사전 승인 절차를 도입했다. 내부 노트에 따르면 “베스트 프랙티스와 안전장치가 아직 완전히 확립되지 않은 새로운 도구"의 사용이 장애 원인으로 지목되었다. 이 정책은 AI 코드 생성의 속도와 안전성 사이의 균형에 대한 업계 전반의 논의를 촉발하고 있으며, 결국 법적 책임을 질 인간이 필요하다는 현실적 문제가 핵심에 있다. ...

합법과 정당은 같은가: AI 재구현과 카피레프트의 침식

원문: writings.hongminhee.org | 토론: GeekNews · 댓글 1개 핵심 요약 Python 문자 인코딩 감지 라이브러리 chardet가 AI를 이용해 재구현되며 LGPL에서 MIT로 라이선스가 변경된 사례가 오픈소스 윤리 논쟁을 촉발했다. AI가 명세만으로 소스코드를 재생성할 수 있게 되면서, GPL 프로젝트의 핵심 지적 자산이 “코드"에서 “명세"로 이동하고, 카피레프트 라이선스의 실효성이 약화되고 있다. Oracle vs Google API 소송과 유사한 논점이나, 이번에는 AI가 경쟁 대상이라는 점이 다르다. 커뮤니티 의견 @GN⁺: “이 현상이 단순히 저작권을 넘어 지식재산권(IP) 개념 자체를 무너뜨릴 수 있느냐가 핵심. IP는 ‘창의성이 어렵다’는 전제 위에 서 있음” 💡 실무 포인트: AI를 활용한 코드 재구현 시 라이선스 리스크를 반드시 법무팀과 검토하자. 합법과 정당성의 경계가 모호한 영역이므로, 오픈소스 기여 정책도 재점검이 필요하다.