LLM | 가십데일리

Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama …

LiteLLM이 공급망 공격으로 해킹당했습니다

널리 사용되는 LLM 통합 라이브러리 LiteLLM의 PyPI 패키지 v1.82.7, v1.82.8에 악성 페이로드가 삽입되어 배포되었다. Python 인터프리터 시작 시 자동 실행되는 .pth 파일이 API 키, …

Ship or Slop - 에이전트 사회로 아이디어 짜내기

AI 에이전트들이 서로 아이디어를 제안하고 댓글로 토론하는 ‘에이전트 사회’ 실험 프로젝트가 전면 개편되어 공개되었다. 에이전트들이 아이디어의 Ship(출시 가치 있음) / Slop(그렇지 않음) 여부를 판단하며, …

Walmart: ChatGPT 결제 전환율, 웹사이트의 1/3 수준

월마트가 ChatGPT 내 Instant Checkout 기능을 통해 약 20만 개 상품을 테스트한 결과, 웹사이트 결제 대비 전환율이 3배 낮았다. 사용자들이 LLM의 상품 추천을 신뢰하지 못하거나, 품절 상품을 …

그래서, AI 앱들은 다 어디에 있나요?

AI 코딩 도구가 생산성을 높였다는 주장과 달리, 새로운 소프트웨어의 폭발적 증가는 관찰되지 않는다는 분석이다. PyPI 데이터를 분석한 결과, ChatGPT 이후에도 전체 패키지 생성 속도는 변화가 없었다. 프로 …

데이터만이 유일한 해자다

AI 도구로 소프트웨어 개발 비용이 급감하면서, 진정한 비즈니스 해자(moat)가 무엇인지에 대한 분석이다. AI가 대부분의 변환 작업을 대체할 수 있는 시대에, 인간이 생성한 실세계 데이터만이 에이전트 AI가 복 …

자연어로 말하면 쉘 명령어를 알아서 실행해주는 CLI 도구 pls

자연어 입력을 LLM이 쉘 명령어로 변환해 실행해주는 CLI 도구 pls가 공개되었다. ‘pls 1380 포트 쓰는 프로세스 다 죽여줘’, ‘pls DNS Cache 날려줘’ 같은 자연어를 그대로 입력하면 해당 명 …

트럼프 가라사대: 트럼프 발언 실시간 분석 및 한국 경제 영향 피드

트럼프 전 대통령의 발언을 실시간으로 수집하고, LLM으로 한국어 요약 및 한국 경제 영향을 분석해 피드로 제공하는 서비스 ‘트럼프 가라사대’가 공개되었다. 발언 수집 → LLM 한국어 요약 → 경제 영향 분석의 …

1대1 RTS 게임으로 만든 LLM 벤치마크

1대1 RTS(실시간 전략) 게임 환경에서 LLM의 전략적 사고, 코드 생성, 실시간 의사결정 능력을 평가하는 새로운 벤치마크다. 기존의 텍스트 기반 벤치마크와 달리, 동적 환경에서의 적응력과 전략 수립 능력을 측 …

81,000명이 말한 AI의 진짜 쓰임새 (Anthropic "81k Interviews")

Anthropic이 81,000명을 대상으로 AI 사용 실태를 조사한 대규모 정성 연구를 공개했다. 기존 AI 논의가 AGI, 자동화, 일자리 대체 같은 거시적 주제에 집중한 반면, 이 프로젝트는 실제 사용자들이 …

AI 크레딧 가격의 미래

크레딧 기반 요금제가 2025년 126% 급증하며 SaaS 업계 표준으로 부상하고 있다. Clay가 데이터 비용과 플랫폼 가치를 분리한 요금제 개편을 단행했고, Figma는 2025년 12월 AI 크레딧 모델을 도 …

iPhone 17 Pro에서 400B LLM 실행하기

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, …

LiteLLM이 공급망 공격으로 해킹당했습니다

LLM 프록시 서버로 널리 사용되는 LiteLLM의 PyPI 패키지가 공급망 공격을 당했다. v1.82.7과 v1.82.8 버전에 악성 코드가 삽입되었으며, 해당 버전을 사용 중인 경우 즉시 버전을 확인하고 업데이 …

Show GN: Ship or Slop - 에이전트 사회로 아이디어 짜내기

AI 에이전트들로 구성된 가상 사회를 만들어 아이디어를 평가하는 실험 프로젝트다. 사용자가 에이전트를 연결해 프로젝트를 등록하면 에이전트들이 서로 댓글을 달며 Ship(출시 가치 있음)/Slop(가치 없음)을 판단 …

Show GN: 자연어로 쉘 명령어를 실행해주는 CLI 도구 `pls`

자연어로 말하면 LLM이 쉘 명령어를 생성해 실행하는 CLI 도구다. 가끔 쓰는 명령어가 기억나지 않을 때 pls '1380 포트 쓰는 프로세스 다 죽여줘'처럼 자연어로 요청할 수 있다. Zig로 구현되었으며, …

Walmart: ChatGPT 결제 전환율, 웹사이트의 1/3 수준

월마트가 ChatGPT 내 Instant Checkout 기능을 통해 약 20만 개 상품을 테스트한 결과, 웹사이트 결제 대비 전환율이 3배 낮았다. ChatGPT 내 직접 결제는 사용자 만족도가 낮았으며, 클릭아 …

데이터만이 유일한 해자다

AI 도구로 소프트웨어 개발 비용과 인력이 급감하면서, 인간이 생성한 실세계 데이터만이 에이전트 AI가 복제할 수 없는 유일한 경쟁 우위(moat)라는 주장이다. AI가 대부분의 변환 작업을 대체할 수 있는 현재, …

오래된 연구 아이디어에 Autoresearch 수행하기

LLM 에이전트가 train.py를 반복 수정하며 성능을 개선하는 제약 최적화 루프 구조의 Autoresearch 시스템을 소개한다. 가설 설정부터 평가까지 자동 순환하며, 컨테이너 기반 샌드박스 환경에서 실행된다 …

코드의 죽음 보고는 크게 과장되었다

프로그래밍은 모호한 명세를 정밀하게 다듬어 가는 창조 행위이며, AI는 영어 명세를 코드로 변환해 이 과정을 가속할 뿐 대체하지 못한다는 주장이다. ‘바이브 코딩(Vibe Coding)‘은 감각적 개발 방식을 가능 …

81,000명이 말한 AI의 진짜 쓰임새 (Anthropic "81k Interviews")

Anthropic이 81,000명 규모의 대규모 정성 인터뷰를 통해 실제 사용자들이 AI를 어떻게 느끼고 활용하는지를 조사한 프로젝트다. AGI·자동화·일자리 대체 같은 거시 담론이 아닌, 현장의 실제 사용 패턴과 …

Gemini + Claude 병렬 리뷰 파이프라인으로 블로그 품질 자동 검증하기

블로그 퇴고 과정을 AI 5명(멀티 모델)에게 위임하는 자동 검수 파이프라인을 구축한 사례다. Gemini와 Claude를 병렬로 실행하여 라인 단위 리뷰를 수행하며, 단일 모델 대비 검출 범위와 정확도를 높였다. …

Tinybox — 120B 파라미터를 지원하는 오프라인 AI 머신

tinygrad 프레임워크 기반의 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델의 학습과 추론을 지원한다. red·green·exa 세 가지 모델로 제공되며, 대기업 클라우드 모델 의존을 줄이는 로컬 AI …

메타의 1,600개 언어용 Omnilingual MT

Meta AI의 Omnilingual Machine Translation(OMT)은 1,600개 이상 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섰다. 공개 코퍼 …

코드의 죽음 보고는 크게 과장되었다

프로그래밍은 모호한 명세를 반복적으로 정밀하게 다듬는 창조 행위이며, AI는 이 과정을 가속하지만 대체하지는 못한다는 주장이다. “바이브 코딩"은 감각적 개발을 가능하게 하지만, 추상화의 누수로 인한 복잡성과 버그 …

Andrej Karpathy가 말하는 코드 에이전트, AutoResearch, 그리고 AI의 루피 시대

AI 코드 에이전트의 등장으로 소프트웨어 개발 방식이 근본적으로 변화했다. 2024년 12월을 기점으로 직접 코딩 비중이 80%에서 거의 0%로 급감한 체감적 전환이 발생했으며, 개인이 여러 에이전트를 병렬로 운영 …

Cursor Composer 2는 Kimi K2.5에 RL을 적용한 모델로 확인

OpenAI base URL 조작을 통해 Cursor Composer 2의 요청 경로에 kimi-k2p5-rl이 포함된 것이 발견되며, Kimi K2.5 + 강화학습(RL) 기반임이 드러났다. 이전 Composer …

Gemini + Claude 병렬 리뷰 파이프라인으로 블로그 품질 자동 검증하기

AI가 작성한 블로그 초안을 5개 AI 리뷰어가 라인 단위로 병렬 검수하는 파이프라인을 구축한 경험기다. 직접 퇴고하는 시간을 줄이기 위해 AI에게 AI를 검수시키는 구조를 설계했으며, Gemini와 Claude를 …

Google 검색, AI로 뉴스 헤드라인을 교체하기 시작

Google이 검색 결과에서 언론사가 작성한 뉴스 헤드라인을 AI가 생성한 제목으로 교체하는 실험을 전통적인 “10개의 파란 링크” 검색에서도 시작했다. The Verge는 자사가 작성하지 않은 헤드라인이 …

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록했다. 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 …

Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

tinygrad 기반의 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델까지 지원한다. red·green·exa 세 가지 모델로 제공되며, 단순성과 성능을 결합한 신 …