인프라 | 가십데일리

Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

AMD 하드웨어 지원 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 빠르게 처리하는 오픈소스 플랫폼이다. OpenAI API 표준과 호환되어 VSCode Copilot이나 Open Web UI에 …

Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

AMD가 지원하는 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 처리하는 오픈소스 플랫폼이다. ROCm, Vulkan, CPU, GPU, NPU 등 다양한 백엔드를 지원하며, OpenAI 및 …

앤스로픽(Anthropic)의 수익성, 김밥천국 보다 안 좋다

AI 기업의 수익 구조를 전통 IT 서비스와 비교 분석한 글이다. 핵심 논점은 Anthropic의 매출총이익률(매출액-매출원가)이 음식점보다 낮다는 점이다. 전통 IT 서비스는 임계점 이후 폭발적 수익을 내는데, …

앤스로픽(Anthropic)의 수익성, 김밥천국 보다 안 좋다

IT 스타트업의 초기 수익 구조를 음식점과 비교 분석한 글이다. 음식점은 재료비가 매출에 비례해 증가하지만, 소프트웨어 기업은 인건비와 컴퓨팅 비용이 매출에 선형 비례하지 않아 임계점 이후 폭발적 수익 성장이 기대 …

Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

Ollama가 Apple MLX 프레임워크 기반 프리뷰 버전을 공개했다. Apple Silicon의 통합 메모리 아키텍처를 활용해 M5 시리즈 칩의 GPU Neural Accelerator를 통한 TTFT(첫 토큰 …

OpenAI, 8,520억 달러 기업가치로 자금 조달 라운드 마무리

OpenAI가 사상 최대 규모인 1,220억 달러 자금 조달을 완료하며 사후 기업가치 8,520억 달러를 달성했다. SoftBank, Andreessen Horowitz, D.E. Shaw Ventures가 주도하 …

AI 버블은 어떻게 붕괴되는가

AI 산업의 투자 거품이 이미 형성되어 있으며, 생산성과 수익성의 괴리로 예상보다 빠른 시점에 붕괴할 가능성이 있다는 분석이다. 빅테크 기업들이 사상 최대 규모의 자본 지출 경쟁을 벌이고 있으나 실제 집행 규모는 …

Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

Apple MLX 프레임워크를 기반으로 한 Ollama 프리뷰 버전이 공개되었다. Apple Silicon의 통합 메모리 아키텍처를 활용해 성능이 향상되며, M5 시리즈 칩의 GPU Neural …

2027년 봇이 인터넷 점령한다, 웹의 주도권이 바뀌고 있다

Cloudflare CEO Matthew Prince는 2027년이면 온라인 트래픽에서 봇(AI 에이전트)이 인간을 초과할 것으로 예측했다. 웹의 트래픽, 콘텐츠 생산, 유통 구조가 빠르게 AI 중심으로 재편되고 …

CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행

CERN이 대형 강입자 충돌기에서 초당 수백 테라바이트의 데이터를 실시간 필터링하기 위해 FPGA에 초소형 AI 모델을 배치했다. GPU/TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, VAE 기반 MLP …

Show GN: vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙

여러 LLM을 로컬에서 서빙할 때 모델마다 docker 명령어를 재입력하고 GPU 설정을 기억해야 하는 불편함을 해결하는 vLLM 전용 TUI 관리 도구이다. 모델별 설정을 YAML 프로필로 저장하고 TUI에서 …

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 $7/월 VPS에 구축한 사례다. 단순한 이력서 요약형 챗 …

Claude Code, 웹에서 작업 예약 실행하기

Claude Code의 클라우드 예약 기능으로 반복 업무를 자동화하고 컴퓨터가 꺼져 있어도 백그라운드에서 실행할 수 있다. Cloud, Desktop, /loop 세 가지 예약 방식을 제공하며, 실행 위치와 주기 …

jai - AI 에이전트를 위한 손쉬운 격리 도구

스탠퍼드에서 개발한 Linux 환경 AI 에이전트 격리 실행 도구로, 복잡한 컨테이너 설정 없이 단일 명령으로 안전한 실행 경계를 제공한다. AI 도구가 실제 파일 시스템에 접근해 데이터를 삭제하거나 손상시키는 사 …

하드웨어를 붙잡아야 한다

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 하드웨어 가격이 급등 중이다. Micron의 철수로 Samsung과 SK Hynix가 사실상 양강 체제를 형성했고, 제조사들은 …

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 구축한 사례다. 단순 이력서 요약형 챗봇이 아니라 저장소 …

뉴욕시 병원들, 논란의 AI 기업 Palantir과의 계약 종료

뉴욕시 공공병원 시스템이 Palantir Technologies와의 계약 갱신을 중단하고 내부 시스템으로 전환을 결정했다. 계약에 비식별 환자 데이터의 연구 외 사용 가능 조항이 포함되어 데이터 프라이버시 전문가들 …

하드웨어를 붙잡아야 한다

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 하드웨어 가격이 급등하고 있다. Micron의 철수로 Samsung과 SK Hynix가 양강 체제를 형성했고, 2028년 이후까지 공 …

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 구축한 사례다. 단순한 이력서 요약형 챗봇이 아니라 저장소 …

뉴욕시 병원들, AI 기업 Palantir과의 계약 종료

뉴욕시 공공병원 시스템이 Palantir Technologies와의 계약 갱신을 중단하고 내부 시스템으로 전환을 결정했다. 기존 계약에 비식별 환자 데이터의 연구 외 사용 가능 조항이 포함되어 데이터 프라이버시 전 …

판사가 Anthropic을 '공급망 위험'으로 지정하려던 국방부 조치 차단

캘리포니아 연방 판사가 국방부의 Anthropic ‘공급망 위험’ 지정 시도를 헌법 위반으로 판단하고 무기한 차단했다. 판결문은 해당 조치가 표현의 자유와 적법절차를 침해했으며, 미국 기업을 적대자로 낙인찍는 것은 …

하드웨어를 붙잡아야 한다

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 가격이 급등하고 있다. Micron의 철수로 Samsung과 SK Hynix가 양강 체제를 형성했으며, 제조사들이 HBM·서버 …

Arm AGI CPU 발표 - 에이전트형 AI 클라우드 시대를 위한 실리콘 기반

Arm이 Neoverse 플랫폼 기반 AGI CPU를 공개했다. 여기서 AGI는 ‘Agentic AI Infrastructure’의 약자로, 자율적 AI 인프라를 위한 고밀도 병렬 워크로드 최적화 실리콘이다. …

Cloudflare Dynamic Worker Loader - 더 빠른 AI 에이전트 샌드박스

AI 에이전트의 코드 실행을 위한 경량 샌드박스로, 컨테이너 대비 100배 빠른 기동 속도와 10~100배 높은 메모리 효율을 제공한다. V8 JavaScript 엔진의 isolate 기술 기반으로, 수 밀리초 내 …

Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama …

Pinterest가 AI에이전트를 위한 프로덕션 MCP 에코시스템을 구축한 방법

Pinterest가 MCP(Model Context Protocol)를 AI 에이전트의 도구 연결 표준으로 채택하여, IDE, 내부 챗, AI 에이전트 등 실제 엔지니어링 워크플로우에 프로덕션 수준으로 통합한 경험 …

Project NOMAD - 오프라인에서도 끊기지 않는 지식과 AI 서버

인터넷 연결 없이 지식, 지도, 교육, AI 도구를 모두 실행할 수 있는 무료 오픈소스 오프라인 서버다. Wikipedia, Project Gutenberg, 의료 참고서, Khan Academy 강좌 등 방대한 …

Pinterest가 AI 에이전트를 위한 프로덕션 MCP 에코시스템을 구축한 방법

Pinterest가 MCP(Model Context Protocol)를 AI 에이전트의 도구 연결 표준으로 채택하여, IDE·내부 챗·AI 에이전트 등 실제 엔지니어링 워크플로우에 프로덕션 수준으로 통합한 경험을 …

Project NOMAD — 오프라인에서도 끊기지 않는 지식과 AI 서버

인터넷 연결 없이 Wikipedia, Project Gutenberg, 의료 참고서, Khan Academy 강좌, AI 도구를 모두 실행할 수 있는 무료 오픈소스 오프라인 서버다. Kiwix와 Kolibri 기반 …

Tinybox — 120B 파라미터를 지원하는 오프라인 AI 머신

tinygrad 프레임워크 기반의 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델의 학습과 추론을 지원한다. red·green·exa 세 가지 모델로 제공되며, 대기업 클라우드 모델 의존을 줄이는 로컬 AI …