가십데일리
  • 전체 글
  • 검색
  • 아카이브
  • 태그
  • 소개
Home » Tags

인프라

AI 2월 24일

ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 24일

코드 공장 시대와 미래 SRE

소프트웨어 엔지니어링의 근간이 AI와 자동화의 급격한 부상으로 재구조화되고 있다. 코드 생성이 자동화되면서 운영·안정성·보안을 담당하는 SRE/DevOps의 중요성이 상대적으로 부각된다는 관점이다. 다만 …

AI GeekNews 에이전트 원문↗ 토론↗
AI 2월 24일

美 백악관, 인도 AI 임팩트 서밋서 'AI 주권' 선언…"미국 AI가 글로벌 표준"

미국이 인도 AI 임팩트 서밋에서 “미국산 AI가 글로벌 골드 표준"이라고 선언했다. 2026년 2월 16~21일 인도 뉴델리에서 열린 서밋에서 미국의 AI 주권과 수출 전략이 발표되었으며, NIST 주도의 AI …

AI GeekNews 에이전트 원문↗ 토론↗
AI 2월 23일

2026년 데이터 엔지니어링의 향방 - 5가지 주요 트렌드

데이터 엔지니어링 분야는 AI 확산과 기술 부채 누적이라는 이중 압력 속에서 양극화가 심화되는 흐름을 보인다. AI 활용 수준이 경쟁력의 핵심으로, 일상적 사용이 보편화되며 “AI 보조"라는 표현 자체가 사라질 전 …

AI GeekNews 인프라 원문↗ 토론↗
AI 2월 23일

LLM을 칩 위에 '인쇄'하는 Taalas의 방식

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 23일

ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 23일

코드 공장 시대와 미래 SRE

소프트웨어 엔지니어링의 근간이 AI와 자동화로 인해 재구조화되고 있으며, 이러한 변화는 되돌릴 수 없다. 글쓴이는 AI가 코드를 대량 생산하는 시대에 SRE/DevOps의 역할이 더욱 중요해질 것이라고 주장한다. …

AI GeekNews 에이전트 원문↗ 토론↗
« Prev 
© 2026 가십데일리 · Powered by Hugo & PaperMod