ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진
C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …
C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …
소프트웨어 엔지니어링의 근간이 AI와 자동화의 급격한 부상으로 재구조화되고 있다. 코드 생성이 자동화되면서 운영·안정성·보안을 담당하는 SRE/DevOps의 중요성이 상대적으로 부각된다는 관점이다. 다만 …
미국이 인도 AI 임팩트 서밋에서 “미국산 AI가 글로벌 골드 표준"이라고 선언했다. 2026년 2월 16~21일 인도 뉴델리에서 열린 서밋에서 미국의 AI 주권과 수출 전략이 발표되었으며, NIST 주도의 AI …
데이터 엔지니어링 분야는 AI 확산과 기술 부채 누적이라는 이중 압력 속에서 양극화가 심화되는 흐름을 보인다. AI 활용 수준이 경쟁력의 핵심으로, 일상적 사용이 보편화되며 “AI 보조"라는 표현 자체가 사라질 전 …
Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …
C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …
소프트웨어 엔지니어링의 근간이 AI와 자동화로 인해 재구조화되고 있으며, 이러한 변화는 되돌릴 수 없다. 글쓴이는 AI가 코드를 대량 생산하는 시대에 SRE/DevOps의 역할이 더욱 중요해질 것이라고 주장한다. …