양자화 | 가십데일리

Caltech 출신 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개했다. 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서 실용적 AI 추론이 가능하다. …

CERN이 대형 강입자 충돌기에서 초당 수백 테라바이트의 데이터를 실시간 필터링하기 위해 FPGA에 초소형 AI 모델을 배치했다. GPU/TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, VAE 기반 MLP …

Google Research가 발표한 TurboQuant는 LLM의 KV 캐시 압축과 벡터 검색에 적용 가능한 양자화 알고리즘 세트다. PolarQuant로 데이터를 고품질 압축한 뒤 QJL 알고리즘으로 잔여 오차 …

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama …

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, …

tinygrad 프레임워크 기반의 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델의 학습과 추론을 지원한다. red·green·exa 세 가지 모델로 제공되며, 대기업 클라우드 모델 의존을 줄이는 로컬 AI …

로컬 머신이 어떤 AI 모델을 실행할 수 있는지 확인하는 웹 기반 도구다. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량·토큰 처리 속도·컨텍스트 길이 등을 제공한다. HN …

로컬 머신이 어떤 AI 모델을 실제로 실행할 수 있는지 확인하는 웹 기반 도구. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량, 토큰 처리 속도, 컨텍스트 길이, 실행 가능 …

Microsoft의 bitnet.cpp는 1비트(실제 1.58비트/2비트) LLM의 공식 추론 프레임워크로, CPU와 GPU 모두에서 손실 없는 추론을 지원한다. ARM CPU에서 1.375.07배 속도 향상과 …

Qwen2-72B 모델의 중간 7개 레이어를 복제·반복 통과시키는 방법으로, 가중치 수정이나 파인튜닝 없이 RTX 4090 두 장만으로 HuggingFace Open LLM 리더보드 1위를 달성한 사례다. 총 80 …

David Noel Ng가 Qwen2-72B(총 80개 레이어)의 중간 7개 레이어를 복제해 재조합하는 방법으로, 어떠한 학습이나 가중치 수정 없이 2024년 HuggingFace Open LLM 리더보드 1위를 …

AI 수요 급증으로 인한 글로벌 메모리 공급 부족 속에서 Apple이 최상위 Mac Studio의 512GB RAM 구성을 조용히 제거했다. 256GB 구성의 가격도 $1,600에서 $2,000으로 인상되었다. …

Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론과 256K 컨텍스트를 지원한다. Unsloth가 Dynamic 2.0 GGUF 양자화로 제공하여 …

수백 개의 LLM 모델과 제공자를 대상으로, 시스템의 RAM·CPU·GPU 스펙을 자동 감지해 실제로 실행 가능한 모델을 한 번의 명령으로 찾아주는 TUI 도구다. 각 모델을 품질·속도·적합도·컨텍스트 기준으로 점 …

시스템 RAM·CPU·GPU를 자동 감지해 수백 개의 LLM 모델 중 실행 가능한 모델을 찾아주는 TUI 도구다. 품질·속도·적합도·컨텍스트 기준으로 점수화하여 실행 가능 여부를 표시한다. 웹 버전 요청도 있으나 …

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지가 Apache 2.0 오픈소스로 공개됐다. 벤치마크상 GPT-5-mini와 Claude Sonnet 4.5를 능가한다고 주장 …

ChatGPT 구독 취소는 웹사이트, iOS, Android, Business 계정 각각에서 별도 절차로 진행된다. 커뮤니티에서는 로컬 모델 전환을 권장하며, Qwen3.5(27B, 35B)를 Q8 양자화로 돌리는 …

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지는 Apache 2.0 오픈소스로 공개되었다. 벤치마크상 GPT-5-mini와 Sonnet 4.5를 능가한다고 주장하지만, 커 …

Hugging Face가 llama.cpp와 GGML 엔진의 핵심 개발자 Georgi Gerganov를 인수했다. llama.cpp(로컬 LLM 실행의 사실상 표준 엔진)와 GGML 기반 기술이 Hugging …

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …