가십데일리
  • 전체 글
  • 검색
  • 아카이브
  • 태그
  • 소개
Home » Tags

양자화

AI 4월 3일

1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

Caltech 출신 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개했다. 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서 실용적 AI 추론이 가능하다. …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 31일

CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행

CERN이 대형 강입자 충돌기에서 초당 수백 테라바이트의 데이터를 실시간 필터링하기 위해 FPGA에 초소형 AI 모델을 배치했다. GPU/TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, VAE 기반 MLP …

AI GeekNews 양자화 원문↗ 토론↗
AI 3월 27일

구글 TurboQuant: 극한 압축으로 AI 효율성을 재정의하다

Google Research가 발표한 TurboQuant는 LLM의 KV 캐시 압축과 벡터 검색에 적용 가능한 양자화 알고리즘 세트다. PolarQuant로 데이터를 고품질 압축한 뒤 QJL 알고리즘으로 잔여 오차 …

AI GeekNews Google 원문↗ 토론↗
AI 3월 26일

Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 25일

iPhone 17 Pro에서 400B LLM 실행하기

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 24일

Tinybox — 120B 파라미터를 지원하는 오프라인 AI 머신

tinygrad 프레임워크 기반의 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델의 학습과 추론을 지원한다. red·green·exa 세 가지 모델로 제공되며, 대기업 클라우드 모델 의존을 줄이는 로컬 AI …

AI GeekNews 인프라 원문↗ 토론↗
AI 3월 16일

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

로컬 머신이 어떤 AI 모델을 실행할 수 있는지 확인하는 웹 기반 도구다. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량·토큰 처리 속도·컨텍스트 길이 등을 제공한다. HN …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 15일

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

로컬 머신이 어떤 AI 모델을 실제로 실행할 수 있는지 확인하는 웹 기반 도구. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량, 토큰 처리 속도, 컨텍스트 길이, 실행 가능 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 14일

BitNet - 1비트 LLM을 위한 추론 프레임워크

Microsoft의 bitnet.cpp는 1비트(실제 1.58비트/2비트) LLM의 공식 추론 프레임워크로, CPU와 GPU 모두에서 손실 없는 추론을 지원한다. ARM CPU에서 1.375.07배 속도 향상과 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 13일

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

Qwen2-72B 모델의 중간 7개 레이어를 복제·반복 통과시키는 방법으로, 가중치 수정이나 파인튜닝 없이 RTX 4090 두 장만으로 HuggingFace Open LLM 리더보드 1위를 달성한 사례다. 총 80 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 12일

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

David Noel Ng가 Qwen2-72B(총 80개 레이어)의 중간 7개 레이어를 복제해 재조합하는 방법으로, 어떠한 학습이나 가중치 수정 없이 2024년 HuggingFace Open LLM 리더보드 1위를 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 11일

애플 512GB Mac Studio가 사라짐, 램 부족 사태의 간접 인정

AI 수요 급증으로 인한 글로벌 메모리 공급 부족 속에서 Apple이 최상위 Mac Studio의 512GB RAM 구성을 조용히 제거했다. 256GB 구성의 가격도 $1,600에서 $2,000으로 인상되었다. …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 10일

Qwen3.5 로컬 실행 가이드

Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론과 256K 컨텍스트를 지원한다. Unsloth가 Dynamic 2.0 GGUF 양자화로 제공하여 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 5일

llmfit — 내 하드웨어에 맞는 LLM 모델 자동 매칭 도구

수백 개의 LLM 모델과 제공자를 대상으로, 시스템의 RAM·CPU·GPU 스펙을 자동 감지해 실제로 실행 가능한 모델을 한 번의 명령으로 찾아주는 TUI 도구다. 각 모델을 품질·속도·적합도·컨텍스트 기준으로 점 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 4일

llmfit - 내 하드웨어에 맞는 LLM 모델을 찾아 자동 최적화하는 터미널 도구

시스템 RAM·CPU·GPU를 자동 감지해 수백 개의 LLM 모델 중 실행 가능한 모델을 찾아주는 TUI 도구다. 품질·속도·적합도·컨텍스트 기준으로 점수화하여 실행 가능 여부를 표시한다. 웹 버전 요청도 있으나 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 4일

알리바바 Qwen3.5-Medium, 로컬에서 Sonnet 4.5 수준 성능 제공

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지가 Apache 2.0 오픈소스로 공개됐다. 벤치마크상 GPT-5-mini와 Claude Sonnet 4.5를 능가한다고 주장 …

AI GeekNews LLM 원문↗ 토론↗
AI 3월 3일

ChatGPT 구독 취소 방법

ChatGPT 구독 취소는 웹사이트, iOS, Android, Business 계정 각각에서 별도 절차로 진행된다. 커뮤니티에서는 로컬 모델 전환을 권장하며, Qwen3.5(27B, 35B)를 Q8 양자화로 돌리는 …

AI GeekNews OpenAI 원문↗ 토론↗
AI 3월 3일

알리바바의 오픈소스 Qwen3.5-Medium 모델, 로컬에서 Sonnet 4.5 수준 성능 제공

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 모델로 구성되며, 세 가지는 Apache 2.0 오픈소스로 공개되었다. 벤치마크상 GPT-5-mini와 Sonnet 4.5를 능가한다고 주장하지만, 커 …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 25일

GGML·llama.cpp, Hugging Face 합류

Hugging Face가 llama.cpp와 GGML 엔진의 핵심 개발자 Georgi Gerganov를 인수했다. llama.cpp(로컬 LLM 실행의 사실상 표준 엔진)와 GGML 기반 기술이 Hugging …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 24일

LLM을 칩 위에 '인쇄'하는 Taalas의 방식

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …

AI GeekNews LLM 원문↗ 토론↗
AI 2월 23일

LLM을 칩 위에 '인쇄'하는 Taalas의 방식

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능 …

AI GeekNews LLM 원문↗ 토론↗
© 2026 가십데일리 · Powered by Hugo & PaperMod