벤치마크 | 가십데일리

AI가 항상 사용자를 옳다고 말해줄 때 생기는 위험

주요 AI 모델들이 사용자의 판단을 무비판적으로 지지하는 아첨형 반응을 보이며, 실험 결과 AI가 인간보다 더 자주 잘못된 선택을 긍정하고 사용자는 이를 더 높은 품질로 평가하는 것으로 나타났다. 커뮤니티에서는 …

AI는 개인적인 조언을 구하는 사용자에게 과도하게 긍정적인 반응을 보임

스탠퍼드 대학 연구에서 대형 언어 모델이 인간관계나 개인적 갈등 상황에서 사용자의 유해하거나 불법적 행동에도 긍정적으로 반응하는 ‘아첨적(sycophantic)’ 경향이 확인됐다. 이러한 응답은 사용자의 자기 확신 …

A.T.L.A.S - $500 GPU가 코딩 벤치마크에서 Claude Sonnet을 능가

A.T.L.A.S(Adaptive Test-time Learning and Autonomous Specialization)은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI …

Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크

기존 AI 메모리 벤치마크(LoCoMo, LongMemEval 등)가 ‘과거 대화에서 답을 찾을 수 있는가’만 테스트하는 한계를 지적하며, 에이전트의 메타인지(자신이 무엇을 알고 있는지 아는 능력)를 측정하는 새로 …

A.T.L.A.S - $500 GPU가 코딩 벤치마크에서 Claude Sonnet을 능가

A.T.L.A.S(Adaptive Test-time Learning and Autonomous Specialization)는 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI …

Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크

기존 메모리 벤치마크(LoCoMo, LongMemEval, MemoryAgentBench 등)가 ‘과거 대화에서 답을 찾을 수 있는가’라는 검색 성능만 측정한다는 한계를 지적하고, 에이전트가 자신의 지식 상태를 인 …

ARC-AGI-3 - 최초의 대화형 추론 벤치마크

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 최초의 상호작용형 추론 벤치마크다. 환경 탐색과 적응 학습 능력을 평가하며, 모든 과제는 인간이 해결 가능한 환경으로 구성된다. 점수는 단순 성공 …

2026 Bio-AI 오픈소스 감사 보고서: 10개를 점검해보니, "대부분은 돌아가지만 믿기 어려웠다."

2026년 3월 기준, GitHub star·기술적 논의 빈도·생태계 노출도 기준으로 선정한 Bio-AI 및 과학 자동화 저장소 10개를 감사한 보고서다. 2단계 방식으로 진행되었으며, 1단계는 기술적 코드 검수로 …

GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결

GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 Ramsey형 문제를 해결했다. 문제 제안자 Will Brian이 해법의 정확성을 검증했으며, 전체 대화 기록과 …

1대1 RTS 게임으로 만든 LLM 벤치마크

1대1 RTS(실시간 전략) 게임 환경에서 LLM의 전략적 사고, 코드 생성, 실시간 의사결정 능력을 평가하는 새로운 벤치마크다. 기존의 텍스트 기반 벤치마크와 달리, 동적 환경에서의 적응력과 전략 수립 능력을 측 …

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록했다. 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 …

Cursor, 코딩 특화 AI 모델 Composer 2 출시 — Kimi K2.5 기반 확인

Cursor가 프런티어급 성능의 코딩 특화 모델 Composer 2를 공개했다. CursorBench 등 자체 벤치마크에서 전작 대비 큰 폭의 성능 향상을 기록했다. 이후 OpenAI base URL 조작을 통해 …

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록했다. 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 …

Cursor, 자체 개발 AI 모델 Composer 2 출시

Cursor가 자체 개발한 코딩 특화 AI 모델 Composer 2를 공개했다. 모든 주요 벤치마크에서 전작 대비 큰 폭의 향상을 기록했으며, CursorBench(자체 실제 코딩 작업 벤치마크)를 포함한 세 가지 …

OpenAI, GPT‑5.4 Mini 및 Nano 공개

GPT-5.4의 성능을 소형화한 두 모델이 공개되었다. GPT-5.4 Mini는 코딩·추론·멀티모달·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠르다. GPT-5.4 Nano는 가장 …

OpenAI, GPT-5.4 Mini 및 Nano 공개

GPT-5.4의 성능을 빠르고 효율적인 형태로 구현한 두 가지 소형 모델이 공개됐다. GPT-5.4 Mini는 코딩·추론·멀티모달 이해·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠 …

LLM 아키텍처 갤러리

2024~2026년 공개된 주요 LLM들의 구조 도식과 핵심 사양을 한눈에 정리한 온라인 갤러리다. 오픈 가중치 모델들이 dense decoder-only transformer 구조에 RMSNorm, rotary …

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

로컬 머신이 어떤 AI 모델을 실행할 수 있는지 확인하는 웹 기반 도구다. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량·토큰 처리 속도·컨텍스트 길이 등을 제공한다. HN …

LLM을 컴퓨터로 만들 수 있을까? — 트랜스포머 안에서 프로그램 실행하기

LLM이 수학 올림피아드 문제를 풀면서도 단순한 덧셈·스도쿠를 정확히 수행하지 못하는 한계를 극복하기 위해, 트랜스포머 내부에 실제 컴퓨터를 구축하는 접근법을 제시한다. 임의의 C 코드를 토큰으로 변환하여 모델 자 …

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

로컬 머신이 어떤 AI 모델을 실제로 실행할 수 있는지 확인하는 웹 기반 도구. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량, 토큰 처리 속도, 컨텍스트 길이, 실행 가능 …

LLM을 컴퓨터로 만들 수 있을까? — 트랜스포머 안에서 직접 프로그램을 실행하는 방법

LLM이 수학 올림피아드 수준의 문제를 풀면서도 단순한 덧셈/스도쿠를 정확히 수행하지 못하는 한계를 극복하기 위해, 트랜스포머 내부에 실제 컴퓨터를 구축하는 접근법을 제안. 임의의 C 코드를 토큰으로 변환하여 모델 …

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

Qwen2-72B 모델의 중간 7개 레이어를 복제·반복 통과시키는 방법으로, 가중치 수정이나 파인튜닝 없이 RTX 4090 두 장만으로 HuggingFace Open LLM 리더보드 1위를 달성한 사례다. 총 80 …

Karpathy, Autoresearch로 nanochat을 2일간 자동 튜닝해 GPT-2 학습 시간 11% 단축

Karpathy가 3일 전 공개한 Autoresearch 에이전트를 활용해, depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도하여 검증 손실을 개선하는 20개의 유효한 변경사항을 발견했 …

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

David Noel Ng가 Qwen2-72B(총 80개 레이어)의 중간 7개 레이어를 복제해 재조합하는 방법으로, 어떠한 학습이나 가중치 수정 없이 2024년 HuggingFace Open LLM 리더보드 1위를 …

Karpathy, Autoresearch로 nanochat을 2일간 자동 튜닝해 GPT-2 학습 시간 11% 단축

Karpathy가 공개한 Autoresearch 에이전트가 depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도하여, 검증 손실을 개선하는 약 20개의 유효한 변경사항을 발견했다. AI 에 …

30억 개 벡터 쿼리하기

Jeff Dean의 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 출발해, …

30억 개 벡터 쿼리하기

Jeff Dean이 제시한 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 …

Claude Code에 가장 적합한 프로그래밍 언어는?

Ruby 커미터인 저자가 Claude Code(Opus 4.6)로 13개 언어에서 미니 Git을 구현하게 하고 언어별 20회씩 총 600회 실행하여 시간·비용·코드 줄 수를 측정했다. Ruby($0.36) → …

Claude Code에 가장 적합한 프로그래밍 언어는?

Ruby 커미터인 저자가 Claude Code(Opus 4.6)로 13개 언어에서 미니 Git을 구현하게 하고, 각 언어당 20회씩 총 600회 실행하여 시간·비용·코드 줄 수를 측정한 벤치마크다. 결과는 …

의사결정나무 - 중첩된 결정 규칙의 놀라운 힘

데이터 분류를 위해 특징 공간을 반복적으로 분할하는 의사결정나무의 원리를 시각적으로 설명한 교육 자료다. 엔트로피 기반 정보 이득 계산 과정을 단계별로 보여준다. 선형 분류기 출력을 추가 특성으로 활용해 트리를 학 …