벤치마크 | 가십데일리

엔트로피와 정보 이득 기반으로 데이터를 분류하는 의사결정나무의 원리를 인터랙티브하게 설명하는 교육 자료이다. 선형 분류기의 비임계 출력값을 추가 특성으로 사용해 결정 트리를 학습하는 고급 기법도 커뮤니티에서 공유되 …

확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델. 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로 5 …

53개의 주요 AI 모델을 대상으로 테스트한 결과, 대부분이 기초적 추론에 실패했다. 정답은 ‘운전’(세차를 하려면 차가 있어야 함)이지만 53개 중 42개 모델이 ‘걷기’를 선택했다. Claude Opus …

METR은 미국 버클리에 위치한 비영리 연구 기관으로, 프론티어 AI 모델이 장기적·자율적 작업을 수행하는 능력을 평가한다. Opus 4.6이 사람 기준 14.5시간짜리 문제를 해결할 수 있다는 것은 AI의 자율 …