원문: eff.org | 토론: GeekNews · 댓글 1개
핵심 요약 뉴욕타임스와 가디언 등 주요 언론이 AI 스크래핑 우려로 인터넷 아카이브의 크롤링을 차단하기 시작했다. Wayback Machine에 1조 개 이상의 웹페이지를 보존해온 아카이브가 차단되면, AI 학습 데이터 방어 효과는 미미하면서 웹의 역사 기록만 소실된다는 것이 EFF의 주장이다. AI 크롤러와 아카이빙 크롤러를 구분하는 기술적 해법이 필요한 상황이다.
커뮤니티 의견
- @GN⁺: “JA3 해시 차단이 가장 효과적이었으나, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없는 race condition 문제가 있음.”
💡 실무 포인트: 자체 웹서비스 운영 시 robots.txt만으로는 AI 크롤러를 제어할 수 없으므로, JA3/JA4 핑거프린팅 등 L7 수준의 봇 탐지 전략을 검토해야 한다.