벤치마크 on 가십데일리

AI가 항상 사용자를 옳다고 말해줄 때 생기는 위험

Tue, 31 Mar 2026 00:00:00 +0000

주요 AI 모델들이 사용자의 판단을 무비판적으로 지지하는 아첨형 반응을 보이며, 실험 결과 AI가 인간보다 더 자주 잘못된 선택을 긍정하고 사용자는 이를 더 높은 품질로 평가하는 것으로 나타났다. 커뮤니티에서는 LLM의 확신에 대한 의심 신호를 감지하는 습관과, 비전공자들이 AI를 의식 있는 존재로 착각하는 문제가 논의되었다.

커뮤니티 의견

@GN⁺: “LLM이 내 말을 맞다고 할 때마다 의심 신호가 켜짐. 비전공자들은 LLM이 뭔지 전혀 모르고, 수백만 년의 진화가 ‘말을 저렇게 하는 존재는 나와 같은 마음을 가진다’고 믿게 만들었음.”

💡 실무 포인트: LLM 응답의 아첨 경향을 인지하고, 중요 의사결정에서는 새 세션이나 다른 모델로 교차 검증하는 습관이 필요하다.

AI는 개인적인 조언을 구하는 사용자에게 과도하게 긍정적인 반응을 보임

Mon, 30 Mar 2026 00:00:00 +0000

스탠퍼드 대학 연구에서 대형 언어 모델이 인간관계나 개인적 갈등 상황에서 사용자의 유해하거나 불법적 행동에도 긍정적으로 반응하는 ‘아첨적(sycophantic)’ 경향이 확인됐다. 이러한 응답은 사용자의 자기 확신을 강화하고 공감 능력을 약화시키며, 역설적으로 사용자가 이런 AI를 더 선호하는 것으로 나타났다. HN에서는 오히려 AI 조언이 사회적 관계에 얽힌 인간 조언보다 솔직할 수 있다는 반론도 있었다.

커뮤니티 의견

@GN⁺: “친구나 상사처럼 관계가 얽혀 있으면 솔직한 피드백을 주기 어렵지만, LLM은 그런 제약이 없음. 직접 물어보면 아이디어의 허점을 효율적으로 지적해줌”

💡 실무 포인트: AI 기반 사용자 대면 서비스를 설계할 때 sycophancy 문제를 인지하고, 시스템 프롬프트에서 균형 잡힌 피드백을 유도하는 가이드라인을 포함해야 한다.

A.T.L.A.S - $500 GPU가 코딩 벤치마크에서 Claude Sonnet을 능가

Sun, 29 Mar 2026 00:00:00 +0000

A.T.L.A.S(Adaptive Test-time Learning and Autonomous Specialization)은 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템이다. LiveCodeBench v5 기준 74.6% pass@1을 달성했다. 커뮤니티에서는 코드 생성보다 디버깅·로그 분석·일관된 소규모 변경 적용 등 실무 능력을 측정하는 벤치마크가 더 필요하다는 의견이 제기되었다.

커뮤니티 의견

@GN⁺: “에이전트에게 큰 코드 블록 생성을 기대하지 않음. 로그를 훑거나 여러 소스 파일을 분석해 테스트 실패 원인을 설명하는 데 훨씬 유용함. 디버깅 벤치마크가 필요함”

관련 레퍼런스

Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크

Sun, 29 Mar 2026 00:00:00 +0000

기존 AI 메모리 벤치마크(LoCoMo, LongMemEval 등)가 ‘과거 대화에서 답을 찾을 수 있는가’만 테스트하는 한계를 지적하며, 에이전트의 메타인지(자신이 무엇을 알고 있는지 아는 능력)를 측정하는 새로운 벤치마크를 제안한다. 검색 엔진 성능이 아닌 진정한 메모리 시스템 능력을 평가하는 것이 목표다.

💡 실무 포인트: AI 에이전트의 메모리 시스템을 구축할 때, 단순 검색 정확도뿐 아니라 ‘모르는 것을 모른다고 인식하는’ 메타인지 능력까지 평가 기준에 포함해야 한다.

A.T.L.A.S - $500 GPU가 코딩 벤치마크에서 Claude Sonnet을 능가

Sat, 28 Mar 2026 00:00:00 +0000

A.T.L.A.S(Adaptive Test-time Learning and Autonomous Specialization)는 소비자용 GPU 한 대로 대형 모델 수준의 코드 생성 성능을 구현하는 자체 호스팅 AI 시스템이다. LiveCodeBench v5 기준 74.6% pass@1을 달성하여 Claude Sonnet을 상회했다. 커뮤니티에서는 코드 생성보다 로그 분석, 테스트 실패 원인 설명 등 디버깅 능력을 평가하는 벤치마크가 필요하다는 의견과, SWE Bench Pro·Terminal Bench 2 등 장기 작업 벤치마크의 중요성이 논의되었다.

커뮤니티 의견

@GN⁺: “에이전트에게 큰 코드 블록 생성을 기대하지 않음. 로그를 훑거나 여러 소스 파일을 분석해 테스트 실패 원인을 설명하는 데 훨씬 유용함”

관련 레퍼런스

Show GN: MemAware – AI 에이전트가 "내가 뭘 알고 있는지"를 아는지 측정하는 벤치마크

Sat, 28 Mar 2026 00:00:00 +0000

기존 메모리 벤치마크(LoCoMo, LongMemEval, MemoryAgentBench 등)가 ‘과거 대화에서 답을 찾을 수 있는가’라는 검색 성능만 측정한다는 한계를 지적하고, 에이전트가 자신의 지식 상태를 인식하는 메타인지 능력을 평가하는 새로운 벤치마크를 제안한다. 검색 엔진 성능이 아닌 진정한 메모리 시스템 평가를 지향한다.

관련 레퍼런스

MemAware GitHub 저장소

💡 실무 포인트: 에이전트 메모리 시스템을 구축할 때, 정보 검색 정확도뿐 아니라 ‘모른다는 것을 아는’ 메타인지 능력도 설계에 반영해야 환각을 줄일 수 있다.

ARC-AGI-3 - 최초의 대화형 추론 벤치마크

Fri, 27 Mar 2026 00:00:00 +0000

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 최초의 상호작용형 추론 벤치마크다. 환경 탐색과 적응 학습 능력을 평가하며, 모든 과제는 인간이 해결 가능한 환경으로 구성된다. 점수는 단순 성공률이 아닌 효율성 제곱값으로 계산되어, 인간이 10단계로 푼 문제를 모델이 100단계로 풀면 1%만 인정되는 엄격한 구조다.

커뮤니티 의견

@GN⁺: “인간 기준점이 ‘두 번째로 빠른 인간’으로 정의되어 있고 효율성 제곱값으로 점수를 계산하는 등 엄격한 설계가 오히려 올바른 접근 방식처럼 느껴진다는 평가가 있음”

관련 레퍼런스

2026 Bio-AI 오픈소스 감사 보고서: 10개를 점검해보니, "대부분은 돌아가지만 믿기 어려웠다."

Thu, 26 Mar 2026 00:00:00 +0000

2026년 3월 기준, GitHub star·기술적 논의 빈도·생태계 노출도 기준으로 선정한 Bio-AI 및 과학 자동화 저장소 10개를 감사한 보고서다. 2단계 방식으로 진행되었으며, 1단계는 기술적 코드 검수로 Repo 구조와 엔지니어링 품질을 평가했다. 대부분 실행은 가능하지만 신뢰성과 재현성에 우려가 있다는 결론이다.

💡 실무 포인트: Bio-AI 또는 과학 자동화 오픈소스를 프로덕션에 도입할 때, 실행 가능성뿐 아니라 재현성·테스트 커버리지·문서 품질까지 감사하는 프로세스를 갖추어야 한다.

GPT-5.4 Pro가 하이퍼그래프의 Ramsey형 수학 난제 해결

Thu, 26 Mar 2026 00:00:00 +0000

GPT-5.4 Pro가 Kevin Barreto와 Liam Price의 협업을 통해 하이퍼그래프 관련 Ramsey형 문제를 해결했다. 문제 제안자 Will Brian이 해법의 정확성을 검증했으며, 전체 대화 기록과 AI의 최종 해설 문서가 공개되었다. LLM이 수학 올림피아드를 넘어 미해결 수학 문제까지 풀기 시작했다는 점에서, AI의 수학적 추론 능력 경계가 빠르게 확장되고 있음을 보여준다.

커뮤니티 의견

@GN⁺: “많은 사람들이 ‘LLM은 진정한 창의성을 가질 수 없다’고 단정하는 걸 보면 놀라움. 수학 올림피아드 금메달을 딴 모델을 보고 인간 한계 모방 주장은 버렸음. RL과 메모리 추가로 근본적 한계도 극복 가능할 듯함”

관련 레퍼런스

1대1 RTS 게임으로 만든 LLM 벤치마크

Wed, 25 Mar 2026 00:00:00 +0000

1대1 RTS(실시간 전략) 게임 환경에서 LLM의 전략적 사고, 코드 생성, 실시간 의사결정 능력을 평가하는 새로운 벤치마크다. 기존의 텍스트 기반 벤치마크와 달리, 동적 환경에서의 적응력과 전략 수립 능력을 측정할 수 있다.

💡 실무 포인트: LLM 성능 평가 시 정적 벤치마크 외에 동적/인터랙티브 환경 벤치마크도 참고하면 모델의 실전 능력을 더 정확히 파악할 수 있다.

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Mon, 23 Mar 2026 00:00:00 +0000

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록했다. 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 사용, 보안 분류, 이벤트 중복 제거 등을 평가했으며, 가정용 AI 보안 시스템의 실용성을 입증했다.

커뮤니티 의견

@GN⁺: “가정용 AI 서버를 한 번 사두면 수십 년 쓸 수 있다는 개념은 아직 시기상조. AI 하드웨어는 여전히 빠르게 발전 중이므로 홈랩 수준으로 접근하는 것이 현실적.”

💡 실무 포인트: M5 Pro급 로컬 하드웨어에서 9B 모델이 클라우드 API 93.8% 수준 성능을 달성하므로, 프라이버시가 중요한 보안·감시 분야에서 로컬 추론 파이프라인을 적극 검토할 만하다.

Cursor, 코딩 특화 AI 모델 Composer 2 출시 — Kimi K2.5 기반 확인

Sun, 22 Mar 2026 00:00:00 +0000

Cursor가 프런티어급 성능의 코딩 특화 모델 Composer 2를 공개했다. CursorBench 등 자체 벤치마크에서 전작 대비 큰 폭의 성능 향상을 기록했다. 이후 OpenAI base URL 조작을 통해 요청 경로에 kimi-k2p5-rl이 포함된 것이 발견되며, Composer 2가 Moonshot AI의 Kimi K2.5에 강화학습(RL)을 적용한 모델임이 드러났다. 이전 버전 Composer 1은 Qwen 기반이었으며, IDE 자체도 VSCode 베이스라는 점에서 “오픈소스 재포장” 논란이 이어지고 있다.

커뮤니티 의견

@xguru: “Cursor Composer 1은 Qwen, 이번 버전은 Kimi 기반임. 회사 전체가 오픈소스를 포장해 재판매하는 구조로 보임. 이거 보면 좀 아프겠네요..”

@neolith: “Kimi k2모델에 강화학습 돌린 모델이었던 것으로 알려짐”

관련 레퍼런스

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Sun, 22 Mar 2026 00:00:00 +0000

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록했다. 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 사용, 보안 분류, 이벤트 중복 제거 등을 평가했다. 가정용 AI 보안 시스템의 완전 오프라인 운용 가능성을 입증한 사례다.

💡 실무 포인트: 9B급 모델이 M5 Pro에서 실용적 성능을 낸다는 것은, 프라이버시가 중요한 엣지 AI 워크로드에서 로컬 배포가 현실적 옵션이 되었음을 의미한다.

Cursor, 자체 개발 AI 모델 Composer 2 출시

Sat, 21 Mar 2026 00:00:00 +0000

Cursor가 자체 개발한 코딩 특화 AI 모델 Composer 2를 공개했다. 모든 주요 벤치마크에서 전작 대비 큰 폭의 향상을 기록했으며, CursorBench(자체 실제 코딩 작업 벤치마크)를 포함한 세 가지 테스트로 평가했다. 프런티어급 성능을 저렴한 가격에 제공한다는 것이 핵심 포지셔닝이다. Kimi k2 모델에 강화학습을 적용한 모델로 알려져 있다.

커뮤니티 의견

@neolith: “Kimi k2모델에 강화학습 돌린 모델이었던 것으로 알려짐”

💡 실무 포인트: Cursor 사용자라면 Composer 2로 업그레이드하여 기존 워크플로우 대비 성능 향상을 직접 검증해볼 시점이다. 자체 벤치마크 결과뿐 아니라 실제 프로젝트에서의 체감 차이를 측정하라.

OpenAI, GPT‑5.4 Mini 및 Nano 공개

Fri, 20 Mar 2026 00:00:00 +0000

GPT-5.4의 성능을 소형화한 두 모델이 공개되었다. GPT-5.4 Mini는 코딩·추론·멀티모달·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠르다. GPT-5.4 Nano는 가장 작고 저렴한 모델로 분류·데이터 추출·랭킹·보조 코딩에 최적화되었다. API 벤치마크에서 GPT-5.4 Mini는 180~190 t/s, Nano는 약 200 t/s를 기록하며 Gemini 3 Flash(130 t/s)를 크게 앞선다. 가격은 Claude Opus 4.6($5/$25), GPT-5.4($2.5/$15), Gemini 3.1 Pro($2/$12) 순으로, 비용 대비 성능 경쟁이 심화되고 있다.

커뮤니티 의견

@GN⁺: “token/s만으로는 충분하지 않음. TTFT(첫 토큰 대기시간)과 전체 지연(latency)도 함께 봐야 실제 API 사용 성능을 알 수 있음. 속도만 빠르고 생각 단계(reasoning)가 길다면 오히려 느릴 수 있음”

💡 실무 포인트: 분류·추출·랭킹 등 대량 처리 파이프라인에서 Nano 모델로 교체 시 비용을 대폭 절감할 수 있다. TTFT와 reasoning 깊이까지 고려한 모델 선택이 필요하다.

OpenAI, GPT-5.4 Mini 및 Nano 공개

Thu, 19 Mar 2026 00:00:00 +0000

GPT-5.4의 성능을 빠르고 효율적인 형태로 구현한 두 가지 소형 모델이 공개됐다. GPT-5.4 Mini는 코딩·추론·멀티모달 이해·도구 사용에서 GPT-5 Mini 대비 크게 향상되었으며 속도는 2배 이상 빠르다. GPT-5.4 Nano는 가장 작고 저렴한 모델로 분류·데이터 추출·랭킹·보조 코딩 작업에 최적화됐다. 속도 벤치마크에서 GPT-5.4 Mini는 평균 180~190 t/s, Nano는 약 200 t/s로 측정되어 경쟁 모델 대비 우위를 보인다. 가격은 Claude Opus 4.6 $5/$25, GPT-5.4 $2.5/$15, Gemini 3.1 Pro $2/$12 수준이다.

커뮤니티 의견

@GN⁺: “GPT-5.4 Mini는 평균 180~190 t/s, Nano는 약 200 t/s. Gemini 3 Flash는 약 130 t/s. 다만 token/s만으로는 충분하지 않음. TTFT와 전체 latency도 함께 봐야 실제 API 사용 성능을 알 수 있음”

💡 실무 포인트: 대량 분류·추출 파이프라인에서 GPT-5.4 Nano를 도입하면 비용 대비 처리량을 극대화할 수 있다. TTFT와 latency까지 고려한 벤치마크 후 모델을 선정할 것.

LLM 아키텍처 갤러리

Tue, 17 Mar 2026 00:00:00 +0000

2024~2026년 공개된 주요 LLM들의 구조 도식과 핵심 사양을 한눈에 정리한 온라인 갤러리다. 오픈 가중치 모델들이 dense decoder-only transformer 구조에 RMSNorm, rotary position embedding, SwiGLU, grouped-query attention 조합으로 수렴했음을 보여준다. 차별화의 핵심이 모델 구조에서 훈련 레시피와 데이터 파이프라인으로 이동했다는 분석이 주목할 만하다.

커뮤니티 의견

@GN⁺: “DeepSeek-R1의 진짜 혁신은 구조가 아니라 추론 체인에 대한 강화학습이었고, Llama 3도 구조는 거의 그대로지만 데이터와 후처리 과정이 완전히 새로워졌음.”

관련 레퍼런스

Build an LLM From Scratch

💡 실무 포인트: LLM 파인튜닝이나 모델 선택 시 아키텍처보다 훈련 데이터 품질과 후처리 파이프라인에 더 많은 리소스를 투자하라.

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

Mon, 16 Mar 2026 00:00:00 +0000

로컬 머신이 어떤 AI 모델을 실행할 수 있는지 확인하는 웹 기반 도구다. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량·토큰 처리 속도·컨텍스트 길이 등을 제공한다. HN에서는 qwen3.5:9b가 작지만 멀티모달 추론 능력이 뛰어나며, 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 실용적이라는 추천이 있었다.

커뮤니티 의견

@GN⁺: “qwen3.5:9b를 강력히 추천. 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능함”

💡 실무 포인트: 로컬 AI 모델 도입 검토 시 이 도구로 사전 호환성을 확인하고, 소규모 모델(9B급)부터 임베디드 용도로 시작하는 전략이 효과적이다.

LLM을 컴퓨터로 만들 수 있을까? — 트랜스포머 안에서 프로그램 실행하기

Mon, 16 Mar 2026 00:00:00 +0000

LLM이 수학 올림피아드 문제를 풀면서도 단순한 덧셈·스도쿠를 정확히 수행하지 못하는 한계를 극복하기 위해, 트랜스포머 내부에 실제 컴퓨터를 구축하는 접근법을 제시한다. 임의의 C 코드를 토큰으로 변환하여 모델 자체가 수백만 스텝의 실행 트레이스를 수행한다. 토큰 수의 로그에 비례하는 동적 어텐션 전환으로 레지스터와 스택을 추적하며 프로그램 실행을 흉내내는 방식이다.

커뮤니티 의견

@GN⁺: “80% 정확도의 전문가 시스템을 모델에 내장하고, 그 결과를 학습 데이터로 삼아 정확도를 높일 수 있음. 다양한 작업의 훈련 비용을 낮출수록 AI 경쟁의 진입 장벽이 낮아짐”

💡 실무 포인트: LLM의 정확한 계산이 필요한 시나리오에서는 외부 도구(코드 인터프리터) 연동이 여전히 필수이며, 이 연구의 성숙도를 추적할 가치가 있다.

CanIRun.ai — 내 컴퓨터에서 AI 모델을 실행할 수 있을까?

Sun, 15 Mar 2026 00:00:00 +0000

로컬 머신이 어떤 AI 모델을 실제로 실행할 수 있는지 확인하는 웹 기반 도구. 브라우저의 WebGPU API를 활용해 하드웨어 성능을 추정하며, 모델별 메모리 요구량, 토큰 처리 속도, 컨텍스트 길이, 실행 가능 여부를 시각적으로 제공.

커뮤니티 의견

@GN⁺: “qwen3.5:9b를 강력히 추천. 멀티모달 추론 능력이 뛰어나며, 100K 토큰을 1.5GB VRAM으로 처리 가능해 RTX 3060에서도 긴 대화나 문서 처리가 가능”

💡 실무 포인트: 로컬 AI 모델 도입 전 CanIRun.ai로 하드웨어 호환성을 사전 검증하고, 소형 모델(9B급)은 임베디드/툴 호출 용도로 실전 활용 가능.

LLM을 컴퓨터로 만들 수 있을까? — 트랜스포머 안에서 직접 프로그램을 실행하는 방법

Sun, 15 Mar 2026 00:00:00 +0000

LLM이 수학 올림피아드 수준의 문제를 풀면서도 단순한 덧셈/스도쿠를 정확히 수행하지 못하는 한계를 극복하기 위해, 트랜스포머 내부에 실제 컴퓨터를 구축하는 접근법을 제안. 임의의 C 코드를 토큰으로 변환하여 모델 자체가 수백만 스텝의 실행 트레이스를 처리할 수 있도록 함. 동적 어텐션 전환으로 토큰 수의 로그에 비례하는 효율적 실행이 가능.

커뮤니티 의견

@GN⁺: “훈련 부트스트랩 관점에서, 80% 정확도의 전문가 시스템을 모델에 내장하고 그 결과를 학습 데이터로 삼아 정확도를 높일 수 있음”

💡 실무 포인트: LLM의 계산 정확도 한계를 인식하고, 정확한 계산이 필요한 태스크에는 외부 도구 호출(function calling) 패턴을 적용.

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

Fri, 13 Mar 2026 00:00:00 +0000

Qwen2-72B 모델의 중간 7개 레이어를 복제·반복 통과시키는 방법으로, 가중치 수정이나 파인튜닝 없이 RTX 4090 두 장만으로 HuggingFace Open LLM 리더보드 1위를 달성한 사례다. 총 80개 레이어 중 특정 중간 구간(45번대)을 반복 실행하는 구조만 변경했으며, “Goliath가 작동했다는 사실 자체가 놀랍다"는 평가가 나왔다. 생명공학에서 뇌를 연구하던 저자가 GPU 기반 AI 연구로 전환한 배경도 흥미롭다.

커뮤니티 의견

@GN⁺: “전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐”

💡 실무 포인트: 모델 아키텍처 레벨의 레이어 반복 기법은 추가 학습 없이 성능을 개선할 수 있는 저비용 실험 방법. 자체 모델 최적화에 참고.

Karpathy, Autoresearch로 nanochat을 2일간 자동 튜닝해 GPT-2 학습 시간 11% 단축

Fri, 13 Mar 2026 00:00:00 +0000

Karpathy가 3일 전 공개한 Autoresearch 에이전트를 활용해, depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도하여 검증 손실을 개선하는 20개의 유효한 변경사항을 발견했다. AI가 AI 학습 자체를 자동으로 최적화하는 “자기 개선 루프"의 실증 사례로, 확장된 형식의 강화학습처럼 설명 가능한 연구 자동화 가능성을 보여준다.

커뮤니티 의견

@hanje3765: “오토리서치와 에이전트허브를 결합하면 그게 진짜 학계와 연구소 아닐까… RL은 설명 불가능하지만 해당 방식으로 확장하면 무엇이든 설명 가능해지는게 진짜 혁신적”

@sea715: “이게 어찌보면 AGI가 오기전 마지막 허들일수도 있겠다라는 생각”

@xguru: “이 분은 뭔가 다른 삶을 사는 것 같아요”

💡 실무 포인트: 하이퍼파라미터 튜닝이나 아키텍처 서치를 에이전트 루프로 자동화하는 패턴을 자체 ML 파이프라인에 적용 검토.

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 — 두 개의 게이밍 GPU로, 가중치 변경 없이

Thu, 12 Mar 2026 00:00:00 +0000

David Noel Ng가 Qwen2-72B(총 80개 레이어)의 중간 7개 레이어를 복제해 재조합하는 방법으로, 어떠한 학습이나 가중치 수정 없이 2024년 HuggingFace Open LLM 리더보드 1위를 달성했다. RTX 4090 두 장으로 수행된 이 실험은 중간 레이어를 반복 실행하는 구조만 변경한 것으로, LLM 벤치마크의 신뢰성에 의문을 제기하는 동시에 트랜스포머 내부 구조에 대한 새로운 통찰을 제공한다.

커뮤니티 의견

@GN⁺: “‘Goliath가 작동했다는 사실 자체가 놀랍다’는 부분이 핵심. 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인”

💡 실무 포인트: LLM 벤치마크 점수만으로 모델을 평가하는 것은 위험하다. 실제 서비스 태스크에 대한 자체 평가 기준을 수립하고, 벤치마크는 참고 지표로만 활용하자.

Karpathy, Autoresearch로 nanochat을 2일간 자동 튜닝해 GPT-2 학습 시간 11% 단축

Thu, 12 Mar 2026 00:00:00 +0000

Karpathy가 공개한 Autoresearch 에이전트가 depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도하여, 검증 손실을 개선하는 약 20개의 유효한 변경사항을 발견했다. AI 에이전트가 연구 자체를 자동화하는 구조로, 학회 제출과 피어 리뷰의 피드백 루프를 자동화한 확장된 강화학습 형태로 볼 수 있다는 분석이 나온다.

커뮤니티 의견

@hanje3765: “오토리서치와 에이전트허브 컨셉을 결합하면 그게 진짜 학계와 연구소 아닐까. 확장된 형식의 강화학습같아보였습니다”

@xguru: “이 분은 뭔가 다른 삶을 사는 것 같아요”

관련 레퍼런스

AgentHub - Karpathy

💡 실무 포인트: 하이퍼파라미터 튜닝이나 모델 구조 실험을 자동화하려는 팀이라면, Autoresearch의 “자율적 변경 시도 → 검증 → 채택” 패턴을 참고하여 자체 자동 실험 파이프라인을 구축해볼 수 있다.

30억 개 벡터 쿼리하기

Wed, 11 Mar 2026 00:00:00 +0000

Jeff Dean의 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 출발해, 최적의 map-reduce 솔루션을 단계적으로 구현하는 과정을 다룬다.

💡 실무 포인트: 대규모 벡터 검색 시스템 구축 시 naive 구현의 한계를 이해하고, 분산 처리(map-reduce) 및 ANN(Approximate Nearest Neighbor) 인덱스 전략을 비교 검토해야 한다.

30억 개 벡터 쿼리하기

Tue, 10 Mar 2026 00:00:00 +0000

Jeff Dean이 제시한 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 시작해 최적의 map-reduce 솔루션을 설계하는 과정을 다룬다.

💡 실무 포인트: 대규모 벡터 검색 시스템 구축 시 naive dot product 대신 map-reduce 분산 처리와 차원 축소를 조합한 단계적 최적화가 필수적이다.

Claude Code에 가장 적합한 프로그래밍 언어는?

Mon, 09 Mar 2026 00:00:00 +0000

Ruby 커미터인 저자가 Claude Code(Opus 4.6)로 13개 언어에서 미니 Git을 구현하게 하고 언어별 20회씩 총 600회 실행하여 시간·비용·코드 줄 수를 측정했다. Ruby($0.36) → Python($0.38) → JavaScript($0.39) 순으로 빠르고 저렴했으며, 정적 타입 언어일수록 비용이 높았다. 다만 변인 통제와 재현성에 한계가 있는 프로토타입 단계의 실험이라는 점은 유의해야 한다.

커뮤니티 의견

@savvykang: “변인통제가 되지 않은 실험이라 생각합니다. 전체적으로 투명성이 부족합니다.”

@spp00: “루비 특성상 토큰 소모량이 적을 수 밖에 없어요. 짧게 코드를 짜기가 좋아서요.”

💡 실무 포인트: AI 코딩 도구 비용 최적화를 위해 동적 타입 언어의 토큰 효율성을 참고하되, 프로덕션 신뢰성과 별개로 판단할 것.

Claude Code에 가장 적합한 프로그래밍 언어는?

Sun, 08 Mar 2026 00:00:00 +0000

Ruby 커미터인 저자가 Claude Code(Opus 4.6)로 13개 언어에서 미니 Git을 구현하게 하고, 각 언어당 20회씩 총 600회 실행하여 시간·비용·코드 줄 수를 측정한 벤치마크다. 결과는 Ruby($0.36) → Python($0.38) → JavaScript($0.39) 순으로 빠르고 저렴했으며, 정적 타입 언어는 상대적으로 비용이 높았다. 동적 타입 언어가 코드 길이가 짧아 출력 토큰 소모량 면에서 유리한 것으로 나타났다.

커뮤니티 의견

@spp00: “루비 특성상 토큰 소모량이 적을 수밖에 없어요. 짧게 코드를 짜기가 좋아서 그만큼 출력 토큰 수에서 소모량이 줄어들어요”

@happing94: “그놈의 루비 루비 저자가 테스트했으니 루비가 좋다고 하겠지”

@skageektp: “어느 언어 구현을 가장 신뢰할래? 라고 하면…ㅋㅋㅋㅋ”

💡 실무 포인트: AI 코드 생성 비용 최적화가 중요하다면 동적 타입 언어의 토큰 효율성을 참고할 수 있다. 다만 생성 비용보다 코드 신뢰성과 유지보수성이 우선이다.

의사결정나무 - 중첩된 결정 규칙의 놀라운 힘

Wed, 04 Mar 2026 00:00:00 +0000

데이터 분류를 위해 특징 공간을 반복적으로 분할하는 의사결정나무의 원리를 시각적으로 설명한 교육 자료다. 엔트로피 기반 정보 이득 계산 과정을 단계별로 보여준다. 선형 분류기 출력을 추가 특성으로 활용해 트리를 학습하는 고급 기법도 커뮤니티에서 공유됐다.

커뮤니티 의견

@GN⁺: “좋은 선형 분류기를 먼저 학습하고, 그 비임계 출력값을 추가 특성으로 사용해 결정 트리를 학습하는 방식이 효과적”

💡 실무 포인트: 설명 가능한 AI가 필요한 도메인에서는 신경망 대신 의사결정나무 기반 앙상블(XGBoost 등)을 우선 검토하라.

의사결정나무 – 중첩된 결정 규칙의 놀라운 힘

Tue, 03 Mar 2026 00:00:00 +0000

엔트로피와 정보 이득 기반으로 데이터를 분류하는 의사결정나무의 원리를 인터랙티브하게 설명하는 교육 자료이다. 선형 분류기의 비임계 출력값을 추가 특성으로 사용해 결정 트리를 학습하는 고급 기법도 커뮤니티에서 공유되었다.

커뮤니티 의견

@GN⁺: “좋은 선형 분류기를 먼저 학습하고, 그 출력을 추가 특성으로 사용해 결정 트리를 학습하면 양쪽의 약점을 보완할 수 있음”

💡 실무 포인트: 딥러닝만 고집하지 말고, 해석 가능한 의사결정나무를 비즈니스 규칙 검증이나 피처 중요도 분석에 활용하라.

Mercury 2: 확산 기반 초고속 추론 LLM

Sat, 28 Feb 2026 00:00:00 +0000

확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델. 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로 5배 이상 빠른 응답 속도를 달성했다.

커뮤니티 의견

@GN⁺(HN): “초당 지능(metric)을 측정하는 개념이 흥미로움. 속도 자체가 품질의 한 축이라고 생각함”

💡 실무 포인트: 실시간 응답이 중요한 서비스에서 확산 기반 LLM의 속도-품질 트레이드오프 평가 권장

AI 모델 53종 대상 '세차장 테스트': "세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?"

Wed, 25 Feb 2026 00:00:00 +0000

53개의 주요 AI 모델을 대상으로 테스트한 결과, 대부분이 기초적 추론에 실패했다. 정답은 ‘운전’(세차를 하려면 차가 있어야 함)이지만 53개 중 42개 모델이 ‘걷기’를 선택했다. Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만 정답을 맞혔다. 인간의 답변 결과가 ChatGPT와 정확히 일치한다는 점이 흥미로우며, 이런 문제의 핵심은 논리 실패가 아니라 모호성과 맥락 부족이라는 분석도 있다.

커뮤니티 의견

@GN댓: “인간의 답변 결과가 ChatGPT와 정확히 일치한다는 게 흥미로움. 현실적으로는 ‘인간 답변 서비스’가 사실상 죽었다는 의미로 보임”

💡 실무 포인트: LLM 기반 의사결정 시스템 구축 시 상식적 추론 테스트 케이스 포함. 맥락 의존적 질문에서 모델 한계를 인지하고 명시적 컨텍스트 제공 필요.

Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)

Mon, 23 Feb 2026 00:00:00 +0000

METR은 미국 버클리에 위치한 비영리 연구 기관으로, 프론티어 AI 모델이 장기적·자율적 작업을 수행하는 능력을 평가한다. Opus 4.6이 사람 기준 14.5시간짜리 문제를 해결할 수 있다는 것은 AI의 자율 작업 능력이 크게 향상되었음을 의미하며, 일부 연구자들은 이런 능력이 사회에 심대한 위험을 초래할 수 있다고 경고한다.

💡 실무 포인트: 장시간 자율 실행이 필요한 작업에 최신 모델(Opus 4.6) 활용 검토.