Ship or Slop - 에이전트 사회로 아이디어 짜내기
AI 에이전트들이 서로 아이디어를 제안하고 댓글로 토론하는 ‘에이전트 사회’ 실험 프로젝트가 전면 개편되어 공개되었다. 에이전트들이 아이디어의 Ship(출시 가치 있음) / Slop(그렇지 않음) 여부를 판단하며, …
AI 에이전트들이 서로 아이디어를 제안하고 댓글로 토론하는 ‘에이전트 사회’ 실험 프로젝트가 전면 개편되어 공개되었다. 에이전트들이 아이디어의 Ship(출시 가치 있음) / Slop(그렇지 않음) 여부를 판단하며, …
월마트가 ChatGPT 내 Instant Checkout 기능을 통해 약 20만 개 상품을 테스트한 결과, 웹사이트 결제 대비 전환율이 3배 낮았다. 사용자들이 LLM의 상품 추천을 신뢰하지 못하거나, 품절 상품을 …
AI 코딩 도구가 생산성을 높였다는 주장과 달리, 새로운 소프트웨어의 폭발적 증가는 관찰되지 않는다는 분석이다. PyPI 데이터를 분석한 결과, ChatGPT 이후에도 전체 패키지 생성 속도는 변화가 없었다. 프로 …
AI 도구로 소프트웨어 개발 비용이 급감하면서, 진정한 비즈니스 해자(moat)가 무엇인지에 대한 분석이다. AI가 대부분의 변환 작업을 대체할 수 있는 시대에, 인간이 생성한 실세계 데이터만이 에이전트 AI가 복 …
고급 정비소의 전화 응답 부재로 인한 매출 손실을 해결하기 위해, RAG 기반 AI 리셉셔니스트 ‘Axle’을 개발한 사례다. 웹사이트에서 수집한 실제 서비스·가격 정보를 근거로 정확한 견적을 안내한다. 다만 커뮤 …
자연어 입력을 LLM이 쉘 명령어로 변환해 실행해주는 CLI 도구 pls가 공개되었다. ‘pls 1380 포트 쓰는 프로세스 다 죽여줘’, ‘pls DNS Cache 날려줘’ 같은 자연어를 그대로 입력하면 해당 명 …
트럼프 전 대통령의 발언을 실시간으로 수집하고, LLM으로 한국어 요약 및 한국 경제 영향을 분석해 피드로 제공하는 서비스 ‘트럼프 가라사대’가 공개되었다. 발언 수집 → LLM 한국어 요약 → 경제 영향 분석의 …
1대1 RTS(실시간 전략) 게임 환경에서 LLM의 전략적 사고, 코드 생성, 실시간 의사결정 능력을 평가하는 새로운 벤치마크다. 기존의 텍스트 기반 벤치마크와 달리, 동적 환경에서의 적응력과 전략 수립 능력을 측 …
Anthropic이 81,000명을 대상으로 AI 사용 실태를 조사한 대규모 정성 연구를 공개했다. 기존 AI 논의가 AGI, 자동화, 일자리 대체 같은 거시적 주제에 집중한 반면, 이 프로젝트는 실제 사용자들이 …
크레딧 기반 요금제가 2025년 126% 급증하며 SaaS 업계 표준으로 부상하고 있다. Clay가 데이터 비용과 플랫폼 가치를 분리한 요금제 개편을 단행했고, Figma는 2025년 12월 AI 크레딧 모델을 도 …
Claude Code v2.1.81의 주요 명령어, 단축키, 설정, 환경 변수, MCP 서버 및 에이전트 구성을 한 페이지에 정리한 A4 가로형 HTML 치트시트다. Mac/Windows 단축키 자동 감지, 최신 …
Claude Code Desktop 및 Cowork과 연동되어 실제 컴퓨터의 마우스, 키보드, 화면을 직접 제어하는 기능이 출시되었다. 어떤 앱이든 Claude가 직접 조작할 수 있으며, Dispatch와 함께 사 …
YC CEO Garry Tan이 직접 만들어 사용하는 오픈소스 AI 소프트웨어 팩토리다. Think → Plan → Build → Review → Test → Ship → Reflect 순서로 스프린트 전체를 커버 …
iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 초당 0.6토큰 속도로 구동하는 데 성공했다. Mixture of Experts(MoE) 구조로 실제 활성화되는 가중치는 약 50억 파라미터이며, …
LLM 프록시 서버로 널리 사용되는 LiteLLM의 PyPI 패키지가 공급망 공격을 당했다. v1.82.7과 v1.82.8 버전에 악성 코드가 삽입되었으며, 해당 버전을 사용 중인 경우 즉시 버전을 확인하고 업데이 …
Opus 기반 차세대 자율 에이전트 OpenClaw는 이메일, 캘린더, 홈 자동화 등 다양한 앱을 통합하지만, SkillHub 스킬 검증 부재, 토큰 노출, 메모리 오염 등 다수의 보안 취약점이 발견되었다. 편의성 …
Claude Code, Codex, Cursor, OpenCode를 한 화면에서 병렬 실행하며 4개까지 그리드로 동시 표시할 수 있는 네이티브 제어판이다. Rust와 GPUI로 구축되어 Electron 없이 …
Pinterest가 MCP(Model Context Protocol)를 AI 에이전트의 도구 연결 표준으로 채택하여, IDE, 내부 챗, AI 에이전트 등 실제 엔지니어링 워크플로우에 프로덕션 수준으로 통합한 경험 …
인터넷 연결 없이 지식, 지도, 교육, AI 도구를 모두 실행할 수 있는 무료 오픈소스 오프라인 서버다. Wikipedia, Project Gutenberg, 의료 참고서, Khan Academy 강좌 등 방대한 …
AI 에이전트들로 구성된 가상 사회를 만들어 아이디어를 평가하는 실험 프로젝트다. 사용자가 에이전트를 연결해 프로젝트를 등록하면 에이전트들이 서로 댓글을 달며 Ship(출시 가치 있음)/Slop(가치 없음)을 판단 …
Claude Plugin/Skills를 많이 설치하다 보면 .claude/plugin 디렉토리에 수많은 Skills.md 파일이 쌓이는데, 이 도구는 설치된 Skills의 유사성을 비교하고 중복 기능을 식별해 불필 …
자연어로 말하면 LLM이 쉘 명령어를 생성해 실행하는 CLI 도구다. 가끔 쓰는 명령어가 기억나지 않을 때 pls '1380 포트 쓰는 프로세스 다 죽여줘'처럼 자연어로 요청할 수 있다. Zig로 구현되었으며, …
신생아 육아 시 수유·배변 기록을 음성만으로 해결하는 시스템을 Siri + Claude Code + Obsidian 조합으로 구축한 사례다. Obsidian vault에 CLAUDE.md 파일을 작성해 테이블 구조 …
월마트가 ChatGPT 내 Instant Checkout 기능을 통해 약 20만 개 상품을 테스트한 결과, 웹사이트 결제 대비 전환율이 3배 낮았다. ChatGPT 내 직접 결제는 사용자 만족도가 낮았으며, 클릭아 …
AI 도구로 소프트웨어 개발 비용과 인력이 급감하면서, 인간이 생성한 실세계 데이터만이 에이전트 AI가 복제할 수 없는 유일한 경쟁 우위(moat)라는 주장이다. AI가 대부분의 변환 작업을 대체할 수 있는 현재, …
OpenClaw 같은 자율 에이전트의 설정 복잡성과 API 토큰 비용 부담을 해결하기 위해, 구독 내에서 터미널 에이전트를 매터모스트로 사용할 수 있게 만든 프로젝트다. takoPI(텔레그램 기반 터미널 에이전트) …
LLM 에이전트가 train.py를 반복 수정하며 성능을 개선하는 제약 최적화 루프 구조의 Autoresearch 시스템을 소개한다. 가설 설정부터 평가까지 자동 순환하며, 컨테이너 기반 샌드박스 환경에서 실행된다 …
프로그래밍은 모호한 명세를 정밀하게 다듬어 가는 창조 행위이며, AI는 영어 명세를 코드로 변환해 이 과정을 가속할 뿐 대체하지 못한다는 주장이다. ‘바이브 코딩(Vibe Coding)‘은 감각적 개발 방식을 가능 …
Anthropic이 81,000명 규모의 대규모 정성 인터뷰를 통해 실제 사용자들이 AI를 어떻게 느끼고 활용하는지를 조사한 프로젝트다. AGI·자동화·일자리 대체 같은 거시 담론이 아닌, 현장의 실제 사용 패턴과 …
블로그 퇴고 과정을 AI 5명(멀티 모델)에게 위임하는 자동 검수 파이프라인을 구축한 사례다. Gemini와 Claude를 병렬로 실행하여 라인 단위 리뷰를 수행하며, 단일 모델 대비 검출 범위와 정확도를 높였다. …