ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진
C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …
C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 …
METR은 미국 버클리에 위치한 비영리 연구 기관으로, 프론티어 AI 모델이 장기적·자율적 작업을 수행하는 능력을 평가한다. Opus 4.6이 사람 기준 14.5시간짜리 문제를 해결할 수 있다는 것은 AI의 자율 …
원클릭 자동 문서화 AI 노트테이커 ‘Archy’가 베타 서비스를 런칭했다. 녹음 → 전사 → 요약 → 노션/슬랙 공유 과정을 버튼 하나로 해결하는 UX를 제공한다. 현재 베타 버전으로 UI 완성도가 부족하지만, …
ESP32 보드에서 동작하는 초경량 AI 비서로, 전체 펌웨어 크기가 888KiB 이하로 제한된다. C 언어로 작성되었으며, GPIO 제어·스케줄링(cron)·지속 메모리·사용자 정의 도구를 자연어로 조합 가능하다 …
주요 AI 기업들이 광고 수익에 기반한 비즈니스 모델로 전환하며, 사용자 주변의 모든 시각·청각 정보를 수집하는 하드웨어 중심의 AI 어시스턴트를 개발 중이다. 항상 켜져 있는(Always-on) AI는 음성 호출 …
Google AI Ultra($249/월) 또는 Pro 유료 구독자들이 OpenClaw OAuth 연동 후 사전 경고 없이 계정이 일괄 정지되는 사태가 발생했다. Google은 OpenClaw를 통한 인증 정보 사 …
LLM 시대에 누구나 앱을 만들 수 있게 되었지만, 진짜 장벽은 실력이 아닌 취향(taste)이며, 이 장벽은 전혀 낮아지지 않았다. 공개되는 바이브 코딩 앱 대부분이 포화된 아이디어의 조잡한 복제물로, 실력과 취 …
AI 시대 실리콘밸리에서 지능이나 전문성 대신 ‘에이전시’(agency, 행동력)라 불리는 성격 특성이 가장 가치 있는 자질로 부상했다. 허가나 합의를 기다리지 않고 밀어붙이는 사람들이 VC 투자를 독점하는 구조다 …
AI가 대량 생산하는 시대에 인간의 창의적 사고 가치는 하락하고, 인간의 관심(Attention)은 희소 자원으로 부상했다. 새로운 제품을 만드는 것은 쉬워졌지만, 관심을 얻는 것은 극도로 어려워진 환경으로 전환되 …
소프트웨어 엔지니어링의 근간이 AI와 자동화로 인해 재구조화되고 있으며, 이러한 변화는 되돌릴 수 없다. 글쓴이는 AI가 코드를 대량 생산하는 시대에 SRE/DevOps의 역할이 더욱 중요해질 것이라고 주장한다. …
Anthropic 연구에 따르면 AI로 코딩 과제를 완료한 개발자들의 퀴즈 점수가 17% 낮았다. 핵심은 “AI를 쓰면 학습이 줄어든다"가 아니라, 같은 AI를 쓰면서도 사용 방식에 따라 결과가 극명하게 갈렸다는 …
미국이 인도 AI 임팩트 서밋에서 “미국산 AI가 글로벌 골드 표준"이라고 선언했다. AI 에이전트 표준 이니셔티브(NIST)가 생기면서 미국 주도로 AI에도 웹의 HTTP처럼 공식적인 표준이나 프로토콜이 생길 가 …