인프라 on 가십데일리

Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

Sun, 05 Apr 2026 00:00:00 +0000

AMD 하드웨어 지원 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 빠르게 처리하는 오픈소스 플랫폼이다. OpenAI API 표준과 호환되어 VSCode Copilot이나 Open Web UI에서 바로 사용할 수 있다. ROCm·Vulkan·CPU 등 다양한 백엔드를 지원하며, TTS·STT·이미지 생성·편집까지 가능하다.

커뮤니티 의견

@GN⁺: “거의 1년째 Lemonade를 사용 중임. Strix Halo에서는 다른 툴 없이 이것만 씀. AMD 하드웨어라면 강력히 추천함”

💡 실무 포인트: AMD GPU/NPU 환경에서 로컬 AI 서버가 필요하다면 Lemonade를 검토할 것. OpenAI API 호환으로 기존 도구 체인을 변경 없이 연동할 수 있다.

Lemonade by AMD: GPU와 NPU를 활용한 빠른 오픈소스 로컬 LLM 서버

Sat, 04 Apr 2026 00:00:00 +0000

AMD가 지원하는 로컬 AI 서버로, GPU와 NPU를 활용해 텍스트·이미지·음성을 처리하는 오픈소스 플랫폼이다. ROCm, Vulkan, CPU, GPU, NPU 등 다양한 백엔드를 지원하며, OpenAI 및 Ollama 호환 엔드포인트를 제공해 VSCode Copilot이나 Open Web UI와 즉시 연동 가능하다. TTS, STT, 텍스트·이미지 생성, 이미지 편집까지 폭넓은 기능을 지원한다.

커뮤니티 의견

@GN⁺: “거의 1년째 Lemonade를 사용 중. AMD 하드웨어라면 강력히 추천. 개발 속도도 실용적이고 빠름”

💡 실무 포인트: AMD GPU 환경에서 로컬 LLM 서버를 구축할 때 Lemonade가 llama.cpp의 대안이 될 수 있다. OpenAI 호환 API를 제공하므로 기존 워크플로우와의 통합이 용이하다.

앤스로픽(Anthropic)의 수익성, 김밥천국 보다 안 좋다

Sat, 04 Apr 2026 00:00:00 +0000

AI 기업의 수익 구조를 전통 IT 서비스와 비교 분석한 글이다. 핵심 논점은 Anthropic의 매출총이익률(매출액-매출원가)이 음식점보다 낮다는 점이다. 전통 IT 서비스는 임계점 이후 폭발적 수익을 내는데, 이는 변동비가 낮기 때문이다. 반면 AI 추론 비용은 매출에 비례하여 증가하므로, ‘사람만 모으면 실적이 개선되는’ 기존 인터넷 서비스 모델이 통하지 않을 수 있다. 커뮤니티에서는 글의 분석이 정확하다는 의견과, 음식점 재료비와 AI 인프라 비용의 단순 비교가 적절치 않다는 반론이 팽팽하게 대립하고 있다.

커뮤니티 의견

@104apple: “글에서 매출원가, 판관비를 제대로 설명하고 음식점의 매출총이익 비율이 엔트로픽보다 좋다고 얘기하고 있습니다. AI 회사들의 단점이 서비스 원가가 비싼점에 문제가 있다고 생각합니다”

@iwanhae: “잘쓴글인데 댓글들이 충격적이군요…”

@click: “요식업 재료비는 정말 재료비만 말하는건데 인건비랑 고정비는 땅 파면 솟아나나보군요”

💡 실무 포인트: AI 서비스 사업을 구상할 때 추론 비용의 선형 증가를 반드시 고려해야 한다. 캐싱, 모델 경량화, 배치 처리 등으로 매출원가를 관리하는 전략이 필수적이다.

앤스로픽(Anthropic)의 수익성, 김밥천국 보다 안 좋다

Fri, 03 Apr 2026 00:00:00 +0000

IT 스타트업의 초기 수익 구조를 음식점과 비교 분석한 글이다. 음식점은 재료비가 매출에 비례해 증가하지만, 소프트웨어 기업은 인건비와 컴퓨팅 비용이 매출에 선형 비례하지 않아 임계점 이후 폭발적 수익 성장이 기대된다는 논지이다. 다만 Cursor가 Anthropic에 지불한 비용 규모가 충격적이라는 반응과, 김밥천국의 매출총이익률 70% 주장에 대한 반박도 제기되었다.

커뮤니티 의견

@brainer: “2006년: 구글(Google)의 수익성, 김밥천국 보다 안 좋다”

@greekr4: “커서가 엔트로픽한테 낸 돈이 충격적이네요”

💡 실무 포인트: AI API 비용이 제품 원가에 미치는 영향을 정량적으로 분석하고, 캐싱/배치 처리 등으로 변동비를 최적화하는 전략이 필요하다.

Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

Thu, 02 Apr 2026 00:00:00 +0000

Ollama가 Apple MLX 프레임워크 기반 프리뷰 버전을 공개했다. Apple Silicon의 통합 메모리 아키텍처를 활용해 M5 시리즈 칩의 GPU Neural Accelerator를 통한 TTFT(첫 토큰 생성 시간) 개선과 토큰 처리 속도 향상을 제공한다. 온디바이스 LLM이 보안성과 전력 효율 면에서 미래 방향이라는 의견이 있으나, 데이터센터의 GPU 배칭 효율에 비하면 개인 디바이스의 공급 효율은 낮을 수 있다는 반론도 제기되었다.

커뮤니티 의견

@GN⁺: “온디바이스 LLM이 미래라고 생각함. 보안이 강화되고, 데이터센터 대비 전력 소모가 적으며, 추론 수요 문제도 완화할 수 있음. 대부분의 사용자는 최첨단 모델 성능까지는 필요하지 않음”

💡 실무 포인트: Apple Silicon Mac에서 로컬 LLM 추론이 필요하다면 Ollama MLX 프리뷰를 테스트해보라. 특히 보안이 중요한 사내 데이터 처리에 유용하다.

OpenAI, 8,520억 달러 기업가치로 자금 조달 라운드 마무리

Thu, 02 Apr 2026 00:00:00 +0000

OpenAI가 사상 최대 규모인 1,220억 달러 자금 조달을 완료하며 사후 기업가치 8,520억 달러를 달성했다. SoftBank, Andreessen Horowitz, D.E. Shaw Ventures가 주도하고 Microsoft, Amazon이 참여했다. 연간 매출은 약 240억 달러로 추정되나, Anthropic과의 매출 산정 방식 차이가 커뮤니티에서 논의되었다. OpenAI는 Azure 매출의 20%만, Anthropic은 AWS 몫까지 전액 잡는다는 분석이 있으며, Anthropic이 실질적으로 더 높을 수 있다는 의견도 나왔다.

커뮤니티 의견

@GN⁺: “Anthropic은 2026년 2월 말에 190억 달러였고, 한 달 만에 60억 달러를 추가했음. 두 회사의 매출 산정 방식이 다름. OpenAI는 Azure 매출의 20%만 잡고, Anthropic은 AWS의 몫까지 포함해 전액을 잡는다고 함”

관련 레퍼런스

AI 버블은 어떻게 붕괴되는가

Wed, 01 Apr 2026 00:00:00 +0000

AI 산업의 투자 거품이 이미 형성되어 있으며, 생산성과 수익성의 괴리로 예상보다 빠른 시점에 붕괴할 가능성이 있다는 분석이다. 빅테크 기업들이 사상 최대 규모의 자본 지출 경쟁을 벌이고 있으나 실제 집행 규모는 줄어들고 있다. HN에서는 RAM 가격 폭락 주장의 근거가 빈약하다는 비판과, Jevons Paradox에 따라 효율이 높아져도 결국 더 많이 쓰게 된다는 반론이 나왔다. Google TurboQuant 같은 양자화 기술도 이미 1년 전 기술이라는 지적이 있었다.

커뮤니티 의견

@sea715: “매년 올라오는 WWE 글이군요..”

💡 실무 포인트: AI 인프라 투자 결정 시 단기 하이프에 휘둘리지 말고, 실제 GPU 활용률과 ROI를 정량적으로 측정하는 프레임워크를 갖추는 것이 중요하다.

Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동

Wed, 01 Apr 2026 00:00:00 +0000

Apple MLX 프레임워크를 기반으로 한 Ollama 프리뷰 버전이 공개되었다. Apple Silicon의 통합 메모리 아키텍처를 활용해 성능이 향상되며, M5 시리즈 칩의 GPU Neural Accelerator를 통해 TTFT(첫 토큰 생성 시간)와 토큰 처리 속도가 개선된다. HN에서는 온디바이스 LLM이 보안 강화와 전력 소모 절감 측면에서 미래라는 의견과, 데이터센터의 GPU 배칭 효율이 오히려 더 높다는 반론이 공존했다.

💡 실무 포인트: Mac 기반 개발 환경에서 Ollama MLX 프리뷰를 테스트해보라. 로컬 LLM 추론 성능이 크게 향상되어 오프라인 개발 워크플로나 민감 데이터 처리에 활용 가능성이 높아졌다.

2027년 봇이 인터넷 점령한다, 웹의 주도권이 바뀌고 있다

Tue, 31 Mar 2026 00:00:00 +0000

Cloudflare CEO Matthew Prince는 2027년이면 온라인 트래픽에서 봇(AI 에이전트)이 인간을 초과할 것으로 예측했다. 웹의 트래픽, 콘텐츠 생산, 유통 구조가 빠르게 AI 중심으로 재편되고 있으며, 기존 웹 인프라의 근본적 변화가 요구되고 있다는 분석이다.

💡 실무 포인트: 웹 서비스 설계 시 봇 트래픽 비중 증가를 고려한 인프라 계획과 API 우선 전략을 검토할 필요가 있다.

CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행

Tue, 31 Mar 2026 00:00:00 +0000

CERN이 대형 강입자 충돌기에서 초당 수백 테라바이트의 데이터를 실시간 필터링하기 위해 FPGA에 초소형 AI 모델을 배치했다. GPU/TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, VAE 기반 MLP에서 시작해 VICREG 블록을 추가하여 40MHz에서 2클럭 내 동작을 달성했다. hls4ml 프레임워크를 통해 FPGA에 배포하며 QAT(양자화 인식 학습)를 적용했다.

커뮤니티 의견

@GN⁺: “논문 저자 직접 댓글: 모델은 실리콘에 새긴 게 아니라 FPGA 위에 배치된 것. axol1tl의 경우 가중치가 fabric에 하드와이어드되어 있지만 재프로그래밍 가능. CICADA 모델은 VAE 기반 교사-학생 구조로 이상 탐지 점수를 증류.”

💡 실무 포인트: 극한의 저지연 AI 추론이 필요한 엣지 환경에서 hls4ml 같은 프레임워크를 활용한 FPGA 배포와 QAT 기법은 참고할 만한 접근이다.

Show GN: vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙

Tue, 31 Mar 2026 00:00:00 +0000

여러 LLM을 로컬에서 서빙할 때 모델마다 docker 명령어를 재입력하고 GPU 설정을 기억해야 하는 불편함을 해결하는 vLLM 전용 TUI 관리 도구이다. 모델별 설정을 YAML 프로필로 저장하고 TUI에서 Enter 한 번으로 시작/중지가 가능하며, 모델 이름만 입력하면 프로필과 설정이 자동 생성된다.

💡 실무 포인트: 로컬에서 여러 LLM 모델을 테스트하거나 서빙할 때 vLLM Compose로 모델 전환과 GPU 할당을 간소화할 수 있다.

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

Mon, 30 Mar 2026 00:00:00 +0000

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 $7/월 VPS에 구축한 사례다. 단순한 이력서 요약형 챗봇이 아니라 저장소 복제·테스트 계산·코드 검증을 수행하는 실용적 에이전트다. HN에서는 에이전트가 이메일·개인 데이터에 접근할 경우의 보안 위험과, Haiku 대비 저렴한 대안 모델(MiniMax M2.7, Kimi K2.5) 비교 논의가 있었다.

커뮤니티 의견

@GN⁺: “이메일과 개인 데이터에 접근할 수 있는 OpenClaw 에이전트가 만약 침해된다면 피해 범위가 매우 커질 수 있음. 공격자가 비밀번호를 재설정해 API 제한을 해제하거나 불법 콘텐츠 공유 허브로 악용될 위험도 있음”

💡 실무 포인트: 저비용 AI 에이전트를 운영할 때는 API 키 접근 범위를 최소화하고, IRC 같은 공개 채널을 통한 프롬프트 인젝션 방어를 반드시 고려해야 한다.

Claude Code, 웹에서 작업 예약 실행하기

Mon, 30 Mar 2026 00:00:00 +0000

Claude Code의 클라우드 예약 기능으로 반복 업무를 자동화하고 컴퓨터가 꺼져 있어도 백그라운드에서 실행할 수 있다. Cloud, Desktop, /loop 세 가지 예약 방식을 제공하며, 실행 위치와 주기 설정 단위가 다르다. HN에서는 사용 제한이 공식 사이트가 아닌 팀원의 트위터로 공지된 점에 대한 비판과, 시간대별 차등 요금제 같은 접근이 합리적이라는 반응이 엇갈렸다.

커뮤니티 의견

@GN⁺: “공식 사이트에서는 기능 출시를 알리면서, 사용 제한은 팀원의 트위터 계정으로 공지되는 게 흥미로움”

💡 실무 포인트: 정기적인 코드 리뷰, 의존성 업데이트 체크, 테스트 실행 등 반복 작업을 Claude Code 예약 기능으로 자동화하면 개발 운영 부담을 줄일 수 있다.

jai - AI 에이전트를 위한 손쉬운 격리 도구

Mon, 30 Mar 2026 00:00:00 +0000

스탠퍼드에서 개발한 Linux 환경 AI 에이전트 격리 실행 도구로, 복잡한 컨테이너 설정 없이 단일 명령으로 안전한 실행 경계를 제공한다. AI 도구가 실제 파일 시스템에 접근해 데이터를 삭제하거나 손상시키는 사례가 잇따르면서 안전한 실행 환경의 필요성이 부각되고 있다. HN에서는 Claude Code의 내장 샌드박스 설정(.claude/settings.json)도 언급되었으나, 저수준에서 강제 적용되어야 효과적이라는 의견이 지배적이었다.

커뮤니티 의견

@GN⁺: “claude가 현재 디렉토리를 헷갈려 하거나 rm -rf * 같은 명령을 실행하는 걸 본 적이 있음. 샌드박스 아이디어는 좋지만, 저수준에서 강제 적용되어야 효과적임”

💡 실무 포인트: AI 에이전트에 시스템 명령 실행 권한을 부여할 때는 jai 같은 격리 도구나 Claude Code의 sandbox 설정을 반드시 활성화하고, 파일시스템 접근 범위를 최소한으로 제한해야 한다.

하드웨어를 붙잡아야 한다

Mon, 30 Mar 2026 00:00:00 +0000

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 하드웨어 가격이 급등 중이다. Micron의 철수로 Samsung과 SK Hynix가 사실상 양강 체제를 형성했고, 제조사들은 HBM·서버 DRAM 생산에 집중하면서 2028년 이후까지 소비자용 공급난이 지속될 전망이다. HN에서는 작년 10월 RAM 가격 상승 전 768GB 워크스테이션을 구매한 사례와, thin-client/fat-client 주기적 전환에 대한 논의가 있었다.

커뮤니티 의견

@GN⁺: “나는 작년 10월 RAM 가격이 오르기 전 20,000달러를 들여 768GB RAM, 96코어, 96GB Blackwell GPU를 장착한 데스크톱을 구매했음. 지금은 RAM만 팔아도 그때 산 가격을 회수할 수 있을 정도”

💡 실무 포인트: 로컬 LLM 추론이나 AI 개발용 장비 구매를 계획 중이라면 RAM·GPU 가격 상승 추세를 고려해 조기 확보를 검토하고, 클라우드 비용과 비교 분석이 필요하다.

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

Sun, 29 Mar 2026 00:00:00 +0000

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 구축한 사례다. 단순 이력서 요약형 챗봇이 아니라 저장소 복제·테스트·코드 검증을 수행하는 에이전트로, $7/월 VPS에서 운영된다. 다만 이메일과 개인 데이터에 접근하는 에이전트의 보안 위험에 대한 우려도 제기되었다.

커뮤니티 의견

@GN⁺: “이메일과 개인 데이터에 접근할 수 있는 에이전트가 침해된다면 피해 범위가 매우 커질 수 있음. 의심이 생긴 즉시 기기 격리와 보안팀 연락이 먼저였어야 함”

💡 실무 포인트: 저비용 VPS에서 AI 에이전트를 운영할 때는 접근 가능한 리소스의 범위를 최소화하고, 네트워크 격리 및 시크릿 관리를 철저히 해야 한다.

뉴욕시 병원들, 논란의 AI 기업 Palantir과의 계약 종료

Sun, 29 Mar 2026 00:00:00 +0000

뉴욕시 공공병원 시스템이 Palantir Technologies와의 계약 갱신을 중단하고 내부 시스템으로 전환을 결정했다. 계약에 비식별 환자 데이터의 연구 외 사용 가능 조항이 포함되어 데이터 프라이버시 전문가들의 우려를 초래한 것이 배경이다. AI 기업의 개인 의료 데이터 접근에 대한 경계심이 높아지고 있다.

커뮤니티 의견

@GN⁺: “Palantir 같은 회사가 개인 의료 데이터에 접근하는 건 매우 위험한 일이라 생각함. NYC가 이를 막는 조치를 취한 게 정말 다행스러움”

💡 실무 포인트: AI 벤더와의 데이터 처리 계약 시, 비식별 데이터의 2차 활용 범위를 명확히 제한하는 조항을 반드시 포함해야 한다.

하드웨어를 붙잡아야 한다

Sun, 29 Mar 2026 00:00:00 +0000

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 하드웨어 가격이 급등하고 있다. Micron의 철수로 Samsung과 SK Hynix가 양강 체제를 형성했고, 2028년 이후까지 공급난이 지속될 전망이다. 제조사들이 HBM·서버 DRAM에 생산 역량을 집중하면서 소비자용 부품은 후순위로 밀리는 구조적 문제가 발생하고 있다.

커뮤니티 의견

@GN⁺: “지금이 데이터센터 하드웨어와 소비자용 컴퓨팅이 빠르게 분기되는 시점이라 생각함. 고성능 소비자용 하드웨어의 수요가 줄어들면 규모의 경제가 무너지고 생산 자체가 비경제적이 될 것”

💡 실무 포인트: 온프레미스 AI 인프라를 계획 중이라면 RAM·GPU 등 핵심 부품을 조기 확보하는 것이 비용 절감에 유리하다. 클라우드 비용도 하드웨어 가격 상승에 연동될 수 있다.

AI 에이전트를 $7/월 VPS에 배치하고 IRC를 전송 계층으로 사용한 디지털 도어맨 구축

Sat, 28 Mar 2026 00:00:00 +0000

개인 포트폴리오 사이트에 IRC 기반 AI 에이전트를 연결해, 방문자가 실제 GitHub 저장소 코드 분석 결과를 바탕으로 질문에 답변받을 수 있는 구조를 구축한 사례다. 단순한 이력서 요약형 챗봇이 아니라 저장소 복제·테스트·코드 검증을 수행한다. 월 $7 VPS에서 Haiku/Sonnet을 사용하며, 보안 전문가들은 이메일·개인 데이터에 접근 가능한 에이전트가 침해될 경우의 위험성을 경고했다.

커뮤니티 의견

@GN⁺: “이메일과 개인 데이터에 접근할 수 있는 에이전트가 만약 침해된다면 피해 범위가 매우 커질 수 있음. 보안에 철저한 이들이 이런 위험에는 무감각한 게 이상함”

💡 실무 포인트: 저비용 VPS에 AI 에이전트를 배포할 때는 권한 최소화 원칙을 적용하고, 에이전트가 접근 가능한 데이터 범위를 엄격히 제한해야 한다.

뉴욕시 병원들, AI 기업 Palantir과의 계약 종료

Sat, 28 Mar 2026 00:00:00 +0000

뉴욕시 공공병원 시스템이 Palantir Technologies와의 계약 갱신을 중단하고 내부 시스템으로 전환을 결정했다. 기존 계약에 비식별 환자 데이터의 연구 외 사용 가능 조항이 포함되어 데이터 프라이버시 전문가들의 우려를 초래했다. 커뮤니티에서는 AI 기업에 의료 데이터 접근을 허용하는 위험성과, Palantir의 본질이 고급 IT 컨설팅에 불과하다는 평가가 나왔다.

커뮤니티 의견

@GN⁺: “Palantir 같은 회사가 개인 의료 데이터에 접근하는 건 매우 위험한 일이라 생각함. NYC가 이를 막는 조치를 취한 게 정말 다행스러움”

💡 실무 포인트: AI 솔루션 도입 시 데이터 사용 범위 조항을 계약서에서 철저히 검토하고, 특히 민감 데이터의 ‘연구 외 사용’ 같은 확장 조항에 주의해야 한다.

판사가 Anthropic을 '공급망 위험'으로 지정하려던 국방부 조치 차단

Sat, 28 Mar 2026 00:00:00 +0000

캘리포니아 연방 판사가 국방부의 Anthropic ‘공급망 위험’ 지정 시도를 헌법 위반으로 판단하고 무기한 차단했다. 판결문은 해당 조치가 표현의 자유와 적법절차를 침해했으며, 미국 기업을 적대자로 낙인찍는 것은 법적 근거가 없다고 명시했다. HN에서는 사법 시스템이 작동한 것에 안도하면서도, 정치적 압력으로 인해 Anthropic이 정부 계약에서 실질적으로 배제될 가능성을 우려하는 의견이 나왔다.

커뮤니티 의견

@GN⁺: “판사가 어떤 결정을 내리든, 대통령이 특정 제품 사용을 원하지 않는 이상 정부 내에서는 아무도 쓰지 않을 것임”

💡 실무 포인트: AI 서비스 제공업체 선정 시 기술력 외에 지정학적·정책적 리스크도 고려해야 하며, 단일 벤더 의존도를 낮추는 멀티 프로바이더 전략이 중요하다.

하드웨어를 붙잡아야 한다

Sat, 28 Mar 2026 00:00:00 +0000

AI와 데이터센터 수요 폭증으로 RAM·SSD 등 소비자용 부품 공급이 급감하며 가격이 급등하고 있다. Micron의 철수로 Samsung과 SK Hynix가 양강 체제를 형성했으며, 제조사들이 HBM·서버 DRAM에 생산 역량을 집중하면서 2028년 이후까지 공급난이 지속될 전망이다. 커뮤니티에서는 thin-client vs fat-client 사이클 반복 가능성과, 고성능 소비자용 하드웨어 수요 감소 시 규모의 경제 붕괴 우려가 논의되었다.

커뮤니티 의견

@GN⁺: “공급 부족은 언젠가 끝나겠지만, 그다음엔 수요 부족이 올 것이라 봄. 고성능 소비자용 하드웨어의 수요가 줄어들면 규모의 경제가 무너지고 생산 자체가 비경제적이 될 것”

💡 실무 포인트: 로컬 AI 추론·개발용 하드웨어 구매를 계획 중이라면 가격 상승 전에 확보를 서두르고, 클라우드와 로컬의 비용 비교를 주기적으로 업데이트하라.

Arm AGI CPU 발표 - 에이전트형 AI 클라우드 시대를 위한 실리콘 기반

Fri, 27 Mar 2026 00:00:00 +0000

Arm이 Neoverse 플랫폼 기반 AGI CPU를 공개했다. 여기서 AGI는 ‘Agentic AI Infrastructure’의 약자로, 자율적 AI 인프라를 위한 고밀도 병렬 워크로드 최적화 실리콘이다. Arm이 회사 역사상 처음으로 자체 설계한 프로덕션 실리콘 제품이라는 점에서 의미가 크다.

커뮤니티 의견

@GN⁺: “요즘 ‘AGI’라 하면 대부분 Artificial General Intelligence를 떠올리는데, Arm은 ‘Agentic AI Infrastructure’라고 부르고 있음. 일반 투자자들은 그 차이를 모르고 ARM 주식을 사게 될 것이라는 비판이 있음”

관련 레퍼런스

Arm AGI CPU 공식 발표

💡 실무 포인트: AI 추론 인프라 비용 최적화를 고려 중이라면 Arm 기반 클라우드 인스턴스의 가성비를 x86 대비 벤치마킹해볼 시점이다.

Cloudflare Dynamic Worker Loader - 더 빠른 AI 에이전트 샌드박스

Thu, 26 Mar 2026 00:00:00 +0000

AI 에이전트의 코드 실행을 위한 경량 샌드박스로, 컨테이너 대비 100배 빠른 기동 속도와 10~100배 높은 메모리 효율을 제공한다. V8 JavaScript 엔진의 isolate 기술 기반으로, 수 밀리초 내 시작되며 수 메가바이트만 사용하므로 요청마다 새 샌드박스를 생성하고 폐기할 수 있다.

관련 레퍼런스

Cloudflare 공식 블로그

💡 실무 포인트: AI 에이전트가 사용자 코드를 실행해야 하는 서비스를 설계할 때, 컨테이너 대신 V8 isolate 기반 샌드박스를 활용하면 콜드스타트 지연과 인프라 비용을 대폭 절감할 수 있다.

Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러

Thu, 26 Mar 2026 00:00:00 +0000

GPU·RAM·NVMe 간 텐서 배치를 최적화해 대형 언어 모델을 실행하는 저장 계층 인식형 추론 스케줄러가 공개되었다. 32GB 맥 미니에서 Mixtral 8x7B(31GB) 모델을 2.2 tok/s, Llama 70B(40GB) 모델을 0.3 tok/s 속도로 실행할 수 있다. Apple Silicon의 통합 메모리 아키텍처를 최대한 활용하는 접근이다.

커뮤니티 의견

@GN⁺: “비교표에 Qwen 3.5 MoE, Kimi K2.5 같은 최신 모델도 추가되면 좋겠음. Apple 하드웨어에서 Qwen 3.5 MoE 모델이 놀라운 성능을 보인다는 보고가 많음”

관련 레퍼런스

Hypura GitHub

💡 실무 포인트: VRAM이 부족한 맥 환경에서 대형 모델을 로컬 실행해야 할 때, Hypura의 저장 계층 인식 스케줄링이 NVMe 스왑 대비 더 나은 성능을 제공할 수 있다.

Pinterest가 AI에이전트를 위한 프로덕션 MCP 에코시스템을 구축한 방법

Wed, 25 Mar 2026 00:00:00 +0000

Pinterest가 MCP(Model Context Protocol)를 AI 에이전트의 도구 연결 표준으로 채택하여, IDE, 내부 챗, AI 에이전트 등 실제 엔지니어링 워크플로우에 프로덕션 수준으로 통합한 경험을 공유한다. 단일 모놀리식 서버 대신 도메인별 다수의 MCP 서버(Presto, Spark, Airflow 등)와 중앙 레지스트리를 운영하는 아키텍처를 채택했다.

💡 실무 포인트: 사내 AI 도구 통합 시 MCP 기반 도메인별 분산 서버 + 중앙 레지스트리 패턴을 참고하라.

Project NOMAD - 오프라인에서도 끊기지 않는 지식과 AI 서버

Wed, 25 Mar 2026 00:00:00 +0000

인터넷 연결 없이 지식, 지도, 교육, AI 도구를 모두 실행할 수 있는 무료 오픈소스 오프라인 서버다. Wikipedia, Project Gutenberg, 의료 참고서, Khan Academy 강좌 등 방대한 자료를 Kiwix와 Kolibri 기반으로 제공하며, 로컬 AI 추론도 지원한다.

💡 실무 포인트: 네트워크 단절 시나리오(재난, 인프라 장애)에 대비한 오프라인 AI/지식 서버 구축 레퍼런스로 활용 가능하다.

Pinterest가 AI 에이전트를 위한 프로덕션 MCP 에코시스템을 구축한 방법

Tue, 24 Mar 2026 00:00:00 +0000

Pinterest가 MCP(Model Context Protocol)를 AI 에이전트의 도구 연결 표준으로 채택하여, IDE·내부 챗·AI 에이전트 등 실제 엔지니어링 워크플로우에 프로덕션 수준으로 통합한 경험을 공유한다. 단일 모놀리식 서버 대신 도메인별 다수의 MCP 서버(Presto, Spark, Airflow 등)와 중앙 레지스트리를 운영하는 아키텍처를 채택했다.

💡 실무 포인트: 사내 AI 에이전트 도입 시 MCP 기반 도메인별 분산 서버 + 중앙 레지스트리 패턴은 확장성 있는 참고 아키텍처다.

Project NOMAD — 오프라인에서도 끊기지 않는 지식과 AI 서버

Tue, 24 Mar 2026 00:00:00 +0000

인터넷 연결 없이 Wikipedia, Project Gutenberg, 의료 참고서, Khan Academy 강좌, AI 도구를 모두 실행할 수 있는 무료 오픈소스 오프라인 서버다. Kiwix와 Kolibri 기반으로 구축되며, 네트워크 차단이나 재난 상황에서의 지식 접근권 보장을 목표로 한다.

커뮤니티 의견

@GN⁺: “독재자들이 불리해지면 인터넷을 끊어버리는 걸 보면 이런 게 꽤 유용할 수도 있겠다는 생각”

💡 실무 포인트: 오프라인 환경에서 AI 추론과 지식 검색이 필요한 엣지 배포 시나리오에 참고할 수 있는 아키텍처다.

Tinybox — 120B 파라미터를 지원하는 오프라인 AI 머신

Tue, 24 Mar 2026 00:00:00 +0000

tinygrad 프레임워크 기반의 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델의 학습과 추론을 지원한다. red·green·exa 세 가지 모델로 제공되며, 대기업 클라우드 모델 의존을 줄이는 로컬 AI 인프라의 가능성을 보여준다. $65,000 가격대의 전용 하드웨어다.

커뮤니티 의견

@GN⁺: “로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함. 다만 240V 회로 연결 편의성 개선 필요”

💡 실무 포인트: 데이터 주권이 중요한 조직에서 120B급 모델을 온프레미스로 운영할 수 있는 하드웨어 옵션으로 검토 가능하다.

Claude Code, 클라우드 기반 예약 작업 기능 추가

Mon, 23 Mar 2026 00:00:00 +0000

로컬 머신에서 Claude Code를 실행하지 않아도 설정한 일정에 따라 자동으로 작업을 수행하는 클라우드 기반 예약 기능이 추가되었다. 레포지토리, 스케줄, 프롬프트를 지정하면 클라우드 인프라에서 Claude가 해당 작업을 반복 실행하며, 열린 PR 일괄 검토나 승인된 이슈 기반 자동 구현 등에 활용할 수 있다.

onecli - AI 에이전트용 시크릿 게이트웨이

Mon, 23 Mar 2026 00:00:00 +0000

AI 에이전트와 외부 API 사이에 위치한 보안 프록시 게이트웨이로, API 키를 에이전트에 직접 노출하지 않고 요청 시점에 자동 주입한다. 실제 키는 내부 AES-256-GCM 암호화 저장소에 보관되며, Rust 기반 고속 HTTP 게이트웨이와 Next.js 관리 UI로 구성된다.

💡 실무 포인트: AI 에이전트에 API 키를 직접 전달하는 대신, onecli 같은 시크릿 게이트웨이를 중간에 두면 키 유출 리스크를 구조적으로 차단할 수 있다.

Super Micro 주가, 공동창업자의 25억 달러 규모 AI 칩 밀수 혐의 기소 후 25% 급락

Mon, 23 Mar 2026 00:00:00 +0000

Super Micro Computer 공동창업자가 Nvidia 등 미국산 AI 칩을 중국으로 불법 수출한 25억 달러 규모의 밀수 혐의로 기소되며 주가가 25% 하락했다. 미·중 AI 칩 수출 통제가 실효성 있게 작동하는지에 대한 의문이 제기되며, AI 하드웨어 공급망의 지정학적 리스크가 재조명되고 있다.

커뮤니티 의견

@GN⁺: “예전엔 SuperMicro가 표준 ATX/mATX/ITX 폼팩터 서버급 하드웨어를 만드는 몇 안 되는 업체였고 품질도 좋았는데, 요즘은 AliExpress에서나 원하는 보드를 찾을 수 있는 상황.”

💡 실무 포인트: AI 인프라 하드웨어 조달 시 공급업체의 수출 규제 준수 여부를 확인하고, 지정학적 리스크를 고려한 벤더 다각화 전략이 필요하다.

Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

Mon, 23 Mar 2026 00:00:00 +0000

tinygrad 기반의 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, 120B 파라미터 모델까지 지원한다. red·green·exa 세 가지 모델로 제공되며, 단순성과 성능을 결합한 신경망 프레임워크 위에 구축되었다. 대기업 모델 의존을 줄이는 로컬 AI 인프라로서의 가능성이 주목받고 있다.

커뮤니티 의견

@GN⁺: “가정용 AI 시스템을 한 번 사두면 수십 년 동안 쓸 수 있다는 주장이 있으나, AI는 병렬 연산 중심이라 하드웨어 발전이 여전히 빠르므로 시기상조라는 반론도 있음.”

💡 실무 포인트: 클라우드 API 비용이 부담되는 팀이라면 120B급 로컬 추론 하드웨어의 TCO를 산정해 자체 인프라 구축 여부를 검토할 시점이다.

인터넷 아카이브 차단은 AI를 막지 못하지만 웹의 역사 기록을 지워버림

Mon, 23 Mar 2026 00:00:00 +0000

뉴욕타임스와 가디언 등 주요 언론이 AI 스크래핑 우려로 인터넷 아카이브의 크롤링을 차단하기 시작했다. Wayback Machine에 1조 개 이상의 웹페이지를 보존해온 아카이브가 차단되면, AI 학습 데이터 방어 효과는 미미하면서 웹의 역사 기록만 소실된다는 것이 EFF의 주장이다. AI 크롤러와 아카이빙 크롤러를 구분하는 기술적 해법이 필요한 상황이다.

커뮤니티 의견

@GN⁺: “JA3 해시 차단이 가장 효과적이었으나, AI 크롤러들은 IP당 한 번만 요청하므로 두 번째 요청을 막을 기회가 없는 race condition 문제가 있음.”

💡 실무 포인트: 자체 웹서비스 운영 시 robots.txt만으로는 AI 크롤러를 제어할 수 없으므로, JA3/JA4 핑거프린팅 등 L7 수준의 봇 탐지 전략을 검토해야 한다.

Claude Code, 클라우드 기반 예약 작업 기능 추가