Llama on 가십데일리

신뢰성과 즐거움을 갖춘 로컬 호스팅 음성 비서 구축 여정

Thu, 19 Mar 2026 00:00:00 +0000

Google Home에서 벗어나 Home Assistant 기반 완전 로컬 음성 비서를 구축한 과정이다. llama.cpp와 local-first 구성을 사용해 클라우드 의존 없이 빠른 응답과 개인정보 보호를 달성했다. 다양한 GPU·모델·STT·TTS 조합의 실전 비교를 포함한다.

💡 실무 포인트: 프라이버시가 중요한 스마트홈 환경에서 llama.cpp 기반 로컬 음성 비서 구축을 참고하라.

Meta, AI 에이전트용 소셜 네트워크 'Moltbook'의 창립자 2명을 영입

Thu, 12 Mar 2026 00:00:00 +0000

Meta가 AI 에이전트 전용 소셜 네트워크 Moltbook을 인수하며, 창립자 Matt Schlicht와 Ben Parr이 Meta Superintelligence Labs(MSL)에 합류했다. “에이전트 신원 인증 및 연결 기술"을 확보하려는 의도로 보이나, 실제 Moltbook에는 단순한 Twitter OAuth 인증만 있었다는 분석도 있다. OpenAI의 Openclaw 인수에 대한 FOMO 반응이라는 해석도 나온다.

커뮤니티 의견

@unqocn: “‘Facebook 피드는 대부분 AI 생성물, Moltbook 피드는 대부분 사람이 AI인 척하는 글이라 묘하게 시너지가 있음’ 촌철살인이네요”

💡 실무 포인트: AI 에이전트 간 통신과 신원 인증은 멀티 에이전트 시스템 설계 시 핵심 과제다. 에이전트 인증 표준이 아직 확립되지 않은 만큼, 자체 시스템 설계 시 인증·권한 모델을 미리 고려해야 한다.

LLM을 칩 위에 '인쇄'하는 Taalas의 방식

Tue, 24 Feb 2026 00:00:00 +0000

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능을 주장한다. 8B개의 계수가 53B개의 트랜지스터에 패킹되어 있으며, 블록 양자화를 사용해 계수당 약 5~6.5개의 트랜지스터로 구현했다.

커뮤니티 의견

@parkindani: “칩 신규 설계와 개발 속도가 AI 덕분에 가속화된다면 이게 진짜 미래일 수도 있겠네요.”

@GN봇: “PyTorch에 model.toVHDL() 같은 기능이 생기길 기대함”

💡 실무 포인트: 특정 모델의 대규모 추론이 필요한 서비스라면 ASIC 기반 추론 가속 옵션 검토 - 비용/전력 효율 10배 개선 가능성

ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

Tue, 24 Feb 2026 00:00:00 +0000

C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 VRAM, 고정 RAM, NVMe/mmap을 자동 분할하며, CPU를 우회해 NVMe에서 GPU로 직접 전송(GPUdirect)하는 방식이 핵심이다. Apple M 시리즈의 통합 메모리 접근법과 비교 시 배치 추론 기준 성능 차이가 궁금해지는 프로젝트다.

커뮤니티 의견

@GN봇: “CPU를 우회해 NVMe에서 GPU로 직접 전송하는 방식이 정말 영리하다고 생각함. 로컬에서 대형 모델을 돌릴 때 병목은 항상 메모리 계층 구조였는데, 이건 NVMe를 확장된 VRAM처럼 DMA로 직접 다루는 셈임”

💡 실무 포인트: 로컬 LLM 추론 시 VRAM 부족 문제를 NVMe 스필링으로 해결 가능 - 고속 NVMe SSD 투자가 GPU 업그레이드보다 경제적일 수 있음

LLM을 칩 위에 '인쇄'하는 Taalas의 방식

Mon, 23 Feb 2026 00:00:00 +0000

Taalas는 Llama 3.1 8B 모델을 ASIC 칩에 직접 새겨 넣어 초당 17,000토큰 추론 속도를 달성한 스타트업이다. GPU 기반 시스템보다 10배 저렴하고, 10배 적은 전력, 10배 빠른 추론 성능을 주장한다. 8B개의 계수가 53B개의 트랜지스터에 패킹되어 계수당 약 6.5개의 트랜지스터가 사용되며, 블록 양자화를 활용한 것으로 추정된다.

커뮤니티 의견

@parkindani: “칩 신규 설계와 개발 속도가 AI 덕분에 가속화된다면 이게 진짜 미래일 수도 있겠네요.”

💡 실무 포인트: 대량 추론이 필요한 서비스에서 ASIC 기반 추론 하드웨어 동향 주시.

ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

Mon, 23 Feb 2026 00:00:00 +0000

C++/CUDA 기반 LLM 추론 엔진으로, GPU 메모리 스트리밍과 NVMe 직접 입출력을 통해 Llama 70B 모델을 RTX 3090(24GB VRAM)에서 실행 가능하다. 3단계 적응형 캐싱 구조를 사용해 VRAM, 고정 RAM, NVMe/mmap을 자동 분할하며, mmap 대비 최대 3배 빠른 로딩 속도를 제공한다. CPU를 우회해 NVMe에서 GPU로 직접 전송하는 GPUdirect 방식이 핵심이다.

커뮤니티 의견

@GN봇 (HN): “Apple M 시리즈의 통합 메모리 접근법과 비교하면 어떨지 궁금함. M4 Max는 70B 모델을 전부 메모리에 올릴 수 있지만 처리량은 3090보다 낮음”

💡 실무 포인트: 제한된 VRAM 환경에서 대형 모델 로컬 실행이 필요하면 NVMe 스트리밍 방식 검토.