임베딩 on 가십데일리

PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

Thu, 02 Apr 2026 00:00:00 +0000

Gemini embedding-2-preview의 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, SEM 사진, 그래프, 공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않는다는 결론이다. ColPali와 비교 시 영문에서는 ColPali가 우수하나, 한국어 등 비영어권에서는 정확도가 크게 떨어진다는 피드백도 공유되었다.

커뮤니티 의견

@mammal: “ColPali와 비교해서는 어떤가요?”

@230kimi: “영문은 colpali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요”

💡 실무 포인트: 논문 RAG 파이프라인 구축 시 텍스트만으로는 약 36%의 시각 정보가 누락되므로, 도표나 그래프가 중요한 문서에는 멀티모달 임베딩을 병행하라.

법망 - PostgreSQL 기반 한국 법령 전체를 JSON으로 제공하는 에이전트용 API

Thu, 02 Apr 2026 00:00:00 +0000

한국 법령 정보를 AI 에이전트가 소비하기 쉬운 JSON 형태로 제공하는 REST API 서비스다. 국가법령정보센터 제공 법령 99.9% 이상을 수록하며, 매주 토요일 최신 동기화한다. PostgreSQL + pgvector 기반으로 주요 조문 20만 건의 768차원 임베딩을 제공해 시맨틱 검색을 지원한다. 인증키 없이 사용 가능하며 rate limit은 분당 100회다. 공개 24시간 내 누적 2만 건 이상의 API 호출이 있었고, 작성자는 변호사시험 후에도 계속 유지보수할 예정이라 밝혔다. 유사한 프로젝트(legalize-kr)도 진행 중이며, k-skill에서 법령 정보 스킬로 통합 계획도 공유되었다.

PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

Wed, 01 Apr 2026 00:00:00 +0000

Gemini embedding-2-preview 네이티브 멀티모달 임베딩으로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과다. 같은 페이지의 텍스트-이미지 코사인 유사도 평균이 0.642로, SEM 사진·그래프 곡선·공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않는 것으로 나타났다. 18개 쿼리 테스트에서 이미지 임베딩이 텍스트 대비 유의미한 검색 성능 차이를 보였다. ColPali와의 비교에서는 영문에서 ColPali가 우세하지만 한국어 등 비영어권에서는 정확도가 크게 하락한다는 피드백이 있었다.

커뮤니티 의견

@mammal: “ColPali와 비교해서는 어떤가요?”

@230kimi: “영문은 ColPali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요”

💡 실무 포인트: PDF 기반 RAG 파이프라인 구축 시 텍스트 임베딩만으로는 시각 정보의 36%를 놓칠 수 있다. 도표·그래프가 중요한 문서는 멀티모달 임베딩 또는 이미지 임베딩 병행을 검토하라.

Gemini의 비디오 임베딩 기능을 활용한 SentrySearch

Fri, 27 Mar 2026 00:00:00 +0000

대시캠 등 영상 파일에서 자연어로 장면을 검색해 해당 구간을 자동으로 잘라내는 의미 기반 검색 시스템이다. Google Gemini Embedding 2 모델로 비디오 자체를 벡터로 임베딩하고, ChromaDB에 저장해 초단위 이하 정밀도로 검색한다. 감시 사회로의 확장 가능성에 대한 우려도 커뮤니티에서 제기되고 있다.

커뮤니티 의견

@GN⁺: “기술은 멋지지만 AI가 모든 영상을 실시간으로 분석하고 특정 인물이나 행동을 자연어로 탐지할 수 있게 되면 전면 감시가 현실이 될 수 있다는 우려가 있음”

관련 레퍼런스

SentrySearch GitHub

💡 실무 포인트: 영상 콘텐츠 검색이 필요한 서비스에서 Gemini Embedding 2의 비디오 임베딩 API를 활용하면 텍스트 기반 메타데이터 없이도 의미 기반 검색을 구현할 수 있다.

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Fri, 13 Mar 2026 00:00:00 +0000

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 의도를 포착하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등에 활용 가능하다.

💡 실무 포인트: 멀티모달 RAG 파이프라인 구축 시 텍스트+이미지+오디오를 단일 임베딩 공간으로 통합할 수 있는 실질적 옵션. 기존 텍스트 전용 임베딩 대비 검색 품질 향상 기대.

Omni — 업무용 AI 비서 & 검색 플랫폼

Fri, 13 Mar 2026 00:00:00 +0000

사내 다양한 앱의 정보를 통합 관리하는 AI 기반 검색 및 어시스턴트 플랫폼이다. Google Drive, Gmail, Slack, Confluence, Jira 등 주요 협업 도구를 연결하고, BM25 및 pgvector 기반의 전문 검색과 벡터 검색을 결합한 하이브리드 검색을 제공한다.

Gemini Embedding 2: 최초의 네이티브 멀티모달 임베딩 모델

Thu, 12 Mar 2026 00:00:00 +0000

Google이 텍스트, 이미지, 비디오, 오디오, 문서를 하나의 임베딩 공간에 매핑하는 최초의 완전 멀티모달 임베딩 모델을 퍼블릭 프리뷰로 공개했다. Gemini 아키텍처 기반으로 100개 이상의 언어에서 시맨틱 의도를 포착하며, RAG·시맨틱 검색·감성 분석·데이터 클러스터링 등에 활용 가능하다.

💡 실무 포인트: 텍스트와 이미지를 동시에 검색해야 하는 멀티모달 RAG 파이프라인을 구축할 때, 별도의 임베딩 모델을 조합할 필요 없이 단일 모델로 통합할 수 있는 기회다.

30억 개 벡터 쿼리하기

Wed, 11 Mar 2026 00:00:00 +0000

Jeff Dean의 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 출발해, 최적의 map-reduce 솔루션을 단계적으로 구현하는 과정을 다룬다.

💡 실무 포인트: 대규모 벡터 검색 시스템 구축 시 naive 구현의 한계를 이해하고, 분산 처리(map-reduce) 및 ANN(Approximate Nearest Neighbor) 인덱스 전략을 비교 검토해야 한다.

30억 개 벡터 쿼리하기

Tue, 10 Mar 2026 00:00:00 +0000

Jeff Dean이 제시한 30억 개 벡터 쿼리 문제를 직접 구현해 본 기술 실험 기록이다. 768차원 float32 벡터 30억 개와 1,000개 쿼리 벡터의 dot product를 계산하는 naive 구현에서 시작해 최적의 map-reduce 솔루션을 설계하는 과정을 다룬다.

💡 실무 포인트: 대규모 벡터 검색 시스템 구축 시 naive dot product 대신 map-reduce 분산 처리와 차원 축소를 조합한 단계적 최적화가 필수적이다.