![]()
목차
멀티모달 GEO란 무엇인가
GEO(Generative Engine Optimization)는 ChatGPT, Perplexity, Google AI Overviews, Gemini 같은 생성형 AI 검색엔진에서 콘텐츠가 인용되고 추천되도록 최적화하는 전략이다. 전통적인 SEO가 키워드 순위에 집중했다면, GEO는 AI가 답변을 생성할 때 어떤 콘텐츠를 참조 소스로 선택하느냐에 초점을 맞춘다.
멀티모달 GEO는 여기서 한 단계 더 나아간다. 텍스트만이 아니라 이미지, 영상, 오디오, 인포그래픽 등 다양한 형식의 콘텐츠를 AI 검색엔진이 인식하고 인용할 수 있도록 최적화하는 것이다. 2026년 현재 주요 AI 엔진들은 멀티모달 입력을 기본으로 처리하며, GPT-4o와 Gemini 2.0은 텍스트, 이미지, 음성을 동시에 이해하는 트랜스포머 아키텍처를 탑재하고 있다.
Devenup의 2026년 GEO 트렌드 분석에 따르면, 멀티모달 최적화는 "텍스트 전용에서 크로스포맷으로의 전환"을 핵심으로 하며, 트랜스크립트 추가, 대체 텍스트(alt text) 작성, ImageObject/VideoObject 스키마 적용이 필수 실행 항목으로 꼽힌다.
2026년 AI 검색 시장 핵심 데이터
멀티모달 GEO 전략을 수립하기 전에, 현재 AI 검색 시장의 규모와 동향을 정확히 파악해야 한다. 다음은 2025~2026년 공개된 주요 데이터다.
| 지표 | 수치 | 출처 |
|---|---|---|
| ChatGPT 주간 활성 사용자 | 8억 명 (2025년 10월) | TechCrunch |
| Perplexity 소스 인용률 | 97% | Otterly |
| Google AI Overviews 인용률 | 34% | Otterly |
| ChatGPT 인용률 | 16% | Otterly |
| GEO 최적화 콘텐츠 가시성 향상 | 최대 40% | Princeton University |
| LLM 인용의 상위 30% 텍스트 집중도 | 44.2% | Position Digital |
| ChatGPT 검색 쿼리 평균 단어 수 | 5.48단어 | Nectiv Digital |
이 데이터에서 주목할 점은 플랫폼별 인용 전략이 완전히 달라야 한다는 것이다. Perplexity는 소스 인용에 매우 적극적이므로 정확한 데이터와 명시적 출처 표기가 효과적이고, ChatGPT는 인용률이 16%에 불과하므로 콘텐츠 자체가 모델의 학습 데이터에 포함되는 것이 더 중요하다. Google AI Overviews는 기존 SEO 신호와 구조화 데이터를 함께 활용한다.
이미지 최적화 – AI가 시각 콘텐츠를 인식하는 방법
멀티모달 AI 엔진은 이미지를 "보는" 것이 아니라 이미지에 연결된 메타데이터를 읽는다. 아무리 훌륭한 인포그래픽을 만들어도 적절한 구조화 데이터 없이는 AI 검색에서 사라진다.
필수 이미지 최적화 요소
1. 서술적 alt 텍스트 작성
단순히 "그래프"가 아니라 "2026년 1분기 AI 검색엔진별 소스 인용률 비교 막대그래프"처럼 이미지가 담고 있는 정보를 구체적으로 서술해야 한다. AI 엔진은 alt 텍스트를 통해 이미지의 맥락을 파악하고, 관련 질문에 대한 답변을 구성할 때 해당 콘텐츠를 참조 대상으로 고려한다.
2. ImageObject 스키마 마크업
JSON-LD 형태로 ImageObject 스키마를 구현하면 AI 엔진이 이미지의 제목, 설명, 저작자, 라이선스 정보를 구조적으로 이해할 수 있다. 특히 Google AI Overviews는 구조화 데이터가 있는 이미지를 우선적으로 참조하는 경향이 강하다.
3. 파일명 최적화
"IMG_20260405.jpg" 대신 "geo-marketing-multimodal-optimization-strategy.jpg"처럼 콘텐츠를 설명하는 파일명을 사용한다. 파일명은 AI가 이미지를 인덱싱할 때 참고하는 추가 신호 중 하나다.
4. 캡션과 본문의 의미적 연결
이미지 바로 위 또는 아래에 위치한 텍스트는 AI가 이미지의 맥락을 판단하는 핵심 근거가 된다. 이미지를 삽입할 때 반드시 해당 이미지가 설명하는 내용을 본문에서 구체적으로 다루어야 한다.
영상과 오디오 콘텐츠의 GEO 전략
2026년 현재 YouTube 영상, 팟캐스트, 웨비나 녹화본 등 비텍스트 콘텐츠의 양은 폭발적으로 증가했다. 문제는 대부분의 비텍스트 콘텐츠가 AI 검색에서 완전히 무시되고 있다는 점이다. AI 엔진이 영상을 직접 시청하거나 오디오를 직접 청취하는 것이 아니라, 텍스트로 변환된 부가 정보를 기반으로 콘텐츠를 평가하기 때문이다.
영상 콘텐츠 GEO 최적화 4단계
1단계: 전체 트랜스크립트 제공
영상의 전체 대본 또는 자동 생성된 자막을 텍스트로 변환하여 페이지에 포함시킨다. 이때 단순 나열이 아니라 의미 단위로 구분된 섹션별 트랜스크립트가 효과적이다. AI 엔진은 트랜스크립트의 특정 구간을 인용할 수 있으며, 자연어 질문과 매칭되는 구간이 있을 때 해당 콘텐츠의 가시성이 크게 높아진다.
2단계: VideoObject 스키마 구현
name, description, thumbnailUrl, uploadDate, duration, contentUrl 등의 속성을 JSON-LD로 마크업한다. Google AI Overviews는 VideoObject 스키마가 있는 페이지를 영상 관련 질문에 대한 답변 소스로 적극 활용한다.
3단계: 타임스탬프 기반 챕터 구성
영상을 주제별 챕터로 나누고 각 챕터에 명확한 제목과 시작 시간을 부여한다. 이는 AI가 영상의 구조를 이해하고 특정 질문에 가장 관련성 높은 구간을 식별하는 데 직접적으로 도움을 준다.
4단계: 핵심 요약 텍스트 병행
영상의 핵심 내용을 300~500자 분량의 독립적인 텍스트 요약으로 작성하여 페이지 상단에 배치한다. Princeton University의 연구에서 확인된 "LLM 인용의 44.2%가 상위 30% 텍스트에 집중된다"는 데이터를 고려하면, 페이지 초반에 핵심 정보를 배치하는 것이 AI 인용 확률을 높이는 가장 효과적인 방법이다.
오디오(팟캐스트) 콘텐츠 최적화
팟캐스트 에피소드는 트랜스크립트 없이는 AI 검색에서 존재하지 않는 것과 같다. Whisper API나 Clova Speech 같은 음성 인식 도구를 활용해 전체 트랜스크립트를 생성하고, 에피소드별 쇼노트 페이지를 만들어 주요 논점, 게스트 정보, 참고 자료 링크를 구조적으로 정리해야 한다. PodcastEpisode 스키마를 적용하면 AI 엔진이 에피소드 메타데이터를 정확히 파악할 수 있다.
구조화 데이터와 스키마 마크업 실전
멀티모달 GEO에서 구조화 데이터는 선택이 아니라 기본 인프라다. AI 엔진이 콘텐츠의 유형, 저작자, 신뢰도를 판단하는 핵심 신호가 바로 스키마 마크업이기 때문이다.
GEO에 효과적인 핵심 스키마 유형
Article 스키마 – 블로그 포스트와 뉴스 기사에 적용. author, datePublished, dateModified, publisher 정보를 반드시 포함해야 한다. AI 엔진은 최신성과 저자 권위를 이 데이터로 판단한다.
FAQPage 스키마 – 자주 묻는 질문 섹션에 적용. AI 엔진이 질문-답변 쌍을 직접 인용하기 가장 쉬운 형태의 구조화 데이터다. Devenup의 분석에서도 FAQ 콘텐츠와 명확한 언어 사용이 "동적 신뢰도 구축"의 핵심으로 꼽혔다.
HowTo 스키마 – 단계별 가이드에 적용. 각 단계의 name, text, image를 포함하면 AI가 프로세스를 구조적으로 이해하고 답변에 활용할 수 있다.
Organization + sameAs – 브랜드의 공식 웹사이트, SNS 계정, 위키피디아 페이지 등을 sameAs 속성으로 연결한다. 이는 AI 엔진이 브랜드 엔티티를 정확히 식별하고 권위를 평가하는 데 결정적인 역할을 한다.
eMarketer의 2026년 보고서는 GEO를 SEO와 별도의 채널로 관리해야 한다고 강조하면서, AI를 브랜딩 채널로 취급하고 빠르게 적응하는 것이 성공의 열쇠라고 분석했다. 구조화 데이터는 이 "별도 채널 관리"의 기술적 토대다.
엔티티 권위 구축으로 AI 인용 확보하기
2026년 GEO의 핵심 트렌드 중 하나는 키워드 순위에서 엔티티 권위로의 전환이다. AI 검색엔진은 특정 주제에 대해 "누가 가장 신뢰할 수 있는 정보원인가"를 판단하는 데 엔티티 그래프를 활용한다.
엔티티 권위를 구축하는 핵심 전략은 다음과 같다.
일관된 브랜드 정보 유지
웹사이트, SNS, 디렉토리, 언론 기사 등 모든 온라인 채널에서 브랜드명, 설명, 연락처 정보가 일치해야 한다. AI 엔진은 여러 소스에서 동일한 정보를 확인할 때 해당 엔티티의 신뢰도를 높게 평가한다.
외부 인용과 멘션 확보
권위 있는 외부 사이트에서 브랜드가 언급되고 인용될수록 AI 엔진의 엔티티 그래프에서 더 높은 가중치를 받는다. 업계 매체 기고, 연구 보고서 참여, 전문가 인터뷰 등이 효과적이다.
위키피디아와 위키데이터 등재
AI 엔진이 엔티티를 식별하는 가장 기본적인 참조 소스는 위키피디아와 위키데이터다. 기업이나 인물의 위키피디아 페이지가 존재하면 AI 엔진이 해당 엔티티를 "알려진 존재"로 인식할 확률이 크게 높아진다.
도메인 전문성 집중
하나의 도메인에서 다양한 주제를 산발적으로 다루는 것보다, 특정 분야에 깊이 있는 콘텐츠를 집중적으로 생산하는 것이 엔티티 권위 구축에 훨씬 효과적이다. AI 엔진은 "이 사이트는 GEO 마케팅에 대해 가장 포괄적인 정보를 제공한다"는 판단을 내릴 때 콘텐츠의 깊이와 일관성을 핵심 기준으로 삼는다.
멀티모달 GEO 실무 체크리스트
- 모든 이미지에 구체적이고 서술적인 alt 텍스트를 작성했는가
- ImageObject, VideoObject 등 멀티미디어 스키마 마크업을 적용했는가
- 영상 콘텐츠에 전체 트랜스크립트와 타임스탬프 챕터를 제공하고 있는가
- 팟캐스트 에피소드별 쇼노트 페이지에 트랜스크립트를 포함했는가
- Article, FAQPage, HowTo 등 콘텐츠 유형에 맞는 JSON-LD 스키마를 구현했는가
- Organization 스키마에 sameAs 속성으로 모든 공식 채널을 연결했는가
- 페이지 상단 30% 영역에 핵심 정보를 배치하여 AI 인용 확률을 높였는가
- 이미지 파일명을 콘텐츠를 설명하는 키워드 기반으로 변경했는가
- 각 섹션이 독립적으로 완결된 답변이 될 수 있도록 자기 완결적으로 작성했는가
- 콘텐츠 발행일과 수정일을 명시하여 최신성 신호를 제공하고 있는가
자주 묻는 질문 (Q&A)
Q. 멀티모달 GEO와 기존 SEO의 가장 큰 차이점은 무엇인가?
SEO는 검색 결과 페이지에서의 링크 순위를 목표로 하지만, 멀티모달 GEO는 AI가 생성하는 답변 안에서 콘텐츠가 인용되고 참조되는 것을 목표로 한다. 특히 멀티모달 GEO는 텍스트뿐 아니라 이미지, 영상, 오디오 콘텐츠까지 AI가 인식할 수 있도록 구조화하는 것이 핵심이다.
Q. ChatGPT와 Perplexity 중 어디에 먼저 최적화해야 하는가?
비즈니스 목적에 따라 다르다. Perplexity는 소스 인용률이 97%로 매우 높아 브랜드 노출과 트래픽 유입에 즉각적인 효과가 있다. ChatGPT는 인용률이 16%이지만 8억 명의 주간 사용자를 보유하고 있어 브랜드 인지도 측면에서 파급력이 크다. 리소스가 제한적이라면 Perplexity 최적화부터 시작하는 것이 ROI가 높다.
Q. 스키마 마크업을 구현할 기술 역량이 없는 소규모 사업자는 어떻게 해야 하는가?
WordPress를 사용한다면 Yoast SEO나 Rank Math 플러그인이 Article, FAQPage 등 기본 스키마를 자동으로 생성해준다. 수동 구현이 어렵더라도 최소한 모든 이미지에 alt 텍스트를 작성하고, 콘텐츠를 질문-답변 형식으로 구성하는 것만으로도 AI 검색 가시성을 상당히 개선할 수 있다.
Q. 영상 트랜스크립트를 페이지에 전부 넣으면 너무 길어지지 않는가?
접을 수 있는(collapsible) 형태로 구현하면 사용자 경험을 해치지 않으면서 AI 엔진에게는 전체 텍스트를 제공할 수 있다. HTML의 details/summary 태그를 활용하면 별도의 JavaScript 없이도 간단하게 구현 가능하다. AI 크롤러는 접혀 있는 콘텐츠도 동일하게 읽는다.
Q. GEO 최적화 효과를 측정하는 방법은 무엇인가?
Otterly, Am I Visible on AI 같은 전문 도구를 사용하면 ChatGPT, Perplexity, Google AI Overviews 등에서 브랜드가 인용되는 빈도와 맥락을 추적할 수 있다. "인용 점유율(citation share)"이 GEO의 핵심 KPI이며, 전통적인 SEO의 "검색 순위"에 해당하는 지표다.
Q. 로컬 비즈니스도 멀티모달 GEO가 필요한가?
매우 필요하다. 2026년 GEO 트렌드 중 하나가 "로컬 및 개인화된 AI 답변"이다. AI 엔진이 사용자의 위치와 맥락에 따라 다른 답변을 생성하는 방향으로 진화하고 있으며, LocalBusiness 스키마와 실제 위치 기반 콘텐츠가 있는 비즈니스가 지역 관련 AI 답변에서 우선적으로 추천된다.
미래이음연구소 GEO 마케팅 교육
이신우 소장이 이끄는 미래이음연구소에서 AI 검색 시대에 맞는 GEO 마케팅 실전 교육을 진행합니다.
강의 문의: 010-3343-4000 | lab.duonedu.net