4차산업혁명연구소 뉴스레터 (2025-06-21)

관리자
2025년 6월 21일
5분 분량

최종 수정일: 2025년 6월 21일

오늘 뉴스레터의 목차

이재명 정부, 100조원 AI 투자 본격화… 하정우 수석 임명
한국형 ‘소버린 AI’ 개발 본격화… 언어·비전 중심 전략
엔비디아, 피지컬 AI 시장 50조 달러 잠재력 주목
피지컬 AI 시대의 핵심 기술, 비전 파운데이션 모델(VFM)이 여는 제조·물류·로봇 등에서의 비전 AI 활용 기회

주요 뉴스 요약

1. 이재명 정부, 100조원 AI 투자 본격화… 하정우 수석 임명

이재명 대통령은 네이버클라우드 AI 혁신센터장 하정우를 AI미래기획수석에 임명. 향후 5년간 100조 규모의 AI 투자를 총괄하는 컨트롤타워 역할을 맡게 됨.

2. 한국형 ‘소버린 AI’ 개발 본격화… 언어·비전 중심 전략

AI 3대 강국 진입을 목표로 한국 고유의 언어 및 산업 데이터 기반의 ‘소버린 AI’ 개발 추진.

3. 엔비디아, 피지컬 AI 시장 50조 달러 잠재력 주목

젠슨 황 CEO는 제조·물류·로봇 등 피지컬 AI가 50조 달러 규모의 시장 기회를 창출할 것이라 전망.

4. 피지컬 AI 시대의 핵심 기술, 비전 파운데이션 모델(VFM)이 만드는 제조·물류·로봇 등에서의 비전 AI 활용 기회

텍스트, 이미지, 행동을 모두 이해하고 실행하는 AI 기술로, 제조·로봇 등 물리적 환경과의 상호작용이 가능한 핵심 기술로 부상.

기존 AI의 한계를 극복하고 새로운 시각적 이해와 행동 실행 능력으로 피지컬 AI 시대의 핵심이 될 것.

비전 AI는 피지컬 AI의 핵심으로, 다양한 산업 현장에서 자동화 및 품질 향상을 이끌 수 있는 기반 기술로 주목.

Deep Dive -

비전 파운데이션 모델의 개요

비전 파운데이션 모델(Vision Foundation Model, VFM)의 개요

비전 파운데이션 모델(VFM)은 컴퓨터 비전 분야에서 다양한 작업을 통합적으로 처리할 수 있도록 설계된 대규모 사전 학습 AI 모델입니다. 이 모델은 이미지 분류, 객체 탐지, 세그멘테이션, 시각적 질의응답 등 여러 시각적 작업을 하나의 통합된 프레임워크에서 수행할 수 있습니다. 아래는 VFM의 주요 개념과 특징을 정리한 내용입니다.

1. 주요 개념

파운데이션 모델의 개념
- 파운데이션 모델은 2021년 스탠퍼드 연구진이 처음 정의한 개념으로, 대규모 데이터셋을 기반으로 사전 학습된 범용 AI 모델을 의미합니다. 이 모델은 다양한 작업과 도메인에 적용 가능하며, 전이 학습과 대규모 데이터 활용을 통해 높은 성능을 발휘합니다7 8 .
- 초기 연구와 발전 -초기에는 자연어 처리(NLP) 분야에서 GPT-3, BERT와 같은 언어 모델이 파운데이션 모델의 대표 사례로 주목받았습니다. 이후 컴퓨터 비전 분야로 확장되며, CLIP과 같은 모델이 등장해 텍스트와 이미지를 동시에 학습하는 새로운 가능성을 열었습니다1 10 .
- 컴퓨터 비전의 한계 극복 -기존 컴퓨터 비전 모델은 특정 작업에 특화된 방식으로 설계되어, 작업별로 별도의 모델을 훈련해야 했습니다. 이는 비용과 시간 소모가 크고, 새로운 작업에 대한 확장성이 부족하다는 한계를 가졌습니다2
- 통합적 접근의 필요성 -다양한 시각적 작업(예: 이미지 분류, 객체 탐지, 세그멘테이션)을 하나의 모델에서 처리할 수 있는 통합적 접근이 필요해졌습니다. 이는 모델 간의 학습 결과를 공유하고, 효율성을 극대화하기 위한 방향으로 발전했습니다2 6 .
- 제로샷 학습과 전이 학습 활용 -비전 파운데이션 모델은 제로샷 학습(Zero-Shot Learning)을 통해 학습하지 않은 새로운 작업에도 즉시 대응할 수 있는 능력을 갖추고, 전이 학습을 통해 적은 데이터로도 높은 성능을 달성할 수 있도록 설계되었습니다1 2 .
- 트랜스포머 아키텍처: NLP에서 성공을 거둔 트랜스포머 아키텍처가 컴퓨터 비전 분야로 도입되며, 비전 트랜스포머(ViT)와 같은 모델이 개발되었습니다. 이는 이미지 데이터를 벡터화하고, 이미지 내의 관계를 이해하는 데 중요한 역할을 했습니다6 .
- 대규모데이터와 자기지도 학습: 비전 파운데이션 모델은 대규모 비지도 학습 데이터를 활용하여 일반적인 시각적 패턴과 구조를 학습합니다. 이를 통해 다양한 도메인에서 높은 일반화 성능을 발휘할 수 있습니다6 8 .
- CLIP: OpenAI의 CLIP은 텍스트와 이미지를 동시에 학습하여 이미지 분류, 검색, 생성 등 다양한 작업을 수행할 수 있는 초기 비전 파운데이션 모델 중 하나입니다10 .
- SAM (Segment Anything Model): Meta AI의 SAM은 이미지와 비디오에서 객체를 분할하는 작업을 수행하며, 제로샷 학습을 통해 새로운 객체와 이미지에도 일반화할 수 있는 능력을 보여주었습니다5 .범용성: VFM은 특정 작업에 국한되지 않고, 다양한 시각적 작업을 처리할 수 있는 범용 AI 에이전트를 목표로 합니다. 이는 기존의 작업별 전문화된 모델과 달리, 하나의 모델로 여러 작업을 수행할 수 있도록 설계되었습니다1 7.
사전 학습과 전이 학습: 대규모 데이터셋으로 사전 학습된 후, 특정 작업에 맞게 미세 조정(Fine-Tuning)되거나 제로샷(Zero-Shot) 학습을 통해 새로운 작업에 적용됩니다. 이를 통해 적은 데이터로도 높은 성능을 달성할 수 있습니다1 2 .
프롬프트기반 상호작용: 자연어 프롬프트를 통해 모델과 상호작용하며, 새로운 개념이나 작업을 학습하지 않아도 즉시 대응할 수 있는 능력을 제공합니다1 4 .

2. 특징

다양한 작업 통합:
- VFM은 이미지 입력을 구조화된 출력으로 변환하는 공통 패턴을 사용하여 분류, 탐지, 세그멘테이션 등 다양한 작업을 하나의 아키텍처에서 처리합니다4 .
- 예를 들어, CLIP과 같은 모델은 텍스트와 이미지를 동시에 학습하여 이미지 분류 및 검색 작업을 수행할 수 있습니다5.
스케일링과 창발적 능력:
- 모델의 크기와 데이터 규모가 증가함에 따라 성능이 비선형적으로 향상되며, 새로운 능력이 창발적으로 나타납니다. 예를 들어, 제로샷 학습이나 생각의 사슬 기법(chain-of-thought reasoning)이 이러한 창발적 능력의 사례입니다1 2 .
다중 모달리티:
- VFM은 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 통합적으로 학습하여 멀티모달 이해와 생성 작업을 수행할 수 있습니다. 이는 시각적 신호와 언어적 신호 간의 상호작용을 강화합니다4 7
효율성과 확장성:
- 기존의 작업별 모델 대비 학습 시간과 비용을 절감하며, 적은 데이터로도 높은 성능을 발휘합니다. 또한, 여러 모델의 기능을 통합하여 효율성을 극대화하는 연구도 진행되고 있습니다5

3. 기술적 도전 과제

스케일링의 한계
- 비전 데이터의 고차원성과 복잡성으로 인해 모델 크기를 단순히 키우는 것만으로는 성능 향상이 제한적입니다. 효율적인 아키텍처 설계와 학습 방법의 혁신이 필요합니다4 .
데이터의 이질성
- 의료 영상, 위성 사진, 일상 사진 등 다양한 데이터의 특성을 효과적으로 처리하기 위한 기술적 접근이 요구됩니다4 .
윤리적 문제
- 데이터 편향성과 모델의 해석 가능성 부족은 여전히 해결해야 할 과제입니다2 4 .
산업 응용
- 제조, 물류, 안전 관제 등 다양한 산업 분야에서 VFM은 비용 절감과 효율성 향상을 실현하고 있습니다4 .
멀티모달 AI 에이전트
- VFM은 로봇 공학 및 가상 환경에서 시각적 이해와 행동을 결합한 멀티모달 AI 에이전트 개발에 활용됩니다3 7