본문 바로가기

문과생 DT 정복기/DT 공부하기

[AI] 멀티모달 인공지능 등장, 생성형 AI를 업무에 접목

반응형

안녕하세요. 한국경제에 소개된 인공지능 관련 기사를 살펴보겠습니다.


생성형 AI가 창출하는 다양한 가치, 업무에 잘 접목하려면…

한경 CFO 인사이트 이슈 분석
생성형 AI가 가져올 업무 혁신
생성형 AI 시장 확대
활용 가치 커지는 변혁기 도래
음성 인식 등 멀티모달 기능 활용
서비스 라인업 확대, 신뢰도 강화
고객층 다변화 도모 활발
AI 운영단계에서 리스크 관리
'AI 워크포스 정책' 수립 필요

 

챗GPT가 등장한 2022년 11월 이후, 올해 상반기는 생성형 AI(인공지능)가 보여준 놀라운 기술력과 확장성에 주목하며 앞으로 다가올 새로운 미래를 그려보는 시간이었다. 미국의 스타트업 오픈AI가 공개한 생성형 AI 파운데이션 모델 GPT는 3.5버전과 함께 공개된 챗GPT라는 혁신적인 서비스를 통해 화제를 불러왔다. 올해 상반기가 생성형 AI가 불러온 첫 변혁기였다면, 지금은 생성형 AI 시장이 확대되고 활용 가치가 다양해지는 두 번째 변혁기를 맞이했다.

오픈AI와 같이 AI 분야에 집중하는 스타트업이 놀라운 기술력을 선보이기도 했지만, 생성형 AI를 통한 혁신을 도모하는 기업 중 상당수는 빅테크 플랫폼 기업이다. 마이크로소프트(MS), 구글 등의 해외 빅테크 플랫폼 기업과 네이버, 카카오 등의 국내 빅테크 플랫폼 기업은 생성형 AI 기능을 자사의 서비스 모델과 융합해 서비스 혁신을 가져오기 위한 노력을 지속하고 있다.

 

빅테크 플랫폼 기업이 생성형 AI 모델을 활용하는 방식으로는 크게 두 가지가 눈에 띈다. 첫째, MS는 오픈AI와 메타(구 페이스북)가 공개한 우수한 기술력이 입증된 생성형 AI 모델을 활용해 자사 서비스에 생성형 AI 기능을 도입 중이다. 둘째, 최근 생성형 AI 모델 ‘하이퍼클로바X’를 공개한 네이버 사례와 같이 자체적으로 생성형 AI 모델을 개발해 자사 플랫폼에 특화한 형태로 모델을 운영하고 서비스를 개선하는 사례도 다수 목격되고 있다.

빅테크 플랫폼의 생성형 AI 활용 전략에는 ① 서비스 라인업 확대 ② 신뢰도 강화 ③ 고객층 다변화 도모 등의 트렌드가 나타나고 있다. 생성형 AI 기반 검색 서비스와 같은 텍스트 중심의 서비스에서 음성 기능이 도입되는 멀티모달 기능을 활용하는 서비스 라인업의 확대가 이뤄지고 있으며, 생성형 AI가 제공하는 정보 신뢰도를 강화하기 위한 모델의 성능 개선과 서비스 차원에서 표현력 강화를 위한 노력이 이뤄졌다. 아울러 프로그래밍, 광고 콘텐츠 생성, 맞춤형 건강관리 프로그램 운영 등 생성형 AI의 확장성을 기반으로 한 고객층 다변화를 도모하는 기업도 나타나고 있다.

빅테크 플랫폼 기업이 만드는 생성형 AI 서비스는 다양한 생태계의 참여자에게 새로운 가치를 제공할 수 있는 방향으로 확장 중이다. 새로운 생성형 AI 서비스로 얻을 수 있는 효과는 특히 ‘업무 환경 개선’을 꼽을 수 있다. 빅테크 플랫폼 기업들은 M(Microsoft) 365, Google Workplace 등의 워크플레이스 솔루션을 생성형 AI 기술과 접목한 솔루션을 개발 및 공개했다.

생성형 AI를 기반으로 업무 생산성을 확대시킬 수 있는 전략을 구축하기 위해서는 AI 기술 활용에 적합한 업무를 선별하고, 최적화된 생성형 AI를 테스트해 선택하기 위한 방안을 모색해야 한다.

AI 활용 전략과 운영을 위한 AI 거버넌스를 사전에 마련해 생성형 AI의 운영 단계에서 생길 수 있는 리스크를 관리할 수 있는 ‘AI 워크포스 정책(Workforce Policy)’ 수립을 고려해야 한다. 적절한 ‘AI 워크포스 정책’이 수립되면 빅테크 플랫폼이 보유한 주요 생성형 AI 모델 및 여러 비즈니스 앱을 기업 환경에 맞춰 업무 효율성을 극대화해야 한다. 우리 기업에 특화된 AI 아키텍처를 구축하는 것도 업무 생산성을 높이기 위해 중시해야 할 부분이다.

주목할 사례로 MS의 코파일럿을 들 수 있다. MS가 애저(Azure)를 기반으로 업무용 소프트웨어 MS 오피스 등에 오픈AI의 생성형 AI 모델을 접목한 코파일럿 서비스를 공개한 후, 코파일럿이 실제 업무환경에 어떻게 활용될지 이목이 집중되고 있다. 널리 활용되고 있는 MS Excel, PowerPoint, Word와 같은 업무 문서에 생성형 AI 기술을 접목해 여러 형태의 자료를 간편하게 분석 가능하다. 또한 다른 스타일로 변형된 콘텐츠로 재생산하는 기능 등을 활용해 다수의 업무 영역을 자동화하는 효과도 기대된다.

인공지능이 인간의 역량 강화를 지원하고 일자리에서 더 효율적으로 성과를 낼 수 있도록 하는 AI 기반 업무 혁신은 생성형 AI와 함께 이미 우리 눈앞에 다가왔다. 생성형 AI가 창출해내는 다양한 가치를 우리 기업의 업무 환경에서 효율적으로 적용해야 한다.

기업의 더 큰 미래 가치를 창출하기 위해 경영자가 취해야 할 핵심 고려 요소로 AI 기반 업무 혁신이 자리매김하게 된 것이다. 업무 환경을 면밀히 분석하고 적합한 생성형 AI 기술을 도입하기 위한 기업 전략이 더욱 중차대해졌다.

업무 환경의 새로운 혁신이 이뤄질 수 있도록 신기술이 가져오는 변화에 올라탈 고민이 절실히 필요한 시기다.

이준기 삼정KPMG 상무

 

생성형 AI가 창출하는 다양한 가치, 업무에 잘 접목하려면…

챗GPT가 등장한 2022년 11월 이후, 올해 상반기는 생성형 AI(인공지능)가 보여준 놀라운 기술력과 확장성에 주목하며 앞으로 다가올 새로운 미래를 그려보는 시간이었다. 미국의 스타트업 오픈AI가

v.daum.net


글만 알던 생성AI…영상 보고 감정 읽는 '멀티모달'로

챗GPT 출시 1년 만에
기술 트렌드 확 바뀌어
언어모델, 텍스트 위주로 학습
멀티모달은 사진·음성도 인식
X레이 보고 골절 부위 찾아내
자율주행차 등 활용 무궁무진
'GPT-4V' 공개한 오픈AI 선두
구글 이르면 내달 '제미니' 출시

대규모멀티모달모델(LMM)이 글로벌 인공지능(AI)산업의 게임 체인저로 주목받고 있다. 생성형 AI 챗GPT 열풍으로 대규모언어모델(LLM) 개발 경쟁이 본격화한 지 1년 만에 기술 트렌드에 변화가 생긴 것이다.


멀티모달은 텍스트, 이미지, 음성, 영상 등의 데이터로 훈련해 다양한 결과물을 내놓을 수 있는 모델이다. 최근 등장한 LMM은 더욱 복잡한 이미지 분석과 추론 능력을 갖췄다. AI업계에선 LMM이 LLM을 대신하는 용어로 자리 잡을 것이라는 전망이 나온다. 오픈AI와 구글 등이 LMM 개발에 속도를 내고 있어서다.

“표정 보고 감정 알아내”

15일(현지시간) AI업계에 따르면 오픈AI는 최근 보고서를 통해 이달 초 공개한 LMM ‘GPT-4V’의 최신 기능을 분석했다. V는 비전(vision)의 첫 글자다. 가장 큰 특징은 텍스트와 이미지 사이의 경계가 지워진 것이다. 이전의 GPT-3, 4에서 텍스트 프롬프트(명령어)를 사용하는 것처럼 쉽게 이미지로 상호 작용할 수 있다는 것이다.

예를 들어 김밥 만드는 사진을 무질서하게 제시한 뒤 순서대로 정렬하라고 명령하면 정확하게 숙제를 해결했다. 맥주와 물병 등이 놓인 테이블 사진과 메뉴판을 함께 제시하면 식당에 얼마를 내야 하는지도 계산했다. 엑스레이와 컴퓨터단층촬영(CT) 사진을 보고 골절 부위 등 질병을 진단할 수 있었고, 다양한 표정의 얼굴 사진을 보여주면 화남, 놀람, 실망 등의 감정을 묘사했다. 사진뿐만 아니라 그래프, 도형, 표, 사진 속에 등장한 언어까지도 인식해 분석했다. GPT-4V는 20개 언어를 감지할 수 있다고 보고서는 소개했다.

멀티모달 개념은 기존에도 있었다. 다만 텍스트보다 인식 과정이 복잡하고, 방대한 데이터로 훈련해야 해 완성도 높은 멀티모달모델이 나오기까진 상당한 시간이 필요할 것으로 예상됐다. 개발자들은 LLM을 기본으로 여기에 소프트웨어를 붙여 이미지 등의 정보를 이해하는 기존 구조를 버렸다. 대신 이미지 등 다양한 형태의 정보를 이해할 수 있는 LMM 코어를 새로 개발했다. 소프트웨어와 LLM을 병용할 때보다 인식률, 속도 등에서 상당한 개선이 이뤄질 수 있었던 배경이다. ‘멀티모달 LLM’이란 용어도 기존 모델과 구분하기 위해 ‘LMM’으로 대체했다.

“인간-컴퓨터 상호작용 고도화”

전문가들은 오픈AI의 GPT-4V가 LMM 부문에서 가장 앞섰다고 보고 있다. 텍스트 중심의 챗GPT에 이어 다음 단계에서도 오픈AI가 유리한 입지를 선점한 것이다. 다른 빅테크도 앞다퉈 멀티모달 기술 고도화에 나서고 있다. 메타가 지난달 말 ‘메타 커넥트 2023’에서 내놓은 ‘메타 AI’도 이미지 인식 및 생성 등 멀티모달 기능을 갖췄다.

마이크로소프트 연구진이 미국 위스콘신-매디슨대·컬럼비아대 연구진과 함께 개발한 ‘라바 1.5’도 상당히 우수한 LMM이라는 평가를 받는다. 라바 1.5는 깃허브에 오픈소스로 최근 공개됐다. 구글도 이르면 다음달 ‘제미니’를 공개할 예정이다. 구글의 방대한 유튜브 콘텐츠로 학습한 멀티모달 기능을 구현할 것으로 보인다. 업계 관계자는 “현재 멀티모달 AI는 이미지와 영상 생성 기능이 인식 능력에 비해 떨어진다”며 “이 문제를 빠르게 해결하는 기업이 LMM 시대에 리더십을 가져갈 수 있을 것”이라고 말했다.

생성형 AI의 멀티모달 기능이 고도화할수록 결과물에 대한 사실 여부를 가려내기 힘들 것이라는 지적도 나온다. 이미 AI 기술을 활용한 딥페이크, 영상 및 음성 조작이 현실화했다. 이스라엘과 하마스의 무력 충돌 이후 가짜뉴스가 각종 소셜미디어에 범람한 것도 이런 기술에 대한 활용도가 높아진 영향이란 분석이다.

실리콘밸리=최진석 특파원 iskra@hankyung.com

 

글만 알던 생성AI…영상 보고 감정 읽는 '멀티모달'로

대규모멀티모달모델(LMM)이 글로벌 인공지능(AI)산업의 게임 체인저로 주목받고 있다. 생성형 AI 챗GPT 열풍으로 대규모언어모델(LLM) 개발 경쟁이 본격화한 지 1년 만에 기술 트렌드에 변화가 생긴

v.daum.net

출처 : 한국경제

반응형