728x90

 

챗지피티 유료 사용자라면 누구든지 자신의 목적에 맞는 GPT를 만들 수 있다.

나에게 꼭 맞는 GPT를 뚝딱 만들어서 사용할 수있는데. 이를 위해서는 plus이상의 멤버십이 필요하다. 오늘은 간단한 instruction을 이용하여 인스타그램 맛집 파인더 gpt를 만들어 보려한다.

 

 

Explore GPTs

Discover and create custom versions of ChatGPT that combine instructions, extra knowledge, and any combination of skills.

chat.openai.com

 


시작하기

Explore GPTs메뉴로 들어가면, 오른쪽 상단에 My GPTs 혹은 Create를 누르면 나만의 GPT를 만들 수 있다.

 

 
GPT 만들기 메뉴

 

내 경우에는 미리 만들어둔 GPT가 있었기 때문에 My GPTs메뉴로 들어갔다. 여기에서 Create a GPT를 눌러 새로운 GPT를 만들 수 있고, 연필 모양 아이콘을 눌러 기존 GPT를 수정할 수도 있다.

 
 
 

GPT 빌드하기

 

 

처음 GPT를 만들 때는 위에서 보이는 것처럼 대화형으로 작성하면 편하다. 커스텀 GPT의 이름, 설명, 로고 등은 GPT와의 대화를 통해서 채워주면 된다. 오른쪽에 보이는 화면은 실제로 어떻게 작동/답변하는지 확인할 수 있는 프리뷰 GPT이다. 왼쪽 화면에서 GPT를 빌드하고, 오른쪽 화면에서 검증하면 되는 것이다.

 

실질적으로는 대화 형식 만으로 내가 원하는 내용을 다 잡아내기는 어렵다. 그렇기 때문에 왼쪽 화면의 Configure버튼을 클릭해서 Instruction란에 직접 채워주는 것이 좋다. 아래는 대화 방식으로 작성한 내용을 정리한 instruction이다. 다음 포스트에서는 어떤 식으로 instruction을 정리해야 하는지 더 자세히 설명해보려 한다.


사용된 Instruction

  • 이 GPT는 샌프란시스코 시내에 위치한 인스타그램에서 인기 있는 맛집을 찾는 데 도움을 제공합니다.
  • 사용자가 '랜덤 돌리기' 버튼을 클릭하면, 트렌디하고 인기 있는 새로운 음식점을 랜덤으로 추천합니다.
  • 사용자가 맛집을 추천해 달라고 요청할 때, 시간대에 따라 다른 유형의 음식을 추천합니다:
  • 오전 7시부터 11시까지는 아침 식사(간단한 샌드위치, 커피, 반미 등), 오전 11시부터 오후 4시까지는 브런치와 점심 메뉴, 오후 4시부터 오후 10시까지는 저녁 메뉴. 추가로, 한국어로 포스팅된 샌프란시스코의 맛집 포스트도 추천합니다.
  • 사용자가 특정 음식 종류를 언급하지 않았다면, 해당 지역에서 가장 유명한 맛집을 추천합니다. 음식 종류, 예산, 그리고 사용자가 질문하는 시간에 오픈한 음식점만을 추천합니다.
  • 사용자가 예산을 언급하지 않았다면, 예산에 대해 다시 물어보아 예산 정보를 포함하여 추천을 제공합니다. 각 추천 맛집의 운영시간도 제공하여 사용자가 방문 계획을 세울 수 있도록 합니다.
  • 추천 시 유효한 음식점의 공식 인스타그램 링크를 제공합니다. 유효하지 않은 링크의 경우, 그 음식점의 공식 웹사이트 링크도 제공합니다.
  • 매 추천에서는 음식점의 위치 📍, 운영 시간 🕒, 인스타그램 링크 🔗, 인기 있는 메뉴 및 예산 정보를 포함합니다.
  • 특히, 20대에서 30대가 주로 포스팅하는 트렌디한 음식점을 중점으로 추천하며, 포스트가 100개 이상 태그된 장소와 영상 포스트도 포함된 음식점을 추천합니다.
  • 친근하고 인플루언서 스타일의 말투로 응답하며, 적절한 이모티콘을 사용하여 표현을 더욱 풍부하게 합니다. 한국어로 응답하여 문화적으로 관련성 있는 상호 작용을 보장합니다.

사용 예시

 

말투와 이모티콘 사용 확인

 

인스트럭션에 설명한 것 처럼 친근한 인플루언서 말투로 대답뿐만 아니라 적절한 이모티콘을 섞어 대답했다.

 
 

 

 
 

예산에 대해 대답하지 않자, 재차 예산을 물어봐 줬다.

 
 
 

 

음식점 운영 시간, 인스타그램 링크, 예산, 추천 음식을 포함해 줬다. 위에 나와있는 롤로 인스타그램 링크를 클릭하니 아래와 같이 잘 연결되어 나왔다. 샌프란시스코 현지인 피셜 롤로는 나름 힙한 레스토랑이기 때문에 해당 GPT는 꽤 성공적으로 작동했다고 결론을 내릴 수있었다.
 

 

내가 만든 GPT는 아래 링크로 접속 가능하다. 궁금하다면 한번쯤 사용해보고 답글을 남겨주길 바란다.

 

ChatGPT - 인스타맛집ver.SF

인스타그램에서 핫한 샌프란시스코 맛집 파인더📍

chat.openai.com

 

728x90
728x90

 

쇼츠를 위주로한 영상을 제작할때 요긴하게 쓸 수있는 서비스를 추천하려 한다.

 

Sora라던가 Runway같은 앱처럼 생성형 이미지나 영상은 아니지만. 원하는 주제를 입력하면 그에 상응하는 영상을 함께 조합해서 영상 제작을 해준다.

텍스트를 추가하거나 나레이팅또한 더할 수있고, 이미지 혹은 영상만 넣어달라는 요청도 가능하다.

 

다만 원하는 이미지에 관련된 stock footage가 제공되는 것이기때문에 있는 영상에서만 비디오 추출이 가능하다.

 

적용하기

 

아래 링크를 통해 invideo ai를 이용하는 방법이 있고, chatGPT를 활용한 Text to Video Maker를 사용해서 들어 갈 수도 있다.

 

 

Turn ideas into videos | AI video creator | invideo AI

Make videos easily by giving a prompt to invideo AI. Ideal for content creators, YouTubers and marketers, invideo AI offers a seamless way to turn your ideas into publish-ready videos with AI.

ai.invideo.io

 

내가 제시한 내용은

 

Playful corgi running on the beach.

 

 

원래는 코기가 산책을 하다가 카메라를 들고 도망치는 영상을 생각하고 글을 작성했고, 그 결과 아래처럼 텍스트를 작성할 수있었다.


 

[0:00-0:20] (Voiceover with cheerful background music)
"Join in the joy as we follow a playful corgi on a sunny beach day!"

[Scene: Camera held by the owner, showing the corgi running playfully along the water's edge, chasing and retreating from the waves.]

[0:21-0:30] (Voiceover continues)
"Every step full of excitement, every splash a new adventure!"

[Scene: Suddenly, the camera slips from the owner's hand and falls to the sandy beach, pointing towards the sea.]

[0:31-0:45] (Voiceover, amused tone)
"Oops! Our little adventurer sees an opportunity!"

[Scene: The camera captures the corgi noticing the fallen camera, turning towards it, and sprinting excitedly.]

[0:46-0:59] (Voiceover, playful and engaging)
"And off it goes! Witness the world from a corgi's-eye view!"

[Scene: The corgi picks up the camera gently by the strap and runs, the camera swinging to capture the beach landscape, the running paws, and the trailing owner calling playfully.]

[1:00] (Voiceover concludes)
"Stay playful, stay curious, and keep chasing new perspectives!"


위내용을 그대로 비디오 작성기에 넣었지만, 원하는 모습대로 나오는데 한계가 있다 느꼈다. 

 

아무래도 스톡 푸티지로 원하는 영상을 만드는데에는 어려울 것 같아 최대한 괜찮은 영상을 뽑기 위해 아래 내용을 추가 작성했다.

 

자막을 없애주세요. 

Get rid of the subtitles/texts.

 

코기를 중앙에 위치하게 해주세요.

Center corgi, keep it in the frame.

 

이미지는 제외하고 영상만 넣어주세요.

Only keep videos, remove still images.

 


이렇게 만들어진 영상은 아래와 같다.

 

728x90
728x90

 

AI를 이용한 검색의 증가. 구글과 네이버, 다음 등 검색포털을 이용한 서치 엔진 다음으로 AI를 이용한 검색 업계에 대한 주목이 높아지고 있다. 구글 서치엔진을 이용해 질문에 대한 답변이 될만한 링크를 받는 것보다 ChatGPT, Google의 제미나이, 마이크로소프트의 코 파일럿 등을 이용하여 더 직접적인 답변을 찾는 빈도가 급증하고 있고, Perplexity나 You.com 같은 기업들은 차세대 검색 제품으로 자리매김하고 있다.

 

 

AI 검색 제품의 한계

 

실용성만을 따졌을 때는 인공지능을 이용한 검색이 더 빠르고 좋은 결과를 낼 수 있지만. 직접적 답변을 요하지 않는 경우가 요컨대 많이 있다.

 

예를 들면 어떤 웹사이트에 접속하기 위해 검색을 한다든지(내비게이션 쿼리), 실시간 정보에 대해 검색한다면. 최신 정보에 대해 인공지능을 신뢰하기 어려운 경우가 많다. 영구적인 정보다 일반화된 정보, 지식(탐색 쿼리)에 대해서는 인공지능 검색이 좋은 결과를 낼 수 있지만. 단일 답변이 아닌 '학습 프로세스'의 일환으로 검색을 이용하는 경우가 많기 때문에 현재까지는 웹 검색 운영체제가 견고하다는 것이다.

요약

  1. 인공지능의 발전에도 불구하고 구글, 네이버 같은 전통적 서치엔진은 속도와 정확도에서 뛰어나다.
  2. 인공지능 검색엔진은 전통적인 서치엔진에 비해 내비게이션 쿼리에서 고충을 겪고 있다.
  3. 탐색 쿼리에 있어서 인공지능은 큰 잠재력을 보여준다.

*쿼리 Query - 정보를 얻거나 검색하기 위해 컴퓨터나 인터넷 검색 엔진에게 제공하는 질문이나 검색어.

예시) 사용자가 인터넷에서 원하는 정보를 찾기 위해 입력하는 검색어나 질문.

*내비게이션 쿼리 - 사용자가 특정 웹사이트나 서비스로 이동하기 위해 검색 엔진에게 입력한 검색어

*탐색 쿼리 - 사용자가 특정 주제나 정보에 대해 자세히 알고 싶거나, 이에 대한 학습과정을 시작하기 위해 검색 엔진에 입력하는 질문 또는 검색어.

예시) 세계지도, 건축양식과 같은 질문들

728x90
728x90

Gemini가 다른 대화형 AI보다 월등하다고 생각하는 부분은 Gemini의 답변은

유튜브, 구글, 구글 플라이트, 구글맵, 구글 스위트 등 함께 응용할 수 있다는 점이다.

 

여행 계획 짜기 같이 항공편, 교통편, 유명한 관광지 등을 찾는 데에는

Gemini만큼 적용하기 쉬운 경우는 없다 생각한다.

 

여행 스케줄 짜기

 

오늘은 Gemini AI적용편으로 샌프란시스코 여행 스케줄을 짜보면서 Gemini가 ChatGPT보다 좋은점 혹은 아직은 유의해야할점을 알아볼 생각이다.

 

설정 값

  • 4/18~4/21일 뉴욕에서 샌프란시스코
  • 하루 숙박비 Budget $200
  • 텐더로인 지역처럼 위험한 곳은 피할 것
  • 일정 내에 유명한 관광지 중심의 여행 스케줄

 

 

Google Flight를 이용해서 직항에 저렴한 순으로 배열해 주었다.

 

 

SFO공항에 도착해서 다운타운으로 이동하는 법을 가격과 추천 방법을 표로 정리해 달라 부탁해 봤다.

 

가격대를 살펴보니 차량호출 서비스- 우버, 리프트 등을 이용해서 움직이는 게 가장 합리적인 방법 같아 보이지만. 대중교통을 이용하려 한다고 다시 질문을 해봤다.

 

 

Muni를 이용하는 방법, 구매 방법과 가격, 유효 시간을 확인 가능했지만.

 

SFO에서 다운타운으로 나갈 때에는 뮤니가 아닌 Bart를 이용해야 하는데

이점을 빠뜨리고 '대중교통'과 '뮤니'만 연관 지어 설명하는 점을 발견했다.


Gemini에서의 질문과 답변은

대화를 이어서 하고 있다기 보다는

 

질문 A

답변 A

 

질문 A+B

답변 B

 

처럼 이전의 히스토리가 제대로 반영되지 않은 것 같았다.

 


또 Muni가 모바일 앱으로 나왔다는 것과 바트와 뮤니 둘 다 이용할 수 있는 클리퍼 카드를 언급하지 않았다는 점에 있어서 아직은 100% 믿을 수없다는 걸 다시 한번 생각하게 되었다.

 

Gemini를 대할 때는 계속해서 상기시키면서 대화를 해야 한다는 점을 깨닫고

이어서 숙소 추천 관련 질문을 했다.

 

 

도표화했을 때 이 표를 구글 시트로 불러와 바로 편집할 수 있는 점이 Gemini의 편의성중 하나라고 생각할 수 있는데.

챗지피티와는 다르게 어떤 예시를 주지 않았음에도 이 정도의 표를 정리할 수 있다는 점에 놀랐었다.

 

 

답변이 모든 여행지를 커버하고 있는지 확인차 내용을 아래에 나열해 봤다.


 

알겠습니다. 홀리데이 인 샌프란시스코 - 골든 게이트웨이에서 묵으시면서 샌프란시스코의 유명 관광지를 구경할 수 있는 여행 일정을 짜 보겠습니다.

1일 차

  • 오전: 숙소 체크인 후, 샌프란시스코의 상징인 금문교를 방문합니다. 금문교는 케이블카를 타고 올라가면 더욱 멋진 모습을 감상할 수 있습니다.
  • 오후: 금문교에서 도보로 이동 가능한 알카트라즈를 방문합니다. 알카트라즈는 미국에서 가장 유명한 감옥으로, 현재는 박물관으로 운영되고 있습니다.
  • 저녁: 샌프란시스코의 대표적인 음식인 크림 파스타를 맛봅니다.

2일 차

  • 오전: 피어 39를 방문합니다. 피어 39는 샌프란시스코의 대표적인 관광지 중 하나로, 다양한 상점과 레스토랑, 관광 명소가 모여 있습니다.
  • 오후: 롬바드 스트리트를 방문합니다. 롬바드 스트리트는 세계에서 가장 구불구불한 길로 유명합니다.
  • 저녁: 샌프란시스코의 대표적인 음식인 칠리 크랩을 맛봅니다.

3일 차

  • 오전: 차이나타운을 방문합니다. 차이나타운은 북미에서 가장 오래된 차이나타운으로, 다양한 중국 음식과 문화를 체험할 수 있습니다.
  • 오후: 유니언 스퀘어를 방문합니다. 유니언 스퀘어는 샌프란시스코의 중심부로, 다양한 상점과 레스토랑, 문화 시설이 모여 있습니다.
  • 저녁: 샌프란시스코의 대표적인 음식인 샌프란시스코 클램 차우더를 맛봅니다.

이 일정은 샌프란시스코의 대표적인 관광지를 모두 방문할 수 있도록 구성했습니다. 물론, 개인의 취향과 관심사에 따라 일정을 조정할 수 있습니다.

티켓 가격

  • 금문교: 무료
  • 알카트라즈: 성인 39달러, 어린이 25달러
  • 피어 39: 무료
  • 롬바드 스트리트: 무료
  • 차이나타운: 무료
  • 유니언 스퀘어: 무료

위와 같이 한눈에 볼 수 있게끔 표로 정리해 달라 부탁했고, 결과적으로는 샌프란시스코에 꼭 가봐야 하는 여행지와 티켓 가격을 포함해서 잘 짜줬다.

 

 

 

챗지피티에서는 이 정도의 퀄리티로 여행계획이 잡히지는 않았는데.

무료버전에 있어서는 제미나이가 ChatGPT보다 활용도가 좋았던 것 같다.

 

여러 구글 앱의 콜라보레이션을 한번에 활용할 수있는 좋은 예시였던 것같다.

 

 

 


관련 추천 글

 

generative AI 구글의 Gemini

ChatGPT의 대화형 인공지능의 장점과 MidJourney의 이미지 generative AI를 동시에 무료로 체험해 보기 좋은 Gemini! Google에서 출시한 Gemini는 ChatGPT가 유료 버전부터 DallE라는 이미지 생성형 서비스를 제공

travel-sanfrancisco.tistory.com

 

728x90
728x90

 

AI 영상화 선두주자 Runway

 

Runway AI, Inc. (RunwayML)은 generative AI 판에서도 현재 영상으로 가장 주도하고 있는 앱 중 하나이다.

 

주로 이미지에서 영상으로 텍스트에서 영상으로 바꿔주는 콘텐츠 생성 모델과 제품을 중점적으로 하고 있으며. 상업용으로 적용할 수 있는 텍스트에서 비디오를 생성하는 최초의 AI 모델 Gen-1과 Gen-2를 개발했고, 유명한 이미지 생성 AI 시스템 Stable Diffusion과 협업하기도 했다.

 

현재 무료로 사용 가능하며, 생성 가능한 개수에 제한이 있기 때문에 더 많은 모델을 트레이닝하고 싶다면 유료 멤버십 전환을 해야 한다. 하지만 처음 시작하는 이들에게는 무료로도 충분히 궁금한 점을 채울 수 있기 때문에 무조건 무료 멤버십으로 시작하는 걸 추천한다.

 

 

 

 

 

 

런웨이 웹사이트는 아래에

 

 

Runway - Advancing creativity with artificial intelligence.

Runway is an applied AI research company shaping the next era of art, entertainment and human creativity.

runwayml.com

 

 

런웨이를 사용한 영화, 뮤직 비디오와 티브이 쇼들이 여럿 나와있으며 오늘은 이미지에서 영상으로, 영상을 스타일라이즈 된 영상으로 적용해 본 예시를 보여주고자 한다.

 

 

 

Expnad Image, Erase and Replace, Backdrop Remix, greenscreen replacement, motion tracking, inpaint 등 다른 서비스도 제공하고 있지만 Adobe프로그램을 활용해서도 가능하고, 아직까지는 이렇다 할 정도로 적용하기는 어렵기 때문에. 현실적으로 굳이 런웨이가 아니더라도 이에 최적화된 다른 프로그램을 이용하는 것이 낫다.

 

Img to Video

이미지를 영상으로 변환해주는 것의 가장 큰 장점은 이미지를 영상처럼 생동감 있게 바꿀 수 있다는 점에 있다. 

 

예컨대 배경의 나무를 움직인다거나 카메라의 모션을 주는 등 2d를 3d로 바꾸는 게 굉장히 용이한데.

 

아직까지는 여러 가지 이미지 날림과 뭉개짐이 있기 때문에

상업적 이용보다는 개인이 Visualization 등을 할 때 이용하기 좋은 것 같다.

 

 

image to video 선택해서 영상 제작

 

사용한 이미지는 모뉴멘트 벨리에서 찍은 사진인데. 첫 프레임을 위 사진으로 레퍼런스 잡아 적용할 수 있다.

 

모션 브러시를 통해서 구간을 나누고, 어떤 것이 움직여야 하는지 브러시를 통해서 구분시킬 수 있고, 카메라를 이용해서 어떤 방식의 모션을 줄지 지시를 내릴 수 있다. 

 

 

이렇게 해서 만들어진 영상이 바로 위와 같다. 생각보다 괜찮은 결과물이 나와서 좀 놀랐다.

 

 

 

 


 

Gen-1 Video to Video

 

기존 영상을 통해 다른 스타일의 영상을 만들어 내는 서비스로

기본 영상의 길이와 상관없이 초반 4초만 영상으로 바꿀 수 있다.

 

이때 주어진 트레이닝이 완료된 모델의 스타일로 바꿀 수도 있고, 텍스트 프롬프트를 통해서 스타일을 제시할 수 있다.

 

내 경우에는 런웨이에서 고를 수 있는 모델스타일로 한 개, 텍스트 프롬프트를 사용해서 스타일라이즈를 해봤는데. 두 경우 다 꽤나 괜찮은 영상이 나왔다.

 

 

영상을 결정하고 오른쪽의 Preview Style을 누르면 영상에 대한 미리 보기가 가능하고, 만약 마음에 들지 않는다면 여러 번 텍스트 프롬프트를 바꾸거나 미리 있는 스타일을 선택함으로써 새로운 스타일의 영상을 만들 수 있다. 

 

영상 제작에 있어서 시간이 걸리기 때문에 미리 보기를 적극 사용하는 게 좋다.

 

이 속도를 빠르게 하기위해서는 더 높은 플랜을 구매해야 하는데

무료 버전이 있기 때문에 미리 사용해 본 뒤 유료 멤버십으로 전환하는 게 좋다.

 

 

Style Strength는 영상을 어느 정도 스타일라이징 할 것인지에 관련된 슬라이더인데.

영상의 스타일이 어느 정도 반영될 것인가는 조정 가능하지만 웬만하면 50%에 세팅하는 것이 제일 좋다. 

 

 

오리지널 영상을 스타일라이징한 스크린 캡처

 

 

완성된 영상

오리지널 영상
스타일라이즈 영상

 

더보기

The Leading Innovator in AI Video Generation: Runway

 

Runway AI, Inc. (known as RunwayML) stands out as one of the foremost apps in the realm of generative AI, particularly excelling in video production. It primarily focuses on content creation models and products that transform images to videos and text to videos. Notably, it has developed the first AI models for commercial use that generate videos from text, known as Gen-1 and Gen-2. Additionally, Runway has collaborated with the renowned image generation AI system, Stable Diffusion.

 

Several movies, music videos, and TV shows have utilized Runway's technology, demonstrating its versatility. Today, I'd like to showcase an example of transitioning from images to videos and stylizing the resulting video. While Runway offers various other services like Expand Image, Erase and Replace, Backdrop Remix, greenscreen replacement, motion tracking, and inpaint, it remains the optimal choice due to its advanced features not easily replicated by Adobe programs or others.

 

The image-to-video conversion feature offers significant advantages, allowing images to come to life like videos. For example, it facilitates easy transitions from 2D to 3D, such as animating background elements or adding camera motion. Despite some imperfections like image distortions, it's ideal for personal visualizations rather than commercial use.

 

In this demonstration, I've selected Monument Valley images for video creation, using the first frame as a reference. By using motion brushes to delineate sections and instructing which elements should move via the camera, dynamic motion effects are achieved. The resulting video, created from an uploaded video via 'mdls', exceeded expectations in quality.

 

Moreover, the Gen-1 Video to Video service allows users to create videos in different styles from existing footage. Users can stylize videos based on completed model training or through text prompts. In my case, both methods yielded satisfactory results.

 

To expedite video creation, utilizing the preview feature is advisable. While upgrading to a higher plan may be necessary for faster processing, Runway's free version allows users to experiment before committing to a subscription. Setting Style Strength around 50% typically yields optimal results, allowing for sufficient style reflection without overwhelming the original content.

 

 

 

728x90
728x90

왜 우리는 AI에 집중해야 하는가?

 

이미 급속히 발전하고 있는 AI 시장을 멈출 방법은 없기 때문에 이에 자연스럽게 환승해야하는 것이 가장 크다. 실제로 2022년을 시작해서 전세계적으로 거대 IT기업에서 해고가 발생하고 있으며 크게 AI의 발전으로 인한 필수 인력의 감소가 가장 큰 이유로 드러나고 있다.

 

더 새로운, 쉬운 툴이 나오고 있는 마당에 굳이 비싼 인력을 여러명 써서 일하지 않아도 되기 때문에.

이런 움직임은 당연하면서도 안타까운 현실이다.

 

 

비관론적인 의견들이 속속들이 등장하고 있으며 ‘AI가 사람들의 일을 앗아갈 것이다’ 라는 예측이 더욱이 부상하고 있다. 하지만 이 예측은 반은 맞고 반은 틀리다.

한쪽의 문이 닫히면 다른 한쪽이 열리듯이.

이전에는 불가능했던 많은 것들이 가능해졌다.

 

예컨대 한명의 일러스트레이터 혹은 화가가 해야할 일을 머신 러닝을 통해 트레이닝이 되어 다른 범주의 표현을 더 용이하고 저렴하게 할 수있다는 것이다. AI가 재능있는 테크 기업, 컴퓨터 사이언스 전공자를 위한 전유물이라 생각하면 오산이다. 사실은 그것의 정반대가 될것이다.

 

내가 겪어보고 활용해본 AI는 모두의 능력치를 평준화 시켜주는 아이러니한 툴이였다.


 

Deepfake란 무엇인가?

 

CS(Computer Science)에 관심없던 내가 AI에 관심을 가진 계기는 딥페이크 때문이었다.

 

대부분의 사람들이 불법적이라 생각하는 딥페이크.

대중매체에서는 딥페이크는 나쁜것, 불법적 성향이 강한것이라는 프레임을 씌우기에 바쁘지 이외의 것에는 많이 집중하지는 않고 있다.

 

대중 미디어에서는 딥페이크를 불법적 수단으로만 크게 조명하고 있지만.

실상으로는 생각보다 많은 분야에서 딥페이크는 이미 활용되고 있다.

내가 보는 영화, 드라마, 코미디 쇼, 뮤직비디오 웬만한 영상 미디어에는 상용화가 끝난 상태지만

누구도 구태여 밖으로 말하고 있지는 않는 것이다.

 

딥페이크를 파보지 않았다면 이런 나쁜 이미지에만 집중하게 된다.

 

하지만 반감을 떨치고 제대로 툴에 집중한다면 앞으로의 트렌드를 조명할 수 있게 된다. 

 

 

Deepfake의 활용 범위

현재 할리우드 현지에서 이 기술로 밥벌이를 하고 있는

나의 활용 경우를 예로 들자면 크게 세 가지를 들 수 있다. 

 

1) De-aging

2) Face Swap/Replacement

3) Beauty Fix


1) De-aging

말 그대로 젊게 만드는 법이다. 어느 정도의 노하우가 필요한 작업이고 보통은 모델 트레이닝과 machine learning 과정 이 필요하기 때문에 난이도가 높고, 시간이 어느정도 소요된다.

그만큼 정확도가 상승하고 좋은 퀄리티의  de-aging영상을 제작할 수있지만.

아이러니하게도 어느정도 나이 제약을 동반하기도 한다.

 

예컨대 70대가 10대로 탈바꿈하는 것은 이론상 가능하지만.

실상으로는 얼굴을 제외한 나머지 부분이 너무나도 부자연스럽기때문이다.

 

 

 

2) Face Swap/Replacement

이 경우에는 80대가 20대의 시절을 재현 하려는 경우에 많이 쓰이는 방법이다.

위의 사례와 비슷하게 모델 트레이닝을 거쳐야 하며 얼굴을 바꿔 끼우는 모델을 구할 때 많은 고심을 해야 한다.

 

모델 선정을 할 때 함께 어드바이징을 하는 단계에 참여하기도 했는데. 이목구비가 비슷한 연기자, 모델을 선정하면서 어느 정도 이상한 감정을 느끼기도 했다. 언젠가 봤던 영화 <Surrogate 2009>를 보는 것과 같은 기분을 느꼈기 때문이다. 실제 사람이 아바타화되는 것 같은 기분에 기술 윤리가 떠올랐던 순간이었다.

 

 

 

3) Beauty Fix

가장 문제 되지 않고, 실용적인 부분이라 생각한다.

 

말 그대로 덜 주름진 clear 한 피부 표현을 덧대어해주는 것인데.

Tiktok이나 카메라 필터에 쓰이는 피부 표현을 세분화되어하는 좀 더 현실적이 표현을 도와주는 것이다. 

 

더보기

[eng]

The swift evolution of the AI market is becoming an undeniable force, with its natural progression taking center stage. As we step into 2022, major IT players across the globe are experiencing workforce reductions on a global scale, mainly due to the ongoing evolution of AI. This shift is largely driven by the introduction of new, user-friendly tools that streamline operations, rendering the need for costly human resources obsolete.

Pessimistic viewpoints are emerging, predicting that AI will take away jobs from people. However, this prediction is only partially accurate; when one door closes, another opens. Many tasks that were once deemed impossible have become feasible. For instance, the use of machine learning enables illustrators or artists to train AI to handle their tasks, making diverse expressions more accessible and cost-effective. Considering AI as an exclusive tool for talented tech companies and computer science professionals is a misconception; in reality, it is quite the opposite.

The AI I have personally experienced and utilized has been an ironic tool that levels everyone's capabilities. My interest in AI was sparked by the advent of deepfakes.

 

Most people perceive deepfakes as illegal activities. Mainstream media often frames deepfakes as inherently bad, focusing on their illegal nature. However, beyond this negative image, deepfakes are already being utilized in various fields. Movies, dramas, comedy shows, music videos, and other visual media commonly employ deepfake technology, though this is not widely acknowledged.

 

If one does not delve into understanding deepfakes, they may fixate on this negative image. However, by overcoming biases and concentrating on the tool itself, one can better focus on future trends.

 

As someone currently earning a living in Hollywood using this technology, I can outline three major applications of deepfakes:

 

1. De-aging

   -This process revolves around portraying individuals in a younger light. Despite demanding a specific level of proficiency and involving model training alongside machine learning processes, it results in top-notch de-aging videos. Nevertheless, there are constraints, and attaining an entirely natural appearance can pose a challenge. Ironically, the primary limitation in de-aging via deepfake pertains to age. When actors or actresses in their 70s attempt to revert to their teenage or even 20s appearance, it compromises the realism, generating discomfort among the audience due to the mismatch between the talent's age and the rest of their physique.

 

2. Face Swap/Replacement

  - Frequently employed to replicate an individual's youthful appearance, this technique, akin to de-aging, demands model training. Selecting models with facial features resembling the subject requires careful consideration. Ethical dilemmas emerge as the technology blurs the distinction between reality and representation.

 

To achieve a relatively flawless outcome, seeking guidance from a deepfake artist is crucial, especially in the selection of models for replacement. At times, while offering advice, I've sensed a peculiar discomfort, reminiscent of the first viewing experience of the 2009 movie 'Surrogate,' as if touching upon the boundary of humanity in the creative process.



3. Beauty Fix

   - This particular application is regarded as less troublesome and more pragmatic. It refines skin texture, reducing wrinkles for a lifelike depiction. Widely utilized in platforms such as TikTok and camera filters, it offers a nuanced and genuine representation of smooth skin. The use of high-definition, intricate facial portraits extends to other mediums, including TV shows, music videos, and movies.

 

 

 

728x90

+ Recent posts