본문 바로가기
Case Study/Generative AI

나만의 GPT 커스터마이징 예시: Knowledge?지식 베이스?

by 생각없는감자 2024. 5. 2.
반응형

지난 포스트에서는 Instruction을 작성하는 방법에 대해 글을 써봤다.

 

Instruction은 말 그대로 글을 이끌어주는 가이드라인과 같은 존재이다. 챗지피티에서는 '웹 브라우징'을 통해서 인터넷에서 크롤링한 정보를 토대로 답변을 제공하게 되는데. 모두가 같은 Instruction을 작성하게 된다면, 실질적으로 그 GPT는 나만의 것, 나만이 할 수 있는 것이 아닌.

 

모두가 할 수있는 GPT로써, 특성 없는 GPT가 되는 것과 마찬가지이다.

 

Instruction 작성에 대해 궁금하다면 아래 링크를 확인하길 바란다.

 

나만의 GPT 커스터마이징 예시: 식단 짜주는 나만의 영양사

Custom GPT/chatGPT만들기/활용편 인스타그램 맛집 파인더챗지피티 유료 사용자라면 누구든지 자신의 목적에 맞는 GPT를 만들 수 있다.나에게 꼭 맞는 GPT를 뚝딱 만들어서 사용할 수있는데. 이를 위해

travel-sanfrancisco.tistory.com

 

 

그렇다면 다른 이들과의 차별점은 어떻게 둘 수 있을까?

 

Knowledge Base/지식 베이스

pdf가 업로드된 GPT

다른 이들과 차별점을 두기 위해서는 나만의 지식을 담은 문서를 GPT에 업로드하는 것이 좋다. 감이 잘 안 잡힌다면 하나의 예시를 들어볼까 한다.


예시

이미 시중에 나와있는 Open AI의 'Write For Me' GPT의 지식 베이스를 리버스 엔지니어링 해봤다.

 

 

 Write For Me 는 글을 써주는 GPT 중 하나인데. 이 GPT의 경우 2023년도 12월까지의 책, 웹사이트, 논문, 그리고 교육 머테리얼을 지식 베이스로 포함하고 있다고 답변해 주었다.

 

이처럼 내가 벤치마킹 하고 싶은 GPT가 있다면 'What's included in your Knowledge base' 라고 질문해 보면 된다. 모든 GPT가 이런 식으로 벤치마킹이 되는 것은 아니지만 50% 이상은 이 방식으로 지식 베이스 확인이 가능하다. 이 경우 GPT Knowledge Base에 업로드한 문서의 제목이 노출될 수도 있기 때문에 문서 제목을 지을 때도 주의하는 것이 좋다.


지식 베이스?

이 지식 베이스라는 거창한 것을 어디에서 가져와야 할까? 요즘 같은 미디어 홍수에서 내 입맛대로 지식을 고르는 것은 그다지 어려운 것은 아니다. 이 지식은 Youtube가 될수도 있고, 내가 읽은 책이나, 기사글, 웹사이트의 글 등 여러 가지가 될 수 있다.

 

지식 베이스 문서 구하는 방법

Youtube

온라인에 올라와 있는 동영상의 경우 동영상 아래로 내려가서 자동 트랜스크립트된 글을

Show Transcript> Toggle timestamps> 글을 드래그 복사

하면 바로 영상에서 내용을 추출 가능하다. 

 

 

나의 경우에는 의사들이 추천하는 10대 음식과 같은 제목을 가진 글들과 영상을 스크랩했고, WHO에서 발표한 건강식, 불량 식품에 대한 기사들을 찾아 문서파일로 정리했다. 이 과정은 생각보다 굉장히 간단하고, 평소에 서칭을 많이 한다면 그리 어려운 일은 아니라 생각한다.

 

신뢰도 정확도 높은 문서를 찾기

기사나 영상만으로는 전문성을 높이지 못하는 경우가 많다. 이런 경우에는 Dataset을 찾게 되는데 내 경우에는 Kaggle과 Google Dataset, 두 가지를 이용했다.

코로나 바이러스 라는 주제를 선택했을때 여러 웹사이트로의 링크를 걸어주는 Google Dataset

 

사실 Google Dataset은 내가 원하는 키워드를 입력하면 해당 키워드에 관련된 데이터를 가진 다른 웹사이트로 링크를 해주는데. 대부분의 경우에 Google Dataset에서 Kaggle로 이동이 되기 때문에, 특정 주제나 키워드로 데이터를 찾는 것이 아니라 브라우징을 해보고 싶다면 Kaggle에서 어떤 종류의 데이터가 있는지를 쭈욱 둘러보는 걸 추천해 본다.

Kaggle 웹사이트

 

Kaggle과 Google Dataset 링크

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

 

Dataset Search

 

datasetsearch.research.google.com

 


문서의 길이 제한

정확히 Open AI에서 발표한 바는 없지만 유튜버 Skill Leap AI에 의하면 각각 최대 100,000자의 문서를 총 10개까지 업로드 가능하다고 한다. 이 글자수를 넘어가게 되면 문서가 업로드되지 않는다고 하였지만, 100,000자를 넘기는 게 쉽지 만은 않다.

반응형