728x90

지난 포스트에서는 Instruction을 작성하는 방법에 대해 글을 써봤다.

 

Instruction은 말 그대로 글을 이끌어주는 가이드라인과 같은 존재이다. 챗지피티에서는 '웹 브라우징'을 통해서 인터넷에서 크롤링한 정보를 토대로 답변을 제공하게 되는데. 모두가 같은 Instruction을 작성하게 된다면, 실질적으로 그 GPT는 나만의 것, 나만이 할 수 있는 것이 아닌.

 

모두가 할 수있는 GPT로써, 특성 없는 GPT가 되는 것과 마찬가지이다.

 

Instruction 작성에 대해 궁금하다면 아래 링크를 확인하길 바란다.

 

나만의 GPT 커스터마이징 예시: 식단 짜주는 나만의 영양사

Custom GPT/chatGPT만들기/활용편 인스타그램 맛집 파인더챗지피티 유료 사용자라면 누구든지 자신의 목적에 맞는 GPT를 만들 수 있다.나에게 꼭 맞는 GPT를 뚝딱 만들어서 사용할 수있는데. 이를 위해

travel-sanfrancisco.tistory.com

 

 

그렇다면 다른 이들과의 차별점은 어떻게 둘 수 있을까?

 

Knowledge Base/지식 베이스

pdf가 업로드된 GPT

다른 이들과 차별점을 두기 위해서는 나만의 지식을 담은 문서를 GPT에 업로드하는 것이 좋다. 감이 잘 안 잡힌다면 하나의 예시를 들어볼까 한다.


예시

이미 시중에 나와있는 Open AI의 'Write For Me' GPT의 지식 베이스를 리버스 엔지니어링 해봤다.

 

 

 Write For Me 는 글을 써주는 GPT 중 하나인데. 이 GPT의 경우 2023년도 12월까지의 책, 웹사이트, 논문, 그리고 교육 머테리얼을 지식 베이스로 포함하고 있다고 답변해 주었다.

 

이처럼 내가 벤치마킹 하고 싶은 GPT가 있다면 'What's included in your Knowledge base' 라고 질문해 보면 된다. 모든 GPT가 이런 식으로 벤치마킹이 되는 것은 아니지만 50% 이상은 이 방식으로 지식 베이스 확인이 가능하다. 이 경우 GPT Knowledge Base에 업로드한 문서의 제목이 노출될 수도 있기 때문에 문서 제목을 지을 때도 주의하는 것이 좋다.


지식 베이스?

이 지식 베이스라는 거창한 것을 어디에서 가져와야 할까? 요즘 같은 미디어 홍수에서 내 입맛대로 지식을 고르는 것은 그다지 어려운 것은 아니다. 이 지식은 Youtube가 될수도 있고, 내가 읽은 책이나, 기사글, 웹사이트의 글 등 여러 가지가 될 수 있다.

 

지식 베이스 문서 구하는 방법

Youtube

온라인에 올라와 있는 동영상의 경우 동영상 아래로 내려가서 자동 트랜스크립트된 글을

Show Transcript> Toggle timestamps> 글을 드래그 복사

하면 바로 영상에서 내용을 추출 가능하다. 

 

 

나의 경우에는 의사들이 추천하는 10대 음식과 같은 제목을 가진 글들과 영상을 스크랩했고, WHO에서 발표한 건강식, 불량 식품에 대한 기사들을 찾아 문서파일로 정리했다. 이 과정은 생각보다 굉장히 간단하고, 평소에 서칭을 많이 한다면 그리 어려운 일은 아니라 생각한다.

 

신뢰도 정확도 높은 문서를 찾기

기사나 영상만으로는 전문성을 높이지 못하는 경우가 많다. 이런 경우에는 Dataset을 찾게 되는데 내 경우에는 Kaggle과 Google Dataset, 두 가지를 이용했다.

코로나 바이러스 라는 주제를 선택했을때 여러 웹사이트로의 링크를 걸어주는 Google Dataset

 

사실 Google Dataset은 내가 원하는 키워드를 입력하면 해당 키워드에 관련된 데이터를 가진 다른 웹사이트로 링크를 해주는데. 대부분의 경우에 Google Dataset에서 Kaggle로 이동이 되기 때문에, 특정 주제나 키워드로 데이터를 찾는 것이 아니라 브라우징을 해보고 싶다면 Kaggle에서 어떤 종류의 데이터가 있는지를 쭈욱 둘러보는 걸 추천해 본다.

Kaggle 웹사이트

 

Kaggle과 Google Dataset 링크

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

 

Dataset Search

 

datasetsearch.research.google.com

 


문서의 길이 제한

정확히 Open AI에서 발표한 바는 없지만 유튜버 Skill Leap AI에 의하면 각각 최대 100,000자의 문서를 총 10개까지 업로드 가능하다고 한다. 이 글자수를 넘어가게 되면 문서가 업로드되지 않는다고 하였지만, 100,000자를 넘기는 게 쉽지 만은 않다.

728x90
728x90

지금까지 소개한 copilot, chatGPT, Gemini, Claude등 여러 생성형 AI의 장점은 좋은 퀄리티의 답변을 받을 수있다는 것인데. 사용자가 원하는 정보를 빠르게, 또 가장 최근 업데이트 된 내용으로 얻을 수있게 해주지만, 동시에 인터넷에 연결되어 정보가 새어나갈 수있다는 큰 단점이 생기기도 한다. 가장 실용적일 수있는 실무에 이용하기가 어렵다는 것이다. 회사에서 이메일을 작성하거나 NDA가 포함된 민감한 서류를 첨부하여 분석할때는 이런 인공지능을 활용하기 어려운게 현실이다.

그런데 만약 내 컴퓨터에서, 인터넷 연결 없이 인공지능의 도움을 얻을 수있다면? 훨씬 실용적인 방법이 될수 있지 않을까? 오늘은 로컬 컴퓨터에서 인공지능을 사용할 수있는 Ollama를 소개하려 한다.

 

LLaMA는 Meta(구 페이스북)에서 개발한 차세대 LLM으로 현재는 오픈소스로 무료로 다운로드 하여 사용 가능하다. 윈도우 10 이상의 버전에서만 작동하며 Mac이나 Linux 운영체제를 사용한다면 바로 다운로드를 통해 이용 가능하다. 

 

 

 

Ollama

Get up and running with large language models.

ollama.com

 

LLaMA를 실행하기 위해서는 Ollama 웹사이트(링크는 위에)에서 실행 파일을 인스톨한뒤 커맨드 라인을 입력하면 된다.

 

 

 

 

터미널을 켜서 아래의 커맨드 라인을 입력하면 바로 실행 가능하다.

ollama run llama2

 

 

터미널에 커맨드 입력

 

인터넷 연결이나 멤버십 없이도 나만의 챗지피티, 인공지능을 사용 가능하게 된 것이다. 이렇게 다운로드 하였다면 원하는 질문을 물어보면 된다. 예를 들어 핫초콜릿 레시피를 물어봤는데. 간단한 질문에는 대답을 잘 하지만, 조금 어렵거나 복잡한 질문에는 온라인으로 사용 가능한 인공지능보다 질적으로 많이 떨어진 답변을 받게 된다.

 

 

게다가 치명적인 단점이 두가지 있는데.

답변의 신뢰도가 많이 낮다는 점과 영어 이외의 언어로 답변/해석하는 데에는 큰 한계가 있다는 것이다.

예를 들면 핫초콜릿 레시피를 알려달라는 내용을 영어로 작성했을때의 대답과 한국어로 이를 해석해달라 했을때의 결과가 눈에 띄게 차이가 있다는 것이다. 갑자기 러시아어, 일본어, 영어 등을 섞어서 대답하지를 않나 또 번역한 한국어라 하더라도 말도 안되는 단어 선택을 한다는 것이 마치 처음 챗지피티가 나왔을때가 떠올랐다.

 

 

 

이런 문제를 해결하기 위해 Ollama웹사이트에서 라이브러리에 있는 여러 모델을 함께 다운로드하여 사용하는 것을 추천한다. 가장 인기있는 모델로는 Gemma와 Mistral이 있다. 

 

라마 모델 라이브러리

728x90

+ Recent posts