728x90

 

 

 

생성형 AI로 작성한 글과 영상, 가끔은 구별하기 어려울 정도로 정교할 때가 많다. 아직 영상의 경우에는 구별이 쉽지만 생성형 AI로 작성한 글은 이제는 사람이 작성한 것인지 AI가 작성한 것인지 알기 어려울 때가 더 많아지고 있다. 특히 5월 초 발표된 chatGPT의 GPT4o를 통해서 글을 작성해 보면, 생성형 인공지능의 수준이 헛웃음 나올 정도로 완벽한 글쓰기를 자랑한다. 

 

매우 유익할 수도 있는 반면에 이렇게 인공지능으로 작성한 글을 어떻게 식별할 수있는가에 대한 문제제기가 많아지는 때에 Google 딥러닝에서 SynthID를 출시했다. Synth ID는 인공지능 생성 콘텐츠에 워터마크를 삽입하기 위한 구글의 새로운 툴킷이다.

 

Google이 만든 Gemini의 서비스를 이용한 인공지능 생성 텍스트는 SynthID를 통해 워터마킹이 되고, 앞으로 다른 gpt로 작성된 글들 또한 인공지능 감지를 할 수 있도록 확장할 계획이라 덧붙였다. 

 

어떻게 작동하는가?

 

 그렇다면 텍스트 워터마크는 어떤 방식으로 작동할까? Synth ID에서 텍스트 워터마크를 단다는 것은 단순하게 생성된 텍스트에 라벨을 붙히는 방식이 아니다. LLM이 텍스트를 제작하는 방식을 본떠서 '얼마나 LLM이 쓴 글과 비슷한 성향을 띠는가'에 대한 점수를 매기고, 이 예상 점수 패턴을 통해서 패턴 자체가 워터마크로 간주되는 것이다. 그렇기 때문에 SynthID의 텍스트 워터마크는 SynthID 툴에서 LLM으로 제작된 글인지 파악하는 데에 더 많은 예시를 제공하는 긴 글에서 가장 잘 작동된다.

 

 

글을 손본다면? 그래도 AI가 감지할 수있을까?

 

일부 글을 변경해서 쓰거나, 잘라내는 등의 약간의 정리만 해서 글을 다시 썼다면 이런 변화에도 불구하고 SynthAI는 작동 가능하다. 하지만 생성형 AI가 작성한 글을 참고하여 처음부터 사람이 다시 썼다거나 다른 언어로 번역하게 되면 SynthAI의 가동 신뢰 점수가 낮아질 수 있다.

 

또 생성형 AI로 작성한 글 중 '창의성'을 발휘해 작성하기보다 사실에 대한 기술만 있는 글이라면 SynthAI가 인공지능 탐지할 수 있는 확률은 현저히 낮아진다. 사실에 기반한 글이기 때문에 변수가 많은 토큰 분포를 확인하기 어렵기 때문에 "피카추의 색깔은 무슨 색인가요?"라던가 "한국의 수도는?"과 같은 질문에서 인공지능이 쓴 글을 구분하기 힘들다는 것이다.

 

이미 많은 Humanizer, DetectAI 프로그램이 있는데?

이를 왜 보완해야 하는가?

 

현재 사용 가능한 대부분의 생성형 인공지능 감지 서비스는 데이터를 라벨 화해서 정렬하는 'sort'분류의 방법을 사용한다. 이런 분류의 경우 특정 작업에만 작동하는 경우가 많기 때문에 글을 탐지해 내는 데에 유연성이 떨어지고, 그 성능을 신뢰할 수 있는 기반을 알기 어렵다. 그렇기 때문에 A라는 웹사이트의 AI 탐지기와 B라는 웹사이트의 AI 탐지 결과가 다르게 나올 수있는 것이다.

 

구글 딥러닝에서는 오는 여름에 텍스트 워터마크 기술에 대해 자세히 다른 연구 논문을 게시할 예정이며,  최신 Responsible Generative AI Toolkit을 통해 SynthID 텍스트 워터마킹을 오픈 소스로 공개할 것이라 전했다.  어떤 방식으로 AI가 탐지되는지 더 자세히 알아볼 수있는 결과이기도 하고, 무수히 많이 포진되어 있는 생성형 인공지능 탐지 서비스 앱들의 생태계가 어떻게 변화할지 기대되기도 한다.

728x90

+ Recent posts