LLM의 크기가 커지고, 학습데이터가 많아지면서, 데이터 고갈 문제가 계속해서 제기되고 있죠.가볍게 생각해 보면, 생성형 AI라는 게 데이터를 계속 만들어내는 건데, 데이터가 부족해질 일이 있나 싶기도 합니다.생성형 AI가 만든 결과물들이 상당한 퀄리티니까, 그 결과물을 다시 재학습시키면 되지 않냐는 거죠.한편으로는 타당한 주장으로 보입니다. 합스부르크 AI 라는 용어가 있습니다. 유럽의 대제국이었던 합스부르크 왕가가 근친혼으로 인해 무너졌다는 것을 빗댄 표현으로 AI에 합성 데이터 사용을 경계해야 한다는 표현입니다. 합스부르크 왕가의 스페인 마지막 왕 카를로스 2세는 근친혼의 부작용을 모두 가지고 있었다고 알려졌는데, 생식능력도 없었다고 하죠. 결국 합스부르크 왕가는 근친혼의 부작용 때문에 멸망한 가..