[if카카오2024] 닭 잡는데 소 잡는 칼 안 쓰려면? AI 경험담 들어보니

2024-10-23

‘AI 서비스 개발 경험 노하우와 인사이트 공유’ 패널톡 진행

23일 카카오 개발자 컨퍼런스 ‘if(kakaoAI)2024’에서 AI 서비스 개발 경험에서 얻은 노하우를 공유하는 세션이 마련됐다. <사진 왼쪽>부터 조훈, 전상현, 손승욱, 김형래, 황인호 엔지니어다. 각자 AI 개발을 접했던 경험과 난제 그리고 생각했던 바를 가감 없이 풀어냈다.

“RAG(검색증강생성)을 하더라도 똑같은 질문을 해서 항상 같은 답변이 나오지 않잖아요. 은행에서 그런 답변이 이상한 말을 하면 문제가 될 수 있죠. 안정적으로 잘 하기 위한 여러 기술을 조합하고 그런 것들이 좀 어렵긴 합니다. 응답 속도도 중요하잖아요. 그걸 줄이기 위해 다방면으로 노력 중입니다.”(전상현, 카카오뱅크 재직)

“AI 서비스가 기존 서비스 개발과 다른 부분에서 좀 힘들었다고 생각합니다. 평가 시스템을 마련하는 것인데요. AI 앱 경우엔 한 번 쓰고 (만족을 못해서) 안 쓰는 경우도 있죠. 제가 그렇습니다. 그런데 그런 경우를 대비해서 최대한 공개 전에 품질을 올려야 합니다. 그런데 챗봇의 경우, 정량적인 품질 체크가 힘들거든요. 말씀하신 것처럼 똑같은 질문을 넣어도 답변이 일정하지 않고요. 기술보다 절차적인 측면에서 기존과 달라 힘들었다고 공유드리고 싶습니다.”(손승욱, 카카오페이손해보험 재직)

“사람들이 AI에 대한 꿈과 희망이 굉장히 크거든요. 그런 게 없었으면 좋았을 텐데(웃음), 현실은 그렇지 않고요. 어떤 아이디어가 있어도 과연 이게 최선인가 질문을 스스로 할 수밖에 없는 거 같아요. 제일 어려운 부분이기도 하고요. 이 기술 자체가 실험실에서 나온 지 얼마 안 됐다고도 생각합니다. 이게 상업적으로 쓸 만큼 충분한 성숙도를 가진 기술이 아니다보니 굉장히 좋은 부분만 보여주는 것도 있죠. 비슷한 지적을 해주셨는데, 잘 나올 때가 있지만 안 나올 때가 더 많거든요. 그런데 10번 중 한 번이라도 이상한 답변이 나가면 망합니다. 이런 걸 하나 둘 없애 나가는 과정이 어려운 부분입니다.”(김형래, 카카오 재직)

“AI 서비스 개발을 시작하면 주변에서 관심을 많이 받습니다. 모든 개발자에게 그런 기회가 주어지지 않다 보니까 굉장히 기대를 많이 하시죠. 하지만 AI 모델이 생각하는 것만큼 항상 좋은 품질을 주지 않은 것에 대해 어려움을 느끼고 있습니다. 어떤 AI 서비스들이 나왔다고 해서 실제 써보면 진짜 잘 나오는 것들만 홍보를 하는구나 느끼기도 하고요. 그런 부분에서 성숙돼야 하지 않나 생각하고 있습니다.”(황인호, 카카오 재직)

세션 진행을 맡은 조훈 카카오 엔지니어는 거대언어모델(LLM)을 파인튜닝(특정 작업에 적합하도록 추가 학습을 통한 미세조정)하는 과정에서 어려움을 공유해달라고 주문했다.

“LLM 기술 자체가 영어권에서 처음 발전했고 데이터도 많고 평가도 많습니다. 한글을 쓰니까 부족하다 느끼실 텐데요. 금융권에선 숫자 계산을 잘해야 된다, 규정을 정확히 해야 된다 이런 것들이 있는데요. 그런 벤치마크가 부족하거나 거의 없다고 봐도 될 텐데 저희가 벤치마크를 만들어서 쓰고 있습니다. 적금이자율, 대출이자율 등 일반적으로 계산하기 어려운 그런 걸 평가하는 질문도 있고요. 실제 서비스할때 그런 평가 셋을 만들어서 잘 동작하는 것을 확인하고 내보려고 노력하고 있습니다.”(전상현)

“굉장히 작은 파인튜닝부터 시작해서 문제가 없으면 쓰면 되고, 그래도 어려우면 파인튜닝을 많이 하게 되죠. 이게 비용이 굉장히 많이 듭니다. 그리고 다른 지표들이 떨어지는 문제가 있죠. 내가 풀려고 하는 문제는 특정 도메인에만 딱 적합한 문제다라고 하면 그 방법을 써도 되는데, 제네럴(범용적) 답변도 해야 되고 이것도 답변해야 되고 한다면 사실 다른 (도메인의) 성능을 떨어뜨릴 수 있기 때문에 파인튜닝이 마치 정답인 것처럼 인지하고 있다가 그게 아니었구나 생각이 나중에 들기도 하죠. LLM 비용이 굉장히 비싸기 때문에 어떻게 하면 적은 비용으로 쓸 수 있을까 해서 작은 모델을 가지고 다시 파인튜닝을 시작하는 건데요. 평가 셋부터 있어야 합니다. 평가 셋 점수를 유지한 채로 더 끌어올릴 것이냐 비용을 낮출 것이냐 기준이 명확하게 있어야 하는데, 이게 없으면 굉장히 여러 길을 돌아서 가게 되더라고요.”(김형래)

검색증강생성(RAG) 기술 활용으로 극적인 효과를 경험했는지 질문도 있었다.

*RAG(Retrieval-Augmented Generation): 검색 증강 생성 기술. AI 언어모델의 응답을 최적화해 응답하기 전 외부 데이터를 추가로 참조하게 해 답변의 정확도를 높이는 기술을 뜻함.

“비유를 하자면 오픈북 시험을 보는 것과 똑같다고 생각합니다. LLM이 가진 단점들을 보완할 수 있는 현재로서 가장 좋은 솔루션이고, 클로즈드북 같은 LLM을 이제 오픈북의 장점을 살려서 최선의 결과를 낼 수 있는 것 같고요. 저희는 하이브리드 방식을 취하고 있습니다. 구조화된 데이터들을 그래프 RAG로, 비정형화된 데이터와 대량의 데이터들은 기존 벡터 DB에 적재해서 두 개의 결과를 예상합니다. RAG가 완전히 정답이라고 생각하진 않습니다. 기술이 계속 발전 중이고, 지금은 모듈러 RAG라고 해서 그 RAG들을 어떻게 하면 파이프라인으로 잘 만들어서 쓸 수 있을가 이런 것도 지금 트렌드로 많이 바뀌고 있는 것 같습니다.”(황인호)

“혹시 챗봇을 개발하신 분 계신가요. 레거시 챗봇의 경우 예외의 답변이 나가면 안되잖아요. AI를 쓴다고 하지만 의도 정도만 AI로 분류하고, 답변은 분기를 쳐서 그 의도마다 어떤 답변이 나갈지 구현하는 방식인데요. 그런데 RAG가 대세가 되면서 사람들이 좀 너그러워지는 것 같더라고요. 답변이 좀 이상한데 해도 ‘이게 바로 요즘 AI 맛이구나’ 이러면서 너그러워진 것 같아요.(웃음) 개발자 측면에서도 이 정도는 용서가 되지 하면서 내보내고 약간의 여지가 만들어진 것 같아서 저는 좀 좋다고 생각합니다.”(손승욱)

LLM 기반 AI 서비스 개발을 꿈꾸는 이들에게 전하는 조언도 있었다.

“작은 기업이라면 AI에 그렇게 막 투자를 해주진 않을 거예요. AI 관련 개발을 할 수 있다는 건 정말 행운이고 저도 그렇게 생각합니다. 제가 프로토타입 같은 걸 개발하면서 느낀 것은 작은 회사에서도 혼자서 충분히 할 수 있는 게 많다입니다. 파인튜닝까지는 안 해도 되고요. 프롬프트 엔지니어링이 가장 기본이고, 프롬프트 엔지니어링도 정말 방법이 많습니다. RAG에 우리 데이터를 넣어서 어떻게 의미 있는 답변을 찾을 수 있을까 이런 고민도 할 수 있고요. 그렇게 해서 안 됐을 때 파인튜닝을 하면 됩니다. 도전해보자 이런 얘기를 하고 싶습니다.”(손승욱)

“처음에 AI 개발을 하겠다면 심리적인 문제가 있죠. 과연 내가 잘하고 있는 건가 어둠 속에서 더듬는 느낌이죠. 그런데 결국 빛이 오더라고요. 그런 부분들을 이겨나갈 수 있으면 되지 않을까 하고요. 굉장히 많은 뉴스들이 LLM 중심인데, 최근에 비전이라든지 개인적으로 보면 음성 합성이나 사운드나 이미지 동영상을 만들어내는 것도 다 AI거든요. AI 개발을 해볼까 하면 시야를 넓혀서 멀티 모델로도 풀어낼 수도 있고요. (LLM을 고집하면) 닭 잡는데 소 잡는 칼을 쓰는 굉장히 비싼 느낌이거든요. 전통적 비전 처리는 상대적으로 저렴한 CPU에서도 처리할 수 있거든요. 충분히 시야를 넓혀서 보시면 좋겠습니다.”(김형래)

“프롬프팅할 때 제가 팁으로 많이 사용하고 있는 방법은 앤트로픽의 클로드 API 콘솔을 보시면 프롬프트 생성기가 있습니다. 직접 할 때 챙기지 못한 지침들이나 놓쳤던 부분들을 많이 알려주는 데 굉장히 도움을 받고 있고요. 내가 프롬프트를 적고 있으면 AI가 이렇게 됐으면 좋겠어 개선을 시켜줍니다. AI가 자기 할 일도 이렇게 프롬프트를 만들어주는 게 굉장히 유용하다 생각이 들고요. 많이 해보셨으면 좋겠습니다.”(황인호)

글. 바이라인네트워크

<이대호 기자>ldhdd@byline.network

Menu

Kollo 를 통해 내 지역 속보, 범죄 뉴스, 비즈니스 뉴스, 스포츠 업데이트 및 한국 헤드라인을 휴대폰으로 직접 확인할 수 있습니다.