AI 전문가가 되고싶은 사람
[KT 에이블스쿨 기자단] 21주차 회고 본문
이번 21주차에도 앞선 주차들과 마찬가지로 열심히 또 열심히 모델 구현에 힘 써보았다. 나중에 똑같이 빅프로젝트를 하게 될 6기 여러분 미리 공부를 해두면 더 좋을 것 같아요... 닥친 상황에서 공부하고 알아보고 하니까 쉽지가 않네요...
이번 주에 있었던 여러가지 수정 사항을 적어보겠다.
1. 요약 모델 파인튜닝 ( 6,000개 -> 23,000개 )
앞서 mt5-small 모델을 파인튜닝할 때 잡코리아에서 합격 자소서를 크롤링하여 6,000개의 데이터를 구축하여서 6,000개 자소서의 여러 개의 질문 중 한 질문에 대한 답변을 요약시켜서 파인 튜닝을 했었다. 따라서 6,000개를 사용하였는데, 이번 주에는 각 질문에 대한 답변을 textrank 모델을 통해서 요약을 하여 약 30,000개의 데이터를 구축하였다. 그리고 textrank 모델이 잘 요약하지못한 즉 성능이 좋지 않은 요약본을 걸러서 mt5-small 모델에 파인튜닝을 해야했기에 rouge 평가지표가 0.7 이상인 요약본들로 구성하여 23,000개를 뽑아내어 학습과 검증을 각각 9:1로 분리하여 파인튜닝 하였다.
2. 멘토 매칭에 대한 기술
멘토 매칭할 때 우리 팀만의 평가지표를 통해 멘토를 매칭하는 기술을 만들어보자! 라고 생각을 하여 저번 주에 나의 생각들을 마구마구 썼었는데, 직접 구현하려고 하다보니 이거 쉬운게 아니구나 싶었다. 그래서 추천 시스템이나 협업 필터링이라는 여러 기술들을 찾아보고 공부해봤으나 적용시키기 쉽지 않구나.. 라는 생각이 들었다. 그래서 차라리 openai에서 제공하는 gpt를 사용해보자라는 결론이 나와서 어떤 방향으로 사용할 지 고민 중이다.
3. 영수증 OCR
영수증 OCR의 경우 네이버 클로바 API를 사용하였다. 아무래도 직접 기술을 구현하고 싶어서 Tesseract와 easyocr을 사용해보았지만 영수증 사진에 대한 인식이 잘 안되었고, easyocr의 경우는 파인튜닝이 가능하다고 하여 도전해볼까 했지만 내가 생각했을 때 영수증 관련 데이터가 매우 많아야 가능하다!라는 결론이 나와서 포기하였다.
4. 챗봇
인사규정과 같은 회사에서 사용하는 문서들을 토대로 답변을 해주는 챗봇을 구성해보았다. 현재 파이프라인이 없기 때문에 대충 이런 느낌으로 하면 되겠구나!로 아래와 같이 해보았다.
5. 이번 주 후기
부족함을 많이 느끼고 지금 공부할 수 있다는 것이 참 다행인 것 같다. 이렇게 큰 프로젝트는 처음이라 다른 팀원에게 짐이 되고싶지않아서 더 열심히하게 되는 것 같다.
'기자단 활동' 카테고리의 다른 글
[KT 에이블스쿨 기자단] 23주차 회고 (0) | 2024.07.28 |
---|---|
[KT 에이블스쿨 기자단] 22주차 회고 (0) | 2024.07.28 |
[KT 에이블스쿨 기자단] 20주차 회고 (0) | 2024.07.07 |
[KT 에이블스쿨 기자단] 19주차 회고 (0) | 2024.07.07 |
[KT 에이블스쿨 기자단] 18주차 회고 (0) | 2024.06.25 |