본문 바로가기
Life

[공부log 24.07.12]방학 한 달 후기, 연합 동아리, 연구 근황(LLM, 랭체인), 논문 찾는 법

by 남디윤 2024. 7. 12.

써야지 써야지 했는데

이것만 하고 써야지 이것만 돌리고 써야지 하다가 영원히 블로그를 못 쓸 것 같아서 그냥 쓰는 일상글

방학 한달 간단 회고 겸 근황을 작성해보려고 한다.

 

 

 

 

 

 

1. 내가 생각한 방학은 이게 아니였는데..

방학 초반 엄청나게 스트레스를 받았다. 건강에 신호가 올만큼 스트레스를 엄청 받았는데

그 이유는 방학에 대한 환상과 기대가 컸기 때문..ㅎㅎ...

어찌보면 당연한데..

방학 시작하니 원하던 개인공부는 뒷전이 되고 프로젝트와 다시 논문 쓰기에 돌입하게 되었다.

 

너무 큰 환상과 꿈에 부풀어 있었다고 생각..

그렇다고 방학 계획을 완전히 포기한 것은 아니고,, 욕심을 어느정도 내려놓기로 했다

 

그래서 오늘부로 정처기 실기 접수 취소함

뭐 아래 이야기 나오겠지만 이번달에 연합동아리를 시작하기 때문에 너무 모든 것을 다 안고가지는 않기로 했다

3회차 보지뭐..

미루다보면 못한다는 주의라 가능한 그냥 보려고했는데 포기안하려고 집착하다가 내 멘탈이 남아나지 않을 것 같아서 놓아주기로 했다..

괜찮아 다른 공부 열심히 하고 있으니까..

 

개인공부도 조금 밀리고 있다.

원래 방학 초반만 해도 꾸역꾸역 연구 전에 1시간~2시간 개인공부해야지 싶었는데,,

마음이 급해지다보니 그냥 논문 제출까지는 마음 편하게 논문에 집중하자 싶어졌다

그냥 요즘은 마음을 여유롭게 먹는것에 초점을 두고 있는 날들..

 

 

 

2. 연합 동아리

 

한 4월~5월쯤에 뭐 이런저런 고민을 하다가 여러 사람들과 이야기를 하며,,

여러 결정과 계획, 다짐을 했었다

그 중 하나가 기회가 된다면 동아리나 커뮤니티에 들어가야겠다는 것 (공부 + 파이프라인 구축 플젝 등등)

 

결론적으로 이번주 연합 동아리의 데이터 엔지니어링 파트에 합격하게 되어서 이번 달부터 활동 예정이다

일부로 공부 자체에 흥미를 가지면서 살고 싶어서 연구와 조금은 무관한 파트에 넣었다. (연구빼고 모든 게 재밌는 흔한 대학원생 1.)

CS 공부도 병행할 수 있는 동아리여서 엔지니어링 공부랑 CS 공부 틈틈히 하면 될 듯 싶다

동기가 함께 지원했는데 둘 다 붙어서 조금은 마음 편하게 활동하면 될 듯 싶다 ㅎㅎㅎ

 

1학기가 끝나고 대학원 내부적인 교류가 아닌 외부에서 정기적인 교류를 할 수 있는 무언가를 만들어야겠다는 생각도 했었다. 너무 여기에만 매몰되면 심리적으로 힘들고 장기적인 멘탈관리를 고려할때..

여러모로 시기적인 부분 + 취업 및 공부 목적 부분 + 심리적인 부분에 딱 부합하게 동아리를 잘 들어가게 된것 같다

 

그래서 참 동아리에 합격한게 감사하고 열심히 하려고 한다

남은 반년을 어느정도는 심리적 부담을 이걸로 좀 덜어내고 살 수 있을 것이라는 생각이 들어서 좋다

(비전공자로서 항상 심리적 스트레스가 있는 사람이랍니다. 근데 괜찮아요. 동아리에서도 개인공부로도 공부할거니까)

 

 

 

 

 

3. 연구 근황

또..또다시 논문을 잡고 있다

저번에 리젝된 논문 리패키징 중..

다시 수정하면서 논문 컨셉을 바꾸면서 그에 맞춰서 글을 정리하는거 외에도 좀 더 부족한 부분을 채우는데에도 집중하고 있다. 이게 먼말이냐면.. 다시 작성하는 것 뿐만 아니라 연구도 보강한다 이정도의 의미..

원래는 그냥 방향성만 바꿀까했는데.. 진짜 그만 안고 가고 싶어서(던져버리고 싶어서 ^^) 이논문을.. 반드시 투고시키고 싶어서 일단은 최선을 다해서 내려고 한다.

 

내 논문의 문제점? 부족한점은

전체적인 실험 결과(단일 모델 성능 말고) 나 사용성 테스트 등이 없다는 것인데,

이 두가지 부분을 보충하는 작업을 진행하고 있다

 

 

드디어 용아맥 듄2 봄 ㅎㅎ 재개봉 좋아~

 

 

그 과정에서 LLM을 경험중..

원래도 LLM을 하나의 기능으로 넣어두긴 했는데, 큰 의미를 두지 않았었다.

그냥 대화 모델 중 하나로 쓴다~ 정도였는데 단순하게 넣지 말고 이것저것 해보기로 했다.

그래서 원래 개인공부 때 보려던 랭체인과 LLM을 보고 있는데..

 

LLM은 참 신기한 친구야 ^^ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

일단 느낀점이 몇 가지 있는데

 

1. 랭체인은 빠르게 변화중

이건 LLM이 계속 나오니까 어쩔 수 없는 부분인데, LLM이 계속 나오고 LLM마다도 달라서 그런지 라이브러리가 뭔가 정돈된 느낌이 아니라 community, experiment 등등 안에 비슷한 클래스들이 여러개가 있다

누가 정리좀..

근데 이거 정리 못할것 같다. 계속 계속 LLM이 나오니까 그냥 나오면 그때그때 사람들이 만들어서 추가하는 듯하여서..

 

2. 현재 랭체인은 GPT위주

이 부분도 어쩔수없지만, 이거 맞다.

랭체인에 있는 대부분의 기능이 gpt 를 기준으로 만들어져서 다른 모델에 적용하려면 적용이 안되는 경우가 많다

llama3을 사용중인데 적용안되는거 왤케 많아....ㅎㅎㅎ

그리고 적용된다 나와있는데 안된다

이거는 물론 랭체인의 문제에서 끝나는게 아니라 modelfile 부분을 잘 이해해야하는듯 싶지만..

 

3. 랭체인 여러 기능보다 프롬프트가 나을수도..

1,2 에서 이어지는 부분이지만, 본인은 특정 형식으로 데이터를 생성하게 해야했는데

parser 은 여러 방식으로 적용해보려고 했지만 결국 실패했다

결국 대부분의 parser 는 prompt에 들어가게끔 되어있어서 어차피 LLM이 말 안들으면 끝나는 상황이다

gpt는 말 잘 듣나본데 우리 llama3는 아직 안그래요..

그래서 진짜 이런저런 클래스 다 써보다가 그냥 이건 랭체인 문제가 아니구나 해서 prompt를 수정했는데..

ㅋㅋㅋㅋㅋㅋㅋㅋㅋ

[FORMAT] must be json format. 
Remember response must be in json format.

 

그냥 이 두 줄 넣으니까 많이 해결됐다

원래도 format 줬는데에도 말 안들었는데

예를 들어 1000개 중에 약 970개가 형식에 안맞았음

근데 저렇게 강조에 강조를 하니까 1000개중 30개 정도 빼고 형식에 맞게 만들어준다

 

진짜 어이없는데 그냥 그렇구나 싶기도 하고 그래..

알다가도 모르겠는 너란 LLM...

이래서 prompt engineer 따로 뽑나 싶었다.

 

 

 

 

여튼 뭐.. LLM 해보는것도 나름 재밌는것 같다

다만 이걸 내 메인 연구주제로 하는것은 정말 아니다 싶지만

LLM 하시는 분들 존경합니다

 

 

 

 

4. 논문 탐색

아 그리고 사실 언젠가 논문 찾는법, 탐색법?에 대해 포스팅을 할까도 싶지만 간단히 써볼까 한다

 

1. ACM, IEEE 

이 두 출판사만 잘 봐도 대략적으로 요즘 특정 분야, 기술에서 어떤 논문이 나오는지 알 수 있을 것이다. Google scholar의 검색 정렬 기준은 인용수나 뭐 알고리즘이 있을건데, 그게 사실 쓰다보면 편하지 않다

최근 1~2년 사이의 주요 학회에서 나온 논문을 찾기 위해서는 두 출판사에 conference 필터랑 년도 필터 걸어서 학회 명 보면서 찾아보는게 좋다

 

주요 학회는 bk21 기준으로 보기는하는데, bk21아니여도 유명 학회가 있긴 하다

아래 깃허브를 참고해서 익혀두면 좋음

대략적으로 보다보면 특정 토픽에서 어떤 저널이 많이 나오는지가 익숙해져서 주요학회를 다 외울수 있다 ^^

https://gist.github.com/Pusnow/6eb933355b5cb8d31ef1abcb3c3e1206

 

CS 분야 우수 학술대회 목록

CS 분야 우수 학술대회 목록. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

 

 

2. 고려대쪽 산업경영공학 DMQA랑 DSBA랩실 유튜브

고려대쪽 산업경영공학 탑 2 랩실 유튜브가 아주 꿀이다.

DMQA랑 DSBA랩실에서는 유튜브를 운영중인데, 어지간히 유명한 논문은 다 리뷰하시는 것 같다

 

1번 방법은 진짜 진짜 최신 논문을 훑겠다 이럴때 좋고

2번 방법은 대략적으로 최근에 어떤게 주목받았는지를 보려고할 때 보면 좋다

깃허브나 인용수 높은 3~5년 사이의 논문을 찾아서 유튜브를 찾으면 논문 리뷰가 있는데

단일 논문 리뷰도 좋지만

두 랩실은 같은 주제 여러 논문을 연달아 비교, 설명해주시는 경우가 많다

 

큐레이션 효과라 해야하나.. 여러 논문 묶어서 소개해주시는게 너무 좋음 ㅎㅎㅎ

심지어 깃허브 코드를 보면서 논문과 차이를 말해주기도 해서, 시간 단축에 최고라고 생각한다.

역시 유명한데에는 이유가 있다~

 

 

물론 이 두 방법 외에도 좋은 방법 많겠지만

최근 자주 사용하는 방법은 이렇다는거~

 

 

 

 

 


 

남은 7월도 잘 지내도록 하겠다 ㅎㅎ

방학돼서 그런지 유독 약속이 많은 달이라 힘나는 슈퍼 E

행복하자구 ㅎㅎ