본문 바로가기
Development/etc.

AI HUB 안심존 오프라인 센터 (서울, 서초) 방문 후기 (환경 세팅법, 사용 방법 등)

by 남디윤 2024. 2. 24.

 

0. 사용하기까지..

작년 말 12월 초쯤 AI HUB에서 제공중인

"정신건강진단 및 예측을 위한 멀티모달 데이터"를 사용하기 위해 IRB 심의를 신청 및 승인을 받고

오프라인 데이터이기 때문에, 서울 서초 지점에 사용 신청을 넣었습니다.

 

 

 

남부터미널 쪽에 위치해있는 센터였는데, 작년 12월 초쯤에 제가 대기번호 6번인가 그랬었는데

1월 중순쯤에 곧 사용 가능할 것 같다라는 연락을 받습니다.

참고로 제가 신청할 즈음에는 GPU 사용이 불가하다 해서 CPU로 신청하였습니다.

 

제가 사용한 데이터는 2차 승인이 필요한 데이터셋이였어서, 다시 데이터 제공 업체의 승인을 기다렸고,

결론적으로는 2월 5일부터 한 달간 사용을 하게 되었습니다.

 

 

 

 1. 서울 서초 센터 폐쇄 예정

제가 담당자분한테 듣기로는 서울 서초 센터는 곧 폐쇄 예정이고 판교에 새로운 센터를 오픈한다고 들었습니다.

올해 초에 진행될 예정이며, 정확한 시기는 결정되지 않았다고 합니다.

그리고 GPU도 다시 사용가능하다고 하네요 (전 사용 못함....ㅠ..)

 

또한 현재 오프라인으로 사용 가능한 데이터 중 2차 승인이 필요 없는 데이터들은 온라인으로 전환된다고 들었습니다. 2차 승인이 필요한 데이터는 제공 업체의 온라인 사용 허가 여부에 따라 바뀐다고 하네요

 

 

2. 사용 방법

우선 센터에 들어가면 핸드폰은 카메라를 다 스티커로 가리게 됩니다. 개인 노트북의 경우 센터 밖 로비에서만 사용 가능하다고 하셨습니다. (그래서 학습 시에 로비에서 컴퓨터함)

오프라인 센터의 경우, 반드시 담당자분이 vpn을 켜주셔야 사용 시작이 가능합니다.

 

vpn을 키고 난 후, 매뉴얼을 보고 원격 컴퓨터 접속을 진행합니다. 

윈도우 내부에 있는 원격 컴퓨터 접속 시스템을 이용해서 aihub 에서 제공중인 컴퓨터로 들어가게 됩니다.

 

(1) 환경  세팅

원격 컴으로 들어가면 주피터 환경에서 작업을 하게 되실텐데요,

처음에 원격 컴을 접속하면 인터넷이 연결이 되어 있지만 데이터를 붙히고 나면 인터넷 사용이 불가합니다. 이를 메일로도 안내를 해주시고 담당자분들이 안내도 해주셨어용

 

데이터를 붙히고 나면 인터넷이 사용이 안되기 때문에,

미리 사용할 코드, 라이브러리, 모델 등을 다 다운받아놔야합니다.

 

그리고 음성 데이터의 경우 단순히 주피터에서 클릭해서는 안열리고, 코드 내에서 재생해야하는 것 같았어요

소리의 경우에도 원래는 음소거 되어 있는데, 이를 안심존 Q&A 세션에다가 요청드리면 풀어주십니다 (데이터마다 다름)

 

 

환경 세팅을 아주 꼼꼼히 하는것이 중요합니다

필요한 라이브러리를 다운받지 못해서 다시 인터넷을 연결하게 되면, 아예 모든 것을 초기화 해야합니다.

 

저의 경우에도 몇 개 라이브러리를 안설치해서 그 부분으로 인해 리셋도 한 번 하고, 테스트 제약도 있었습니다.

다운이 안되게 막혀있기 때문에 문서나 파일을 코드 내에서 열어야 하는 경우가 많습니다. 이를 참고해서 문서 관련 라이브러리도 다운해놓는 것이 중요합니다. 아래는 제가 겪었던 내용을 적었습니다. 

 

(light gbm 과 같은 별도 라이브러리 형태 다운할것, 허깅페이스 sbert와 같은 모델은 단순히 코드를 돌리는 것이 아닌 path를 지정해서 다운받아 놓기, pandas로 엑셀 파일을 열 경우 openpyxl이 필요함)

 

 

(2) 주피터 터미널로 가상환경 생성

저의 경우에는 파이썬 3.10 버전을 사용하고 원래 계산했던 라이브러리 버전을 사용하기 위해 아나콘다 가상환경을 생성했습니다.

아나콘다는 깔려있었습니다.

근데 제가 원래 쓰던 상태랑 터미널 초기 상태가 달라서 아래 명령어를 참고해서 세팅해주세요

conda create -n aihub python=3.10
bash 
conda activate aihub

 

원래 제가 아는바로는 생성 후에 바로 활성화 시켜서 사용해왔었는데

aihub는 아예 초기 세팅이여서 그런지 bash 와 같이 터미널을 시작하는게 필요합니다.

이 부분에서 엄청 헤맸는데 여러분들은 헤매지 마세용.. (에러 메세지는 뭐 init shell 뭐 어찌고 저찌고인데 인터넷에 나오는 해결법은 적용 안됩니다. 단순히 "bash" 입력해주시면 됩니다.)

(참고로 담당자분들은 개발자가 아니셔서 여러분이 직면할 문제에 대한 대부분의 답을 해주실 수 없습니다. 기술문의 하는 쪽도 모르심)

 

bash

를 입력하면 (base) ~~~ : /home/nc/workspace#

가 뜨구요

그 다음 가상환경 활성화 한 다음에 주피터 연결 해주세요

이 부분은 아래 글 참고해주세요

https://chancoding.tistory.com/86

 

Jupyter Notebook에 가상환경 Kernel 연결하기

목차 1. 아나콘다 가상 환경 만들기 아나콘다에 가상환경을 구성하도록 합니다. tf2.0이라는 이름을 가진 파이썬 가상 환경을 만들었습니다. conda create -n tf2.0 python 자세한 내용은 이전 글을 통해

chancoding.tistory.com

 

 

그 다음 다운 필요한 라이브러리 쭉~~ 다운하시면 됩니다.

 

 

(3) 전처리 및 모델 학습 후기

저는 wav 파일을 이용해서 음성 feature들을 추출하고, 대사를 sbert로 embedding 하고 이를 딥러닝, 머신러닝으로 이진 분류하는 모델링을 진행했습니다.

기존에는 집에 있는 gpu 노트북으로 했어서,, cpu 상태에서 속도가 어느정도 날까 걱정했는데 생각보다 빨리 잘 되더라구요

물론 제 데이터가 무겁지 않아서 그런거일수도 있습니다..

뭐.. 앞으로는 gpu 쓸 수 있다고 하니.. 이부분은 넘어가도록 하겠습니다.

 

(4) 반출 신청

모델을 학습 시키고 나면 모델 반출신청을 할 수 있습니다.

Q&A와 마찬가지로 안심존 모델 반출 신청 페이지에서 진행할 수 있고, 해당 페이지에 나온 경로에 반출 필요한 파일들을 옮기거나 복사합니다.

모델 파일말고도 노트북 파일도 반출 가능합니다만

데이터가 포함되어 있으면 안된다고 되어 있어서 저의 경우 clear output 해놓고 반출했습니다.

그리고 반출 파일에서 데이터 포함시에 반려된다고 나오는데 데이터를 pickle로 묶어서 반출하면 어쩔지 궁금은 하는데 안했습니다... ^^:;

 

반출 신청은 기간 중에 총 3번 가능하다고 합니다.

저는 베이스라인으로 한 번 반출했고, 어제 두번째 반출 신청했습니다.

총 100mb 까지 반출가능이라고 하는데 간당간당한것 같아서 반려 될까 걱정이 조금 되네요.. ㅎㅎ 

 

성능 지표도 반출 되는지 모르겠어서 (그래프는 된다고 나와있음)

혹시나 해서 저는 따로 필기했습니다... 흑 ㅠㅠㅠ

 

 

 

 

마지막으로.. 센터에 몇 개의 컴퓨터 (자리)를 사용하는 지 모르겠으나

센터 자체에는 여분 자리는 많았습니다

그리고 대부분 뜨문뜨문 오시는 것 같았어용

데이터를 쓰시는건지 컴퓨터를 쓰시는건지는 모르겠지만..

아마 많은 자리를 운용중인 것 같지는 않습니다. (컴퓨터는 남지만, 수용 인원은 적은 것 같다라는 뜻)

 

 

그럼 여기서 글을 마칠게용~