최근에 오디오 감정 분류 모델을 만들기 위해서
이런 저런 모델과 데이터를 기웃거리는 과정에서
대학원생들의 데이터 제공처 ai hub를 사용하게 되었습니다.
오디오 파일의 경우 ai hub 에서는 tar 파일을 제공하는 경우가 많은데
이 tar 파일이 다루기가 쉽지 않더라구요
물론 제가 컴알못이여서 그런거일수도 있지만
인터넷에 정보도 적고 해서 제가 어떻게 파일을 압축해제 했는지를 작성해보려고 합니다.
저는 윈도우 11 사용자입니다.
제가 사용한 데이터는 감정이 태깅된 자유대화 (성인) 입니다.
그중에서 validation 세트를 다운 받았어요
https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71631
AI-Hub
분야한국어 유형 오디오 구축년도 : 2022 갱신년월 : 2023-12 조회수 : 5,633 다운로드 : 55 용량 : 다운로드 관심데이터 등록 관심 39
www.aihub.or.kr
저는 반디집을 사용했구요 cmd 로 진행하셔도 됩니다.
처음 다운한 download.tar 파일을 열어보면 파일 용량이 커서 여러 part 파일로 쪼개져있습니다.
우선 해당 tar 파일을 압축해제해서 part 파일을 얻습니다.
전지전능한 gpt 활 아래와 같이 말하구요
저는 사용자/Downloads/test 라는 폴더에 데이터를 위치해놓았어요
그 다음 이렇게 압축해제 한 part 파일을 다시 tar.gz 파일로 합쳐줄겁니다.
다른 방법이 있으면 댓글 달아주세용..
우선 제가 어제 했을 때 첫번째 파트파일은 압축해제가 되는데 그 다음파일부터는 아예 zip 파일이 아니라고 뜨면서 안되더라구요. 뭐 차례대로 풀어야한다는데 순서대로 풀려고 해도 안되고..
반디집이나 7-zip 다 찾아봤는데 모르겠어서 그 다음 찾은 방법이 아래와 같습니다
cat 라는 명령어를 써서 여러 part 파일을 tar.gz 파일로 합쳐주는 과정인데
이 명령어가 Linux 또는 macOS에서 제공되고 윈도우는 제공이 안된다고 하더라구요
사용하려면 뭐 다른 소프트웨어 깔거나 git bash 를 이용하라고 해서 저는 git bash를 사용해주었습니다.
git bash를 킨 뒤 아까 part 파일을 저장했던 위치로 이동합니다.
그리고
cat [원래 파일이름].part* > [tgz파일명].tgz
라고 명령어를 입력하면 됩니다.
저의 경우
cat VS_01.실내.zip.part* > backup.tgz
라고 진행했습니다.
(cat: 합쳐줘라
.part*: part파일 전체를)
명령어는 다른 블로그 참고하시면 더 자세한 설명 보실 수 있습니당..
새롭게 합쳐지는 tgz 파일은 별도로 위치 지정을 안했기 때문에 part 파일이 위치한 곳에 생성됩니다.
그리고 새롭게 생성한 tgz 파일을 다시 반디집으로 압축해제하려고 열어보면
아래와 같이 보고싶언던 wav 파일이 들어있는것을 보실 수 있답니다
저만 모르는 건지.. 구글에 검색해도 방법이 잘 안나와서 어제 새벽에 낑낑거리다가 해내서
즐겁게 글을 남깁니다.
데이터의 문제인지 방법의 문제인지 저런식으로 진행했을 때에도 손상된 파일이 존재합니다 라고 문구가 뜨긴 하더라구요
몇개 파일이 없는지는 아직 확인하지 않았지만 제외하고 온전한 데이터만 사용하려고 합니당..
이 글과 무관하지만...
요즘 이래저래 ai hub 뜯어고친다고 변동이 많은데 사용자 편의성은 점점 사라지는 중인듯 합니다
이런 방법을 조금만 정리해서 써주면 좋을텐데 말이죵..
이거 말고도 할말은 참 많지만.. 넹.. 여기서 글을 마칩니다 ㅎㅎ
'Development > etc.' 카테고리의 다른 글
Ollama를 이용해서 llama3.1 8B(양자화 모델)을 리눅스 서버에서 사용하기 (feat. 테디노트) (1) | 2024.08.04 |
---|---|
AI HUB 안심존 오프라인 센터 (서울, 서초) 방문 후기 (환경 세팅법, 사용 방법 등) (3) | 2024.02.24 |
패스트캠퍼스 30개 사례로 배우는 Anomaly Detection 알고리즘 구현과 실전 프로젝트 듣는중.. (1) | 2023.12.15 |
[Node.JS #1]조코딩님의 한시간만에 Node.js 백엔드 기초 끝내기 (0) | 2023.08.11 |
[자바스크립트 #5]생활코딩 자바스크립트(JavaScript) 기본 6일차 (0) | 2023.08.10 |