한국어교원으로 일하며 필연적으로 마주하게 되는 상황에 도움이 되는 다양한 정보를 제공합니다.
한국어 말뭉치 자료 모음
한국어 말뭉치
말뭉치(말모둠 · 글모둠)는 언어 연구를 위해서 컴퓨터로 가공, 처리하여 분석할 수 있도록 저장된 언어 자료입니다.
이 자료는 글(텍스트), 음성, 영상의 형식을 취하고 있으며 사용 빈도와 사용된 문장은 물론 음파까지도 볼 수 있습니다.
현재 접근 가능한 말뭉치 자료는 고려대학교, 연세대학교, 과학기술정보통신부, 국립국어원에서 제공하고 있습니다.
위에 언급한 순서대로 접근가능한 링크와 함께 특징을 간략하게 알아보겠습니다.
고려대학교 말뭉치: SJ-RIKS ext.코퍼스
고려대학교 말뭉치인 SJ-RIKS 코퍼스는 2010년 고려대학교 민족문화연구원에서 개발하여 서비스하고 있습니다. SJ-RIKS 코퍼스를 구성하는 텍스트는 전체 428개 파일로서 정확한 어절 수는 14,708,028 어절입니다. 그리고 SJ-RIKS 코퍼스 확장판(SJ-RIKS Extension)은 21세기 세종계획의 말뭉치 구축 분과에서 구축한 전체 현대국어 코퍼스를 형태 분석한 주석 코퍼스(annotated corpus)입니다. 21세기 세종계획에서는 원시 현대국어 코퍼스 약 1억 3천만 어절을 구축한 바 있으나 형태 분석은 1,500백만, 동음이의어 분석은 1,200백만 어절에 대해서만 주석 작업을 수행하였을 뿐 나머지 어절에 대해서는 처리하지 못하였는데 SJ-RIKS 코퍼스 확장판은 21세기 세종계획에서 수행하지 못한 원시 코퍼스 전체를 대상으로 형태 분석을 수행함으로써 21세기 세종계획을 완성했습니다.
연세대학교 말뭉치
연세말뭉치는 1986년 ‘한국어 사전 편찬회’가 발족함과 동시에 준비를 시작하였고, 1988년에 ‘연세말뭉치Ⅰ’의 구체적인 표본 선정에 들어감으로써 본격적으로 구축이 시작되었습니다. 초기에는 사전 편찬을 목적으로 말뭉치를 구축하였으나 국어 연구, 한국어 교육, 국어 교육, 인문언어학 등 여러 분야에서 활용할 수 있는 다양한 언어 자료를 전산화하였습니다
과학기술정보통신부 말뭉치
과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)에서 만든 한국어 말뭉치는 기존의 언어 연구를 위한 말뭉치에 새로운 정의를 추가하는 말뭉치입니다. 왜냐하면 이 말뭉치는 지능정보산업 인프라 조성사업으로 추진한 AI 학습용 데이터(14개 분야)와 국내외 기관/기업에서 보유한 AI 학습용 데이터를 컴퓨터로 처리한 자료이기 때문입니다.
국립국어원 모두의 말뭉치
국립국어원에서 제공하는 모두의 말뭉치는 언어정보나눔터를 통해서 제공되고 있으며 회원가입을 하고 사용목적 등을 밝히고 신청하면 json파일로 다운받을 수 있습니다. 이 파일을 보기 위해서는 일반적으로 visual studio code라는 마이크로소프트사의 프로그램을 사용합니다. 이 말뭉치는 2020년부터 매년 배포하고 있습니다.
국립국어원 한국어 학습자 말뭉치
국림국어원에서는 '모두의 말뭉치'를 통해 한국어 원어민의 말뭉치를 제공하기 전, 2015년부터 한국어 학습자의 말뭉치를 제공하고 있습니다. 이 말뭉치는 '모두의 말뭉치'처럼 사용목적을 밝히고 다운로드할 수도 있지만, 간단한 검색도 바로 해볼 수 있습니다. 이 말뭉치에는 현시간 기준, 107개 언어권 149개국 학습자의 데이터를 제공하고 있습니다.
말뭉치 글을 마치며
연구에 주로 사용되는 국립국어원의 '모두의 말뭉치'는 주제별로 말뭉치를 구분해서 제공하며 그 방법 또한 납득 가능한 범위라고 판단됩니다. 하지만 주제가 없는 말뭉치인 경우에는 해당 말뭉치 자료가 어떻게 취합되었는지를 확인하고 연구에 사용하셔야 합니다.
감사합니다.
국립국어원 제공
">[모두의 말뭉치 활용 방법 강의 1회차] 모두의 말뭉치 소개 및 파일 신청하기
한국어강사들의 기본적인 사회적 지위 보장을 위해 한국어교원의 처우 개선을 지지합니다.