본문 바로가기

전체 글88

파이썬으로 파일 읽기/쓰기(2) - CSV 모듈 사용 (이 글은 '언어와정보처리' 과목에서 '파이썬 기초' 수업 내용을 정리한 글이다.) pytorch 에 대해 들어가기 전, python 기초를 간단하게 리뷰하고 넘어가려한다. 앞의 포스팅에서 아래 예제를 풀었었는데, csv 모듈을 사용한 방법으로도 풀어보겠다. 예제) grade.txt : 성적-점수 표 정보 student_list.txt : 학생별 성적 리스트 평균이 3.7이 넘는 학생에게는 장학금을 주려고 한다. 위 두 개의 텍스트 파일을 활용하여, 학생별로 누가 장학금을 받을 수 있는지 결과를 result.txt 라는 새 파일에 저장하시오. result.txt 는 아래와 같이 각 줄이 (학생) : (장학금 여부) 형태로 되어 있어야 함. Python : Scholarship! Phaethon : No .. 2022. 4. 22.
Multi-modal processing of speech and language (Metze) - Interspeech 2019 Survey Talks 이 글은 Interspeech 2019 Survey Talks 의 Multi-modal processing of speech and language (Metze) 강연을 듣고 정리한 노트이다. Interspeech 2019 Survey Talks – Multi-modal processing of speech and language (Metze) 이 강연에서는 음성 언어를 multi-modal 로 처리했을 때에 대해 설명하고, multi-modality를 시스템 수준, 인간 수준, AI 수준으로 구분했다. 먼저 multimodal learning은 인간이 정보 학습을 위해 다양한 감각 기관으로부터 수집되는 데이터로 학습하는 것처럼, 컴퓨터도 이 인지적 학습법을 모방하여 다양한 형태의 데이터로 학습하는 방법.. 2022. 4. 22.
Biosignal Processing for Human-Machine Interaction (Tanja Schultz) - Interspeech 2019 Keynote Talks 이 글은 Interspeech 2019 Keynote Talks 의 Biosignal Processing for Human-Machine Interaction (Tanja Schultz) 강연을 듣고 정리한 노트이다. 이 강연에서는 여러 바이오 시그널들을 활용하여 음성을 합성할 수 있는 다양한 방안을 제시하 고, 특히 muscle activities, brain activities를 통한 음성 합성 연구에 대해 설명하였다. Acoustic signal 을 뛰어 넘어 여러 생체 시그널들을 이용하여 연구를 진행하면 acoustics signal 처리를 통 해서는 얻을 수 없었던 다양한 benefits 들이 존재하고, 그러한 연구들을 위해서는 다양한 lab 간 의 교류를 통해 다채로운 연구가 필요하다고 설명하.. 2022. 4. 22.
인지과학 차원의 뇌과학 뇌연구 : 두 가지 접근법 - 분자세포신경과학 : 유전자, 세포 - 인지신경과학, 신경심리학 : 뇌영역, 행동 --> '인지과학' 차원의 뇌과학 현미경 발달전, 뇌 연구는 위의 그림처럼 뇌가 다치거나 일부 손상된 사람들을 통해서 연구를 진행했다. 위 예시는 뇌에 손상이 간 후 성격이 난폭해진 경우인데, 이 경우에는 뇌의 앞부분이 손상될 때 이성적 판단을 내리는데 영향을 미친다고 알 수 있다. 이 시기에는 유골을 통해 두개골을 연구하는 방식으로 뇌과학 연구가 진행되었다. "골상학" - 뇌는 감각, 운동 뿐만 아니라 여러 정신 작용도 담당할 수 있다 라는 생각이 퍼지기 시작. - 비과학적이라고 할 수 있지만, 한정된 정보에서 의미있는 것을 끌어내기 위한 여러가지 노력들 - 현재 관상을 보듯이 골상을 봄 - .. 2022. 3. 23.
음성언어처리, 인간의 청지각과정, 베이즈정리, HMM 에 대하여 speech text interpretation 의 전환 과정을 다루는 음성언어처리의 연구 분야 - 음성언어처리는 음성신호처리와 자연언어처리, 그리고 언어학이 융합된 연구분야이다. speech에서 text로 전환되는 과정에서 '음성 인식'이 이루어지고, 그 반대 과정에서 '음성 합성'이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '음성신호처리'이다. text 에서 interpretation 으로 전환되는 과정에서 '텍스트 이해' 가 이루어지고, 그 반대 과정에서 '텍스트 생성' 이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '자연언어처리' 이다. speech 에서 interpretation 으로 전환되는 과정에서 음성언어 이해가 필요하고, 그렇게 해서 interpretation 이 되면 다.. 2022. 3. 10.
한국어 음성인식에 대해서 * 음성인식의 현황 - 2009년 Toronto 대학의 Geoffrey Hinton 교수가 음성인식기의 acoustic model 을 neural network 로 대체하는 것에 성공하면서 음성인식기의 성능이 23% 개선됨 - 그 결과로 구글 등 세계적인 IT 기업이 음성인식에 주목하기 시작하고, 많은 기업에서 음성인식기에 DNN을 접목하여 성능 20% 이상 향상 (기존의 오랜 노력 뒤집는 효과) - 최근에는 transcription을 하면 Microsoft 의 general model 같은 경우 오류발생률이 5% 정도의 수준 (실제로 사람이 받아쓰는 수준) = STT(Speech to Text) 의 경우 사람에 버금가는 수준으로 발전함 - Kaldi 라는 오픈소스의 등장으로 음성인식의 기술들이 많이 통.. 2022. 3. 10.
음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4.
Fairseq로 기계번역기 만들기 기계번역 소스언어를 타겟언어로 번역하는 프로그램 단순하게 data mapping 하는 문제 + 자연어는 생략과 중의성이 많아 컴퓨터가 이해하기 어렵, 표현도 많아서 훨씬 더 복잡한 문제 + 언어마다 다른 특징 기계번역은 NLP 에서 어려운 task 에 속함 예전에는 기계번역기 만들 때 많은 resource + 복잡한 규칙 + 많은 통계규칙들 다 활용하여 여러 개의 모듈들을 따로 만들어 합침 but 최근에 데이터 많아지고 + 딥러닝 등장 = 하나의 모듈에서 모든 일을 처리하는 방식으로 바뀜 예전보다는 상대적으로 쉽게 개발 가능 준비물 1 - 오픈소스 : Fairseq 기계번역을 위한 여러 오픈 소스 존재 그 중 facebook 에서 만든 fairseq WMT 라는 기계번역 대회에서 fairseq 가 활발하.. 2022. 1. 13.
Mixtures of Deep Neural Experts for Automated Speech Scoring - Papi et al. (2020) (Interspeech2020) Mixtures of Deep Neural Experts for Automated Speech Scoring Abstract Task : automatic assessment of second language proficiency - CALL(computer assisted language learning) task 중 하나 - 이 논문의 주제는 second language proficiency 에 대한 자동 평가 - 이 때 다양한 모달리티 중 spoken responses 를 통한 실험 - 뉴럴 네트워크로 여러 experts 를 만들고 이것들을 섞어서 기존의 방법보다 더 좋은 성능을 내려는 노력 - 독일어 이 논문의 접근법의 주요 두가지 모듈 1) an automatic speech recognitio.. 2022. 1. 11.
음성언어의 구조 - (2) 말소리의 생성 과정 Sound 소리 공기의 입자가 있는데, 우리가 밖으로 말을 하면 wave 가 우리 앞의 공기 입자를 건드림. 내 입에서 나온 air pressure 의 변화에 따라 내 앞의 공기 입자가 변화하게 되고 그러면서 전파됨. 공기의 입자들이 계속 전달이 되면서 압력을 형성하고 그 압력의 패턴이 계속 달라짐. 계속해서 변하는 압력을 밖으로 전달해주고, 그 소리들이 고막을 두드림. 고막에는 얇은 막이 있음. 소리를 모아 놓으면 air pressure 이 고막을 진동시키고, 고막이 진동하면 막에 연결된 연골(부드러운 뼈; 추골, 침골)들이 진동함. 고막에 연결된 추골이 먼저 진동하고, 그 후 침골이 진동함. 가운데 귀 - 고막 -연골 들은 밖에서 들려오는 입력인 소리들의 압력 변화를 mechanical vibrati.. 2021. 12. 19.