(ISSN 2249-3905) Natural Language Processing: A Review
ABSTRACT
ABSTRACT
- 자연어 처리 (NLP)는 컴퓨터화 된 수단으로 텍스트를 분석하는 방법
- NLP 는 인간이 언어를 이해하고 사용하는 방법에 대한 지식을 수집함
- NLP 는 컴퓨터 시스템이 다양한 원하는 작업을 수행하기 위해
- 자연어를 이해하고 조작 할 수있는 적절한 도구와 기술을 개발하기 위해 수행 됨
1. Introduction
- 연구자들은 자연어 처리 (NLP) 를 유용한 일을 하기 위해 컴퓨터를 사용하여
- 자연어 텍스트 또는 음성을 이해하고 조작하는 방법을 탐구하는 연구 및 응용 분야로 설명
- NLP 연구 및 개발은 다음 5 가지 영역으로 분류
: 자연어 이해 , 자연어 생성 , 음성 또는 음성 인식 , 기계 번역 , 맞춤법 교정 및 문법 검사
- NLP 응용 프로그램은 자연어 텍스트와 같은 여러 학문 분야로 구성
: 처리 및 요약, 기계 번역, 사용자 인터페이스, 다국어 및 교차 언어 정보 검색, 음성 인식, 인공 지능 및 전문가 시스템 등
2. Scope and objective
- NLP 에 대한 정보, 일반 개요, 역사 및 NLP 에 대한 이전 작업을 요약 하고 NLP 의 적용을 고려.
- NLP 의 현재와 미래의 연구와 함께 NLP 의 도전과 실패도 이 논문에서 간략하게 논의
3. Previous Works On NLP (Brief History)
- NLP 연구는 기계 번역 (MT)이 자연어와 관련된 최초의 컴퓨터 기반 응용 프로그램으로 알려진 1940 년대 후반으로 거슬러 올라갑니다
- 1940 년대 후반. 제 2 차 세계 대전 중 적의 암호를 해독하는 전문 지식을 바탕으로 한 컴퓨터 번역
- 1946 년에 가장 초기의 MT 프로젝트 중 하나를 시작한 사람은 Weaver 와 Booth
- Weaver 는 언어 번역을 위한 암호화 및 정보 이론의 아이디어를 사용하도록 제안
- MT 의 초기 작업은 언어 간의 유일한 차이가 어휘와 허용 된 어순에 달려 있다는 기본 관점
- 생성 문법 [25]의 개념을 도입 한 구문 구조
- 1960 년 이후 프로토 타입 시스템 생산과 이론적 문제 모두에서 상당한 발전
- 이론적 개발 외에도 많은 프로토 타입 시스템이 개발
- 1970 년대에는 자연어 생성에 대한 실질적인 작업이 수행
- 1980 년대 초반에는 NLP 문제에 대한 격리 된 솔루션의 한계에 대한 인식이 증가
4. Natural Language Processing Overview
- LNP 는 언어학 분야에서 파생
- 점점 더 큰 말뭉치가 사용 가능 해짐에 따라 내성 기반 방법과 평가보다는 경험적 방법과 평가가 표준
- NLP 연구원은 이제 일반 텍스트를 합리적으로 잘 처리하고 언어의 가변성과 모호성의 상당 부분을 설명하는 차세대 NLP 시스템을 개발
- 품사 식별, 단어 의미 명확화 등과 같은 계산 언어학의 많은 일반적인 문제를 처리하는데 있어 통계적 접근이 번성했으며 NLP 전체에서 표준이 됨
- 더 큰 성능 지향 말뭉치의 가용성은 학습하기 위해 통계적 (머신 러닝) 방법의 사용을 지원
- 통계 처리가 인간의 수행 능력과 비슷한 수준에서 일부 언어 분석 작업을 수행 할 수 있다는 경험적 증거를 제공
- 확률 이론, 최대 엔트로피 및 상호 정보를 사용하여 시끄러운 채널 모델 / 정보 이론에서 질문을 구성하는 것은 자동 기능에 가시적인 발전을 가져 옴
- 통계적 (머신 러닝) 방법으로의 변환
- 수집 및 배포 한 기존의 광범위한 전자 리소스 (예 : Brown 말뭉치 및 기타 연구 프로그램과 같은 상당한 말뭉치)로 인해 발생했습니다.
- 그런 다음 어휘-의미 적 지식 기반을 제공하는 WordNet (즉, 처리의 의미 적 수준의 사용을 가능하게 함) 과
- 점진적으로 풍부한 알고리즘 분석 도구의 개발 및 테스트를 조정하는 골드 표준 구문 자원을 제공
- 초기 NLP 연구 (60 년대에서 80 년대까지)의 폐쇄 형 도메인에 대한 초점에서 개방형 도메인 (예 : 뉴스 와이어) 으로의 전환이 가능
- 기계 학습 방법과 결합 된 현실적 크기의 리소스 가용성이 증가함으로써 지원되었음
- 웹의 광범위한 텍스트 자원의 가용성에 의해 더욱 활성화 됨.
- 더 많은 실제 데이터를 사용하려는 이러한 움직임과 병행하여 NLP 연구원이 자신의 작업을 더 큰 규모로 평가해야 한다는 인식이 만들어 짐
- 시스템 전반에 걸쳐 실증 기반 블라인드 평가가 도입 NLP 연구 자체에 필수적인 BLEU 및 ROUGE 와 같은 측정 항목이 개발 됨
- 측정 항목은 자동으로 계산되고 결과가 연구에 다시 반영 될 수 있음
- Wiebe et al., [13]은 정보 추출에서 주관성 및 의견과 같은 점점 더 복잡한 현상이 자동으로 식별된다고 말합니다.
- Quirk et al., [12]는 최신 기계 번역 결과에서 구문 기반 MT 가 표면 수준의 단어 및 구문 대체 시스템을 능가한다고 지적
- 이러한 발전으로 인해 NLP 는 통계적 및 기호 적 방법과 WordNet과 같은 어휘 자원,
- Prop Bank와 같은 구문 및 의미 자원과 함께 테스트하고 평가할 대규모 말뭉치의 가용성을 실현
- 접근 방식은 인간과 같은 언어 이해를 현실적으로 이해하고 생산하는 목표에 기반을 두고 있음
5. Applications of NLP
- 최근 몇 년 동안 자연어 텍스트 해석 및 처리 기술도 점점 더 정교 해짐
- 문장에 대한 의미 표현을 제공하거나 표현에서 문장을 전달할 수있는 일반 엔진을 사용할 수 있음
- 공개 텍스트에서 색인 용어를 찾고 어떤 수준의 구문 분석이 적절한 지 판단하는 기능과 같이 특정 목적을 위해 매우 표적화 된 시스템을 구축 할 수 있음.
- NLP 기술은 특히 지식 습득, 정보 검색 및 언어 번역 분야에서 일상적인 비전문 사용자를 위한 사용자 친화적 인 의사 결정 지원 시스템을 만드는 데 중요 해지고 있음.
- NLP 기술은 점진적으로 증가
- 웹은 연구자들에게 전례없는 규모로 쉽게 접근 할 수있는 전자 문서 코퍼스를 제공
- 학계는 언어학 이론보다 말뭉치 통계에 더 많이 의존
- 현대 네트워크로 연결된 기계는 수백만 개의 문서를 처리하고 수십억 개의 계산을 수행하여 대규모 말뭉치의 정적 인 프로파일을 구축 가능
- 정보 검색 서비스를위한
- 전자 사전, 백과 사전, 도서관 및 아카이브, 개인 데이터베이스, 개인 이메일 및 팩스, 출판 된 문서에 이르기까지 방대한 양의 텍스트가 전자 형식으로 제공되고 있음
- 국가 정보 인프라, 디지털 도서관, 네트워크 서비스, 디지털 컨버전스 또는 지능형 에이전트에 대한 새로운 기사 없이는 하루도 지나지 않음
- A diagram showing the NLP continuum
- 문자열 매칭 과 같은 잘 이해 된 기술부터 문법 검사기, 개념 검색, 이벤트 추출 등과 같은 보다 미래 지향적 인 기술에 이르는 다양한 기술
- Word Processing and Desktop Publishing, Grammatik 6을 제공하는 WordPerfect : 문법 오류를 확인 하고 수정
- 응용 제품의 다른 예
- 유한 상태 오토마타 : 문자열에서 문자열로의 함수를 효율적으로 표현하는 실용적인 알고리즘 세트
- 변환기 기술: 수리 매뉴얼의 텍스트 데이터베이스에서 서비스 수리 질문에 대한 답변 검색
- Xerox XSoft의 Visual Recall : 정보 검색
- Xerox Imaging Systems의 Textbridge : OCR
- DDS (Desktop Document Systems) 부서를 통한 : 어휘
- The Xerox Memory-Writer 타자기 : 철자 검사기
- 등등
6. Challenges and failures
- 인간의 의사 소통을 이해하는 지능적인 컴퓨터에 대한 환상은 너무나도 매력적이며 과장은 사실상 피할 수 없다고 지적. (Church and Rau [16] : )
- 예로, 성공적인 PC 용 소프트웨어 도구 공급 업체 인 시만텍은 데이터베이스
- 쿼리를 위한 NLP 프로그램 인 Q&A 라는 제품으로 시작
- Q&A 는 훌륭하고 단순한 데이터베이스 시설을 갖춘 AI / NLP 의 고유 한 패키징 덕분에 성공적
- AI / NLP 는 초기 판매를 창출했지만 실제 가치는 데이터베이스에 있었음
- 사람들은 AI / NLP 기술에 흥미를 느끼기 때문에 제품을 구입했지만 대부분의 사용자는 결국 AI / NLP 기능을 해제 함
- 지나치게 낙관적 인 태도는 문제가 될 수 있음 너무나 자주 조증 과 같은 행복감과 심한 우울증을 유발
- 1954 년에 Georgetown University 는 현재 "장난감" 시스템 이라고 불리는 것을 시연
- 약 50 개의 러시아어 문장으로 구성된 작은 말뭉치를 영어로 번역하도록 설계되었음
- 작은 테스트 말뭉치를 넘어서 문장을 일반화하려는 시도가 거의 없었다 [16]; [29].
7. Current and Future progress of NLP
- NLP 현상에 대한 활발한 연구 중 일부에는 구문 현상이 포함
- 의미가 아닌 단어의 문법적 분류를 기반으로 한 문장의 구조 및 문장의 단어 순서와 관련된 것
- 구문 분석을 위한 차별적 모델, 대략적이고 정밀한 근사 구문 분석, 종속성 문법;
- 기계 번역 (예 : 모델 및 알고리즘, 저자 원 및 형태 학적 복잡한 언어) 의미 적 현상
- 언어가 발생하는 맥락과 상대적으로 독립적 인 문장의 만남과 관련된 것들 (예 : 정서 분석, 요약, 정보 추출, 슬롯 채우기, 담화 분석, 텍스트 연루);
- 음성과 같은 실제적 현상 : 문장의 의미를 그것이 발생하는 맥락과 관련
- 이 컨텍스트는 언어 적 (이전 텍스트 또는 대화) 또는 비언어적 (언어를 만든 사람에 대한 지식, 의사 소통의 목표, 현재 시각 영역의 대상에 대한 지식 등) (예 : 언어 모델링-구문 및 의미론, 음향 모델, 발음)
- 음성 인식 및 정보 검색이 마침내 상용화되었음 인터넷, 휴대 전화 등에 수많은 텍스트와 음성이 있음
- 언어에 관한 모든 연구가 가능함
- 이산 적 지식 (가능한 것) 및 지속적인 지식 (유사한 것)과 같은 일부 통찰력을 공식화
- 수학적으로 형식주의를 연구하고,
- 알고리즘을 개발하고 구현하고 실제 데이터에 대해 테스트
- NLP 에 수행해야하는 지속적인 향후 변경 또는 개선 사항
- 기존 인터페이스에 기능을 추가하려면 백 엔드 처리를 완전히 구현 (예 : 정보 추출 및 정규화). 데이터베이스를 구축합니다.
- 예상되는 또 다른 개선점은 번역기가 있는 휴대용 장치와 주제 검색 기능이 있는
- 개인 대화 녹음기를 갖는 것
8. Conclusions
- 텍스트 분석의 전산화 된 접근 방식으로 NLP 는 지속적으로 노력 중
- 연구자들은
- 인간이 다양한 언어를 이해하고 사용하는 방법에 대한 지식을 지속적으로 수집하려고 노력하고 있음.
- 컴퓨터 시스템이 다양한 작업을 수행하기 위해 자연어를 이해하고 조작 하게 하는 적절한 도구와 기술의개 발을 도움.
- 문자열 일치, 키워드 검색, 용어집 조회와 같은 기술은
- 이제 문법 검사기, 개념 검색, 이벤트 추출, 진행 및 전진과 같은 보다 미래 지향적 인 기술과 같이 있음.

Comments
Post a Comment