(ISSN 2249-3905) Natural Language Processing: A Review


ABSTRACT 


1. Introduction 
2. Scope and objective 
3. Previous Works On NLP (Brief History) 
4. Natural Language Processing Overview 
5. Applications of NLP 
6. Challenges and failures 
7. Current and Future progress of NLP 
8. Conclusions 
References 



ABSTRACT 

  •     자연어 처리 (NLP)는 컴퓨터화 된 수단으로 텍스트를 분석하는 방법
  •     NLP 는 인간이 언어를 이해하고 사용하는 방법에 대한 지식을 수집함 
  •     NLP 는 컴퓨터 시스템이 다양한 원하는 작업을 수행하기 위해 
  •     자연어를 이해하고 조작 할 수있는 적절한 도구와 기술을 개발하기 위해 수행 됨 


1. Introduction 

  •   연구자들은 자연어 처리 (NLP) 를 유용한 일을 하기 위해 컴퓨터를 사용하여 
  •   자연어 텍스트 또는 음성을 이해하고 조작하는 방법을 탐구하는 연구 및 응용 분야로 설명
  •   NLP 연구 및 개발은 다음 5 가지 영역으로 분류  

        : 자연어 이해 , 자연어 생성 , 음성 또는 음성 인식 , 기계 번역 , 맞춤법 교정 및 문법 검사

  •   NLP 응용 프로그램은 자연어 텍스트와 같은 여러 학문 분야로 구성

        :  처리 및 요약, 기계 번역, 사용자 인터페이스, 다국어 및 교차 언어 정보 검색, 음성 인식, 인공 지능 및 전문가 시스템 등 


2. Scope and objective 

  •   NLP 에 대한 정보, 일반 개요, 역사 및 NLP 에 대한 이전 작업을 요약 하고 NLP 의 적용을 고려. 
  •   NLP 의 현재와 미래의 연구와 함께 NLP 의 도전과 실패도 이 논문에서 간략하게 논의



3. Previous Works On NLP (Brief History) 

  •  NLP 연구는 기계 번역 (MT)이 자연어와 관련된 최초의 컴퓨터 기반 응용 프로그램으로 알려진 1940 년대 후반으로 거슬러 올라갑니다 
  •  1940 년대 후반. 제 2 차 세계 대전 중 적의 암호를 해독하는 전문 지식을 바탕으로 한 컴퓨터 번역
  •  1946 년에 가장 초기의 MT 프로젝트 중 하나를 시작한 사람은 Weaver 와 Booth  
    •  Weaver 는 언어 번역을 위한 암호화 및 정보 이론의 아이디어를 사용하도록 제안 
    •  MT 의 초기 작업은 언어 간의 유일한 차이가 어휘와 허용 된 어순에 달려 있다는 기본 관점 
  • 생성 문법 [25]의 개념을 도입 한 구문 구조
  • 1960 년 이후 프로토 타입 시스템 생산과 이론적 문제 모두에서 상당한 발전 
  • 이론적 개발 외에도 많은 프로토 타입 시스템이 개발 
  • 1970 년대에는 자연어 생성에 대한 실질적인 작업이 수행 
  • 1980 년대 초반에는 NLP 문제에 대한 격리 된 솔루션의 한계에 대한 인식이 증가 


4. Natural Language Processing Overview 

  • LNP 는 언어학 분야에서 파생  
    • 점점 더 큰 말뭉치가 사용 가능 해짐에 따라 내성 기반 방법과 평가보다는 경험적 방법과 평가가 표준 
  • NLP 연구원은 이제 일반 텍스트를 합리적으로 잘 처리하고 언어의 가변성과 모호성의 상당 부분을 설명하는 차세대 NLP 시스템을 개발 
    • 품사 식별, 단어 의미 명확화 등과 같은 계산 언어학의 많은 일반적인 문제를 처리하는데 있어 통계적 접근이 번성했으며 NLP 전체에서 표준이 됨 
  • 더 큰 성능 지향 말뭉치의 가용성은 학습하기 위해 통계적 (머신 러닝) 방법의 사용을 지원 
    • 통계 처리가 인간의 수행 능력과 비슷한 수준에서 일부 언어 분석 작업을 수행 할 수 있다는 경험적 증거를 제공 
    • 확률 이론, 최대 엔트로피 및 상호 정보를 사용하여 시끄러운 채널 모델 / 정보 이론에서 질문을 구성하는 것은 자동 기능에 가시적인 발전을 가져 옴 
  • 통계적 (머신 러닝) 방법으로의 변환
    • 수집 및 배포 한 기존의 광범위한 전자 리소스 (예 : Brown 말뭉치 및 기타 연구 프로그램과 같은 상당한 말뭉치)로 인해 발생했습니다. 
    • 그런 다음 어휘-의미 적 지식 기반을 제공하는 WordNet (즉, 처리의 의미 적 수준의 사용을 가능하게 함) 과 
    • 점진적으로 풍부한 알고리즘 분석 도구의 개발 및 테스트를 조정하는 골드 표준 구문 자원을 제공 
  • 초기 NLP 연구 (60 년대에서 80 년대까지)의 폐쇄 형 도메인에 대한 초점에서 개방형 도메인 (예 : 뉴스 와이어) 으로의 전환이 가능
    • 기계 학습 방법과 결합 된 현실적 크기의 리소스 가용성이 증가함으로써 지원되었음
    • 웹의 광범위한 텍스트 자원의 가용성에 의해 더욱 활성화 됨. 
  • 더 많은 실제 데이터를 사용하려는 이러한 움직임과 병행하여 NLP 연구원이 자신의 작업을 더 큰 규모로 평가해야 한다는 인식이 만들어 짐 
    • 시스템 전반에 걸쳐 실증 기반 블라인드 평가가 도입  NLP 연구 자체에 필수적인 BLEU 및 ROUGE 와 같은 측정 항목이 개발 됨
    • 측정 항목은 자동으로 계산되고 결과가 연구에 다시 반영 될 수 있음  
  • Wiebe et al., [13]은 정보 추출에서 주관성 및 의견과 같은 점점 더 복잡한 현상이 자동으로 식별된다고 말합니다.
  • Quirk et al., [12]는 최신 기계 번역 결과에서 구문 기반 MT 가 표면 수준의 단어 및 구문 대체 시스템을 능가한다고 지적
    • 이러한 발전으로 인해 NLP 는 통계적 및 기호 적 방법과 WordNet과 같은 어휘 자원, 
    • Prop Bank와 같은 구문 및 의미 자원과 함께 테스트하고 평가할 대규모 말뭉치의 가용성을 실현
    • 접근 방식은 인간과 같은 언어 이해를 현실적으로 이해하고 생산하는 목표에 기반을 두고 있음 


5. Applications of NLP 

  • 최근 몇 년 동안 자연어 텍스트 해석 및 처리 기술도 점점 더 정교 해짐 
    • 문장에 대한 의미 표현을 제공하거나 표현에서 문장을 전달할 수있는 일반 엔진을 사용할 수 있음
    • 공개 텍스트에서 색인 용어를 찾고 어떤 수준의 구문 분석이 적절한 지 판단하는 기능과 같이 특정 목적을 위해 매우 표적화 된 시스템을 구축 할 수 있음.
    • NLP 기술은 특히 지식 습득, 정보 검색 및 언어 번역 분야에서 일상적인 비전문 사용자를 위한 사용자 친화적 인 의사 결정 지원 시스템을 만드는 데  중요 해지고 있음. 


  • NLP 기술은 점진적으로 증가 
    • 웹은 연구자들에게 전례없는 규모로 쉽게 접근 할 수있는 전자 문서 코퍼스를 제공 
    • 학계는 언어학 이론보다 말뭉치 통계에 더 많이 의존 
    • 현대 네트워크로 연결된 기계는 수백만 개의 문서를 처리하고 수십억 개의 계산을 수행하여 대규모 말뭉치의 정적 인 프로파일을 구축 가능 

  • 정보 검색 서비스를위한 
    • 전자 사전, 백과 사전, 도서관 및 아카이브, 개인 데이터베이스, 개인 이메일 및 팩스, 출판 된 문서에 이르기까지 방대한 양의 텍스트가 전자 형식으로 제공되고 있음
    •  국가 정보 인프라, 디지털 도서관, 네트워크 서비스, 디지털 컨버전스 또는 지능형 에이전트에 대한 새로운 기사 없이는 하루도 지나지 않음



  • A diagram showing the NLP continuum 
    • 문자열 매칭 과 같은 잘 이해 된 기술부터 문법 검사기, 개념 검색, 이벤트 추출  등과 같은 보다 미래 지향적 인 기술에 이르는 다양한 기술
    • Word Processing and Desktop Publishing, Grammatik 6을 제공하는 WordPerfect : 문법 오류를 확인 하고 수정  


  • 응용 제품의 다른 예
    • 유한 상태 오토마타  : 문자열에서 문자열로의 함수를 효율적으로 표현하는 실용적인 알고리즘 세트 
    • 변환기 기술: 수리 매뉴얼의 텍스트 데이터베이스에서 서비스 수리 질문에 대한 답변 검색 
    • Xerox XSoft의 Visual Recall :  정보 검색
    • Xerox Imaging Systems의 Textbridge :  OCR 
    • DDS (Desktop Document Systems) 부서를 통한 : 어휘  
    • The Xerox Memory-Writer 타자기 : 철자 검사기 
    • 등등




6. Challenges and failures 

  • 인간의 의사 소통을 이해하는 지능적인 컴퓨터에 대한 환상은 너무나도 매력적이며 과장은 사실상 피할 수 없다고 지적. (Church and Rau [16] : )
    • 예로, 성공적인 PC 용 소프트웨어 도구 공급 업체 인 시만텍은 데이터베이스 
    • 쿼리를 위한 NLP 프로그램 인 Q&A 라는 제품으로 시작
    • Q&A 는 훌륭하고 단순한 데이터베이스 시설을 갖춘 AI / NLP 의 고유 한 패키징 덕분에 성공적
    • AI / NLP 는 초기 판매를 창출했지만 실제 가치는 데이터베이스에 있었음
    • 사람들은 AI / NLP 기술에 흥미를 느끼기 때문에 제품을 구입했지만 대부분의 사용자는 결국 AI / NLP 기능을 해제 함 
  • 지나치게 낙관적 인 태도는 문제가 될 수 있음  너무나 자주 조증 과 같은 행복감과 심한 우울증을 유발
    • 1954 년에 Georgetown University 는 현재 "장난감" 시스템 이라고 불리는 것을 시연
      • 약 50 개의 러시아어 문장으로 구성된 작은 말뭉치를 영어로 번역하도록 설계되었음 
      • 작은 테스트 말뭉치를 넘어서 문장을 일반화하려는 시도가 거의 없었다 [16]; [29].


7. Current and Future progress of NLP 

  • NLP 현상에 대한 활발한 연구 중 일부에는 구문 현상이 포함
  • 의미가 아닌 단어의 문법적 분류를 기반으로 한 문장의 구조 및 문장의 단어 순서와 관련된 것 
    • 구문 분석을 위한 차별적 모델, 대략적이고 정밀한 근사 구문 분석, 종속성 문법; 
    • 기계 번역 (예 : 모델 및 알고리즘, 저자 원 및 형태 학적 복잡한 언어) 의미 적 현상 
    • 언어가 발생하는 맥락과 상대적으로 독립적 인 문장의 만남과 관련된 것들 (예 : 정서 분석, 요약, 정보 추출, 슬롯 채우기, 담화 분석, 텍스트 연루); 
    • 음성과 같은 실제적 현상 : 문장의 의미를 그것이 발생하는 맥락과 관련 
    • 이 컨텍스트는 언어 적 (이전 텍스트 또는 대화) 또는 비언어적  (언어를 만든 사람에 대한 지식, 의사 소통의 목표, 현재 시각 영역의 대상에 대한 지식 등)  (예 : 언어 모델링-구문 및 의미론, 음향 모델, 발음)
    • 음성 인식 및 정보 검색이 마침내 상용화되었음   인터넷, 휴대 전화 등에 수많은 텍스트와 음성이 있음
  • 언어에 관한 모든 연구가 가능함
    • 이산 적 지식 (가능한 것) 및 지속적인 지식 (유사한 것)과 같은 일부 통찰력을 공식화 
    • 수학적으로 형식주의를 연구하고, 
    • 알고리즘을 개발하고 구현하고 실제 데이터에 대해 테스트
  • NLP 에 수행해야하는 지속적인 향후 변경 또는 개선 사항 
    • 기존 인터페이스에 기능을 추가하려면 백 엔드 처리를 완전히 구현  (예 : 정보 추출 및 정규화). 데이터베이스를 구축합니다. 
    • 예상되는 또 다른 개선점은 번역기가 있는 휴대용 장치와 주제 검색 기능이 있는
  • 개인 대화 녹음기를 갖는 것


8. Conclusions 

  • 텍스트 분석의 전산화 된 접근 방식으로 NLP 는 지속적으로 노력 중
  • 연구자들은 
    • 인간이 다양한 언어를 이해하고 사용하는 방법에 대한 지식을 지속적으로 수집하려고 노력하고 있음.
    • 컴퓨터 시스템이 다양한 작업을 수행하기 위해 자연어를 이해하고 조작 하게 하는 적절한 도구와 기술의개 발을 도움. 
    • 문자열 일치, 키워드 검색, 용어집 조회와 같은 기술은 
  • 이제 문법 검사기, 개념 검색, 이벤트 추출, 진행 및 전진과 같은 보다 미래 지향적 인 기술과 같이 있음.