(Abstract) 이 논문은 문서 제목에서 생성된 의사 레이블을 활용하는 비지도 키프레이즈 생성(UKG)을 위한 새로운 접근 방식인 제목 구문 생성(TPG)을 소개합니다. 이전 UKG 방법은 코퍼스에서 모든 구문을 추출하여 구문 뱅크를 구축한 다음, 구문 뱅크에서 문서와 관련된 후보 부재 키프레이즈를 뽑아 의사 레이블을 생성합니다. 그러나, 우리는 문서 제목을 문서 본문에서 분리할 때, 문서 본문에 포함되지 않은 상당 수의 구문이 제목에 포함되어 있다는 것을 관찰했습니다. 이 관찰에 기반하여, 우리는 문서 제목에서 추출한 구문을 사용하여 의사 레이블을 생성하는 효과적인 방법을 제안합니다. 우리는 이러한 의사 레이블(TPG)을 사용하여 BART를 초기 훈련시키고, 그 다음에 소량의 인간 주석이 달린 데이터에 대한 지도 학습 세분화(LRFT)를 수행합니다. 다섯 개의 벤치마크 데이터셋에서의 실험 결과는 우리의 방법이 더 적은 레이블 데이터를 사용함에도 불구하고 기존의 저자원 키프레이즈 생성 접근 방식들을 능가함을 보여주며, 부재 키프레이즈 생성에서의 강점을 보여줍니다. 게다가, 우리의 모델은 TPG만을 사용하여 훈련되었고, 어떠한 레이블 데이터도 사용하지 않았음에도 불구하고, 구문 뱅크를 사용하는 이전 UKG 방법보다 우월함을 보여주며, 제목을 활용하는 것의 효과성을 강조합니다.
-
- 대표 발명자
- 신유현
-
- 출원번호
-
10-2024-0079081
(2024-06-18)