Please use this identifier to cite or link to this item: https://scholar.dlu.edu.vn/handle/123456789/1015
Title: Xây dựng ngữ liệu song ngữ Việt-K'Ho
Authors: La, Quốc Thắng 
Đoàn, Minh Khuê 
Nguyễn, Thị Lương 
Trần, Ngô Như Khánh 
Hoàng, Minh Tiến 
Keywords: Gióng câu;Gióng từ;Mô hình BERT;Mô hình IBM;Song ngữ;Tách câu;Tách từ
Issue Date: 2022
Place of publication: Đà Nẵng
Publisher: Nhà Xuất bản Đà Nẵng
Issue: 21
Pages: 201-210
Conference: Hội thảo Khoa học Quốc gia CITA 2021 - Công nghệ Thông tin và Ứng dụng trong các lĩnh vực lần thứ 11
Abstract: 
Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn.

A bilingual corpus is a collection of texts of two languages translated 1-1 seman-tically. It is a valuable data source in natural language processing, especially sta-tistical machine translation. Due to the limitation of the size of the dictionary data source, it is necessary to augment the dictionary by collecting additional data sources. This study introduces a process of processing and aggregating Vietnam-ese-K'Ho dictionary data from various sources using word alignment on bilingual text to extract bilingual word pairs with translation relationships. The experi-mental results showed that the IBM model-based word aligner was more effec-tive than the BERT model-based aligner with faster execution time.
URI: https://scholar.dlu.edu.vn/handle/123456789/1015
Type: Bài báo đăng trên KYHT trong nước (có ISBN)
Appears in Collections:Kỷ yếu hội thảo (Khoa Công nghệ thông tin)

Show full item record


CORE Recommender

Page view(s)

202
Last Week
9
Last month
5
checked on Apr 1, 2026

Google ScholarTM

Check




Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.