HOME-Au
HOME-Au
24h
24h
USA
USA
GOP
GOP
Phim Bộ
Phim Bộ
Videoauto
VIDEO-Au
Home Classic
Home Classic
Donation
Donation
News Book
News Book
News 50
News 50
worldautoscroll
WORLD-Au
Breaking
Breaking
 

Go Back   VietBF > Other News|Tin Khác > Mobile News|Tin Di Động


Reply
 
Thread Tools
  #1  
Old  Default Trí tuệ nhân tạo đang giúp thu hẹp khoảng cách ngôn ngữ trên thế giới
Các công cụ trí tuệ nhân tạo, từ ChatGPT đến Google Dịch, đều vô dụng đối với hàng tỷ người ở Nam bán cầu, những người không làm việc bằng các ngôn ngữ phương Tây. Các nhà nghiên cứu và công ty khởi nghiệp từ châu Phi và nhiều nơi khác đang thay đổi điều đó.Theo Mekdes Gebrewold, người sáng lập công ty tư vấn Ashagari ở thủ đô Addis Ababa của Ethiopia, các công cụ dịch máy hiện vẫn chưa được tối ưu hóa cho ngôn ngữ địa phương. "Các công cụ như Google Dịch không được xây dựng tốt cho tiếng Amharic", cô nói. "Vì vậy, chúng tôi vẫn phải trả tiền cho các chuyên gia".Hàng tỷ người như cô Mekdes không thể tận dụng các công cụ do AI cung cấp do ngôn ngữ của họ không tương thích. Điều này không chỉ áp dụng cho AI tổng quát như ChatGPT hoặc dịch vụ dịch thuật như Google Dịch mà còn áp dụng cho một loạt công cụ khác, như dịch vụ phiên âm, trợ lý giọng nói và kiểm duyệt nội dung trên mạng xã hội.

Nhưng một số người đang làm việc để thay đổi điều đó. Về bản chất, các công cụ AI hiện đại là các công cụ tự động dự đoán câu trả lời có khả năng xảy ra nhất dựa trên thông tin đầu vào mà chúng nhận được. Những dự đoán này dựa trên một lượng lớn "dữ liệu đào tạo".

Một nguồn dữ liệu đào tạo quan trọng được gọi là nguồn thông tin chung, một bộ dữ liệu có sẵn công khai, bao gồm hàng tỷ trang web từ internet. Khoảng 60% thông tin được sử dụng để huấn luyện phiên bản 3.5 của ChatGPT đến từ nguồn thông tin này.

Tuy nhiên, do phụ thuộc vào dữ liệu đào tạo này, các công cụ AI không hoạt động khi khan hiếm dữ liệu ở một ngôn ngữ cụ thể. Đây là một vấn đề vì internet bị chi phối bởi một số ngôn ngữ chính. Đa phần các trang web đều hiển thị bằng tiếng Anh, và ngôn ngữ này đã chiếm gần một nửa trong bộ sưu tập nguồn thông tin chung.

Tiếng Amharic, cùng với tất cả các ngôn ngữ châu Phi, châu Mỹ và châu Đại Dương khác, chiếm chưa đến 0,1% trong bộ sưu tập này. Nó được biết đến như một ngôn ngữ tài nguyên thấp với ít dữ liệu kỹ thuật số có sẵn.

Trên khắp thế giới, hàng tỷ người đang nói những ngôn ngữ này, bao gồm cả những ngôn ngữ chính như tiếng Hindi, tiếng Ả Rập và tiếng Bengal. Các ngôn ngữ châu Âu xuất hiện nhiều gấp nhiều lần so với hầu hết các ngôn ngữ châu Á và châu Phi.

Ví dụ, tiếng Hà Lan được hơn 20 triệu người nói như ngôn ngữ thứ nhất, tương tự như tiếng Amharic. Tuy nhiên, tiếng Hà Lan xuất hiện nhiều hơn gần 700 lần trong bộ dữ liệu Thu thập thông tin chung và gấp hàng trăm lần so với cả tiếng Hindi, vốn có hơn 300 triệu người đang sử dụng.

Tuy nhiên, có nhiều cách để khắc phục việc thiếu dữ liệu này. Ngoài những gã khổng lồ công nghệ của Thung lũng Silicon, các nhà nghiên cứu máy học trên toàn thế giới đang phát triển các công cụ hỗ trợ AI cho ngôn ngữ của họ.

Lesan, một công ty khởi nghiệp, đang tạo ra công nghệ dịch máy và lời nói cho các ngôn ngữ của Ethiopia là Amharic và Tigrinya. Ông Asmelash Teka Hadgu, người đồng sáng lập ra Lesan, cho biết họ không có nhiều tài nguyên trực tuyến, và nhóm của ông đang làm việc trực tiếp với cộng đồng và tìm ra những cách sáng tạo để thu thập dữ liệu.

"Chúng tôi chủ yếu làm việc với những sinh viên yêu thích ngôn ngữ", ông cho biết. "Khi chúng tôi nói với họ rằng chúng tôi đang xây dựng thứ này, họ được truyền cảm hứng và muốn đóng góp. Vì vậy, chúng tôi đặt ra nhiệm vụ thu thập nội dung bằng ngôn ngữ của mình. Và chúng tôi hỗ trợ họ về mặt tài chính".

Điều này đòi hỏi rất nhiều lao động thủ công. Trước tiên, những người đóng góp xác định các bộ dữ liệu chất lượng cao, chẳng hạn như sách hoặc báo đáng tin cậy, sau đó số hóa và dịch chúng sang ngôn ngữ mục tiêu. Cuối cùng, họ sắp xếp song song từng câu giữa bản gốc và bản dịch để hướng dẫn quá trình học máy.

Với cách tiếp cận này, các công ty như Lesan không thể hy vọng có thể cạnh tranh với hàng tỷ trang nội dung tiếng Anh hiện có, nhưng họ sẽ có lợi thế tại địa phương. Điển hình là việc Lesan hiện đã vượt trội so với Google Dịch ở cả tiếng Amharic và tiếng Tigrinya.

“Bạn có thể xây dựng các mô hình hữu ích bằng cách sử dụng các tập dữ liệu nhỏ, được sắp xếp cẩn thận", ông Asmelash Teka Hadgu nói thêm. "Chúng tôi hiểu những hạn chế và khả năng của nó. Trong khi đó, Microsoft hay Google thường xây dựng một mô hình khổng lồ duy nhất cho tất cả các ngôn ngữ nên họ gần như không thể kiểm tra kỹ càng nguồn thông tin được".

Cách tiếp cận của Lesan không phải là duy nhất. Các dự án tương tự đang được triển khai thành công trên khắp thế giới, ngay cả đối với các ngôn ngữ có ít dữ liệu trực tuyến.

Hàng nghìn ngôn ngữ trên toàn thế giới, bao gồm nhiều ngôn ngữ có hơn một triệu người dùng, thậm chí còn có ít nội dung trực tuyến hơn và ít công cụ kỹ thuật số hơn.

Ông Asmelash Teka Hadgu là một thành viên của mạng lưới những người tiên phong về AI ở châu Phi. Ông cũng là nghiên cứu viên tại Viện nghiên cứu AI phân tán (DAIR), một nhóm các nhà nghiên cứu đến từ châu Phi, châu Âu và Bắc Mỹ.

Ngoài châu Phi, các nhà nghiên cứu trên khắp thế giới đang nghiên cứu các ngôn ngữ khác bao gồm tiếng Jamaican Patois, tiếng Catalan, tiếng Sudan và tiếng Māori.

Và trong khi những gã khổng lồ công nghệ như OpenAI của ChatGPT đang giữ bí mật về các công nghệ của mình, thì các sáng kiến như tập thể AI toàn cầu Hugging Face đã chia sẻ thông tin chi tiết và mô hình AI một cách tự do. Điều này giúp bất kỳ nhà nghiên cứu nào cũng có thể tạo ra các giải pháp cho ngôn ngữ của họ một cách dễ dàng hơn.

“Tài năng ở khắp mọi nơi, còn cơ hội thì không", ông Asmelash nói. "Nếu bạn muốn tạo ra loại công nghệ máy dịch tốt nhất, chẳng hạn như đối với ngôn ngữ Ghana, sẽ có một người Ghana cảm thấy đam mê và có thể làm tốt điều đó. Hãy trao quyền cho họ".
VIETBF Diễn Đàn Hay Nhất Của Người Việt Nam

HOT NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOME

Breaking News

VietOversea

World News

Business News

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

History

Thơ Ca

Sport News

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

Canada Tin Hay

USA Tin Hay

VietBF Homepage Autoscroll

VietBF Video Autoscroll Portal

Home Classic

Home Classic Master Page

VietBF iPad Music Portal

Tin nóng nhất 50h qua

Phim Bộ Online

Phim Bộ



Romano
R11 Tuyệt Thế Thiên Hạ
Romano's Avatar
Release: 07-31-2023
Reputation: 344545


Profile:
Join Date: May 2007
Posts: 138,320
Last Update: None Rating: None
Attached Thumbnails
Click image for larger version

Name:	910cfa61612c8872d13d.jpg
Views:	0
Size:	12.3 KB
ID:	2250826  
Romano_is_offline
Thanks: 9
Thanked 6,559 Times in 5,505 Posts
Mentioned: 3 Post(s)
Tagged: 0 Thread(s)
Quoted: 38 Post(s)
Rep Power: 174
Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10
Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10
Reply

User Tag List

Thread Tools

Chiến lược an ninh mới của Trump: Hạ giọng với Trung Quốc, đặt cược tất tay vào kinh tế và lá bài Đài Loan Kho ảnh mới từ dinh thự Jeffrey Epstein: Bóng dáng giới quyền lực và cuộc đấu Trump – Quốc hội Mỹ Cây chổi cho Donald Trump
Nước Mỹ Trump đang kéo châu Âu đi đâu? Nền kinh tế chữ K: 79 ngàn tỷ đô bị “ăn cắp” khỏi túi người lao động Mỹ Khi Trump “đại tu” FEMA và tấn công các cơ quan độc lập
Ukraine đánh thẳng vào “cây ATM năng lượng” của Nga, NATO cảnh báo: chiến tranh đã ở ngay trước cửa Tyler Robinson lần đầu trực tiếp xuất hiện trước tòa: Vụ ám sát Charlie Kirk và câu hỏi về thù hận chính trị ở nước Mỹ Chính quyền Trump chính thức mở trang mạng để bán "thẻ vàng định cư"
Ba người Việt bị ICE bắt ở New Orleans: Từ giấc mơ Mỹ đến nguy cơ bị trục xuất Hai anh em sinh đôi trở về Việt Nam tìm mẹ ruột sau 24 năm và người mẹ Mỹ mang trái tim Bồ Tát Cuối năm phố tắt đèn: Cơn sóng trả mặt bằng và tiếng thở dài của tiểu thương
Tin đồn ông Nguyễn Xuân Phúc xin qua Mỹ định cư: Tấm thẻ đảng và cánh cửa di trú Hoa Kỳ Netflix tung đòn 28 USD/cổ phiếu: Trận quyết đấu cuối cùng của ‘chiến tranh streaming’? Cơn sốc 50.000 USD: Mua xe mới ở Mỹ sắp thành xa xỉ phẩm?
Làn sóng hủy show Nhật Bản ở Trung Quốc: Khi chính trị tắt đèn sân khấu Mãn kinh – chương đời bị bỏ quên của một nửa nhân loại Cuộc họp nội các thật hỗn loạn của ông Trump
Miền Trung chết đuối trong hai chữ “đúng quy trình” Nhật Bản thời Takaichi: Khi Tokyo thôi “hiền lành” và trở thành đối trọng cứng rắn với Bắc Kinh Từ lũ dữ miền Trung đến “Công ước Hà Nội”: Khi khế ước xã hội bị xé bỏ
Phú Yên không còn quan tài: Tiếng khóc giữa đại hồng thủy và những chuyến xe chở tình người Mafia công nghệ 4.0: Từ vụ Alice Guo đến cuộc cạnh tranh quyền lực ngầm ở Đông Nam Á Người đàn ông mang trạm sạc đến nối lại tin tức giữa vùng lũ
“Lũ nhân tạo” ở Việt Nam: Khi dòng sông bị bẻ cong vì thủy điện Đêm 19-11 và tiếng kêu giữa lũ dữ: Khi “đúng quy trình” nhấn chìm niềm tin của dân Lời nói dối “người Mỹ không làm việc này” và cái giá của cả một quốc gia
Đức dựng lại “đạo quân mạnh nhất châu Âu”: Tham vọng của Merz và nỗi lo nghĩa vụ quân sự Thích Trí Quang: Từ “vì đạo pháp và dân tộc” đến 44 năm im lặng Khi Bắc Kinh dọa “chặt đầu” bà đầm thép Sanae Takaichi
Trump hô tội “phản loạn, xử tử hình” 6 dân biểu Dân Chủ: chính trường Mỹ trượt sát lằn ranh bạo lực Ukraine giữa gọng kìm: Kế hoạch hòa bình của Trump và bóng ma drone Rubicon trên bầu trời chiến tranh Kinh tế Mỹ “chạy hết ga, nhưng ghế trống”: Nỗi lo suy thoái không việc làm dưới thời Trump
Hai thẩm phán liên bang chặn lệnh Trump “bóp cổ” ngân sách cứu trợ thiên tai để ép bỏ DEI và hỗ trợ di trú Đêm lũ cuốn trôi Camp Mystic: từ bức vẽ ám ảnh của bé Lulu đến 27 sinh mạng nhỏ bị bỏ rơi Từ cái chết Pamela Genini đến bóng tối đè lên phụ nữ Ý dưới thời Giorgia Meloni

 
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

iPad Videos Portal Autoscroll

VietBF Music Portal Autoscroll

iPad News Portal Autoscroll

VietBF Homepage Autoscroll

VietBF Video Autoscroll Portal

USA News Autoscroll Portall

VietBF WORLD Autoscroll Portal

Home Classic

Super Widescreen

iPad World Portal Autoscroll

iPad USA Portal Autoscroll

Phim Bộ Online

Tin nóng nhất 24h qua

Tin nóng nhất 3 ngày qua

Tin nóng nhất 7 ngày qua

Tin nóng nhất 30 ngày qua

Albums

Total Videos Online
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

Tranh luận sôi nổi nhất 7 ngày qua

Tranh luận sôi nổi nhất 14 ngày qua

Tranh luận sôi nổi nhất 30 ngày qua

10.000 Tin mới nhất

Tin tức Hoa Kỳ

Tin tức Công nghệ
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

Super News

School Cooking Traveling Portal

Enter Portal

Series Shows and Movies Online

Home Classic Master Page

Donation Ủng hộ $3 cho VietBF
Lên đầu Xuống dưới Lên 3000px Xuống 3000px
Diễn Đàn Người Việt Hải Ngoại. Tự do ngôn luận, an toàn và uy tín. Vì một tương lai tươi đẹp cho các thế hệ Việt Nam hãy ghé thăm chúng tôi, hãy tâm sự với chúng tôi mỗi ngày, mỗi giờ và mỗi giây phút có thể. VietBF.Com Xin cám ơn các bạn, chúc tất cả các bạn vui vẻ và gặp nhiều may mắn.
Welcome to Vietnamese American Community, Vietnamese European, Canadian, Australian Forum, Vietnamese Overseas Forum. Freedom of speech, safety and prestige. For a beautiful future for Vietnamese generations, please visit us, talk to us every day, every hour and every moment possible. VietBF.Com Thank you all and good luck.

Lên đầu Xuống dưới Lên 3000px Xuống 3000px

All times are GMT. The time now is 13:17.
VietBF - Vietnamese Best Forum Copyright ©2005 - 2025
User Alert System provided by Advanced User Tagging (Pro) - vBulletin Mods & Addons Copyright © 2025 DragonByte Technologies Ltd.
Log Out Unregistered

Page generated in 0.10818 seconds with 15 queries