Dalam sebuah posting di blog penelitian AI-nya, Microsoft hari ini merinci sistem bahasa AI baru yang diberi nama Speller100, yang diklaim perusahaan sebagai salah satu yang paling komprehensif yang pernah dibuat dalam hal cakupan dan akurasi linguistik.
Model AI
Terdiri dari sejumlah model AI yang memahami ucapan dalam lebih dari 100 bahasa secara kolektif,
Speller100 sekarang memberdayakan semua koreksi ejaan pada Bing yang sebelumnya hanya mendukung pemeriksaan ejaan untuk sekitar dua lusin bahasa.
Untuk bahasa dengan sedikit kehadiran web, sulit untuk mengumpulkan sejumlah data yang cukup untuk melatih model koreksi ejaan.
Selain itu, sistem tidak dapat hanya mengandalkan data pelatihan untuk mempelajari ejaan suatu bahasa. Pada intinya, koreksi ejaan adalah tentang membangun model kesalahan dan model bahasa, dan tidak semua kesalahan itu sama.
Misalnya saja, kesalahan non-kata terjadi ketika sebuah kata tidak ada dalam kosakata untuk bahasa tertentu, sedangkan kesalahan kata sebenarnya terjadi ketika kata tersebut ada tetapi tidak sesuai dengan konteks yang lebih luas.
Speller100 dibangun di sekitar konsep rumpun bahasa (Language Families), atau kelompok bahasa yang lebih besar berdasarkan kesamaan yang dimiliki beberapa bahasa.
Ia juga menggunakan sistem pembelajaran zero-shot, sebuah teknik yang memungkinkan model untuk belajar dan mengoreksi ejaan tanpa data pelatihan berlabel khusus bahasa tambahan.
Guna menskalakan Speller100 ke lebih dari 100 jenis bahasa, Microsoft mengatakan bahwa mengembangkan pendekatan pra-pelatihan koreksi ejaan yang mengandalkan fungsi
untuk mengambil teks yang diekstrak dari halaman web dan menghasilkan kesalahan seperti penghapusan, penambahan, rotasi, dan penggantian.
Hal ini menghilangkan kebutuhan akan kumpulan data besar pencarian yang salah eja, memungkinkan Speller 100 mencapai 50% koreksi recall untuk kandidat teratas dalam bahasa yang tidak memiliki data pelatihan.
Diterapkan apa adanya di Bing, di mana sekitar 15% pencarian salah eja, dimana ia akan mengurangi jumlah salah eja sebesar 7,5%.
Microsoft
Untuk meningkatkan kinerja lebih jauh, Microsoft memanfaatkan kemiripan ortografik, morfologis, dan semantik antarbahasa untuk membangun lusinan atau lebih model berbasis rumpun bahasa.
Ini memaksimalkan manfaat zero-shot dan menjaga Speller100 cukup kompak untuk runtime, membuat sistem sangat sesuai untuk koreksi ejaan untuk bahasa dengan data pelatihan yang relatif sedikit, seperti bahasa Afrika dan Luksemburg.
Microsoft mengatakan bahwa hingga saat ini di Bing, Speller100 telah mengurangi jumlah halaman tanpa hasil hingga 30% dan berapa kali pengguna harus merumuskan ulang pencarian mereka secara manual sebesar 5%.
Speller 100 juga meningkatkan frekuensi pengguna mengeklik saran ejaan Bing dari 8% menjadi 67%.
Microsoft mengatakan berencana untuk menerapkan Speller100 di lebih banyak produknya ke depan.
“Koreksi ejaan adalah komponen pertama dalam tumpukan pencarian Bing karena mencari ejaan yang benar dari apa yang dimaksud pengguna meningkatkan semua komponen pencarian hilir,” manajer sains terapan utama Jingwen Lu,
manajer teknik perangkat lunak terapan utama Jidong Long, dan wakil presiden Rangan Majumder tulis di postingan blognya.
“Teknologi koreksi ejaan kami mendukung beberapa pengalaman produk di seluruh Microsoft. Karena penting bagi kami untuk memberi semua pelanggan akses ke koreksi ejaan yang akurat dan canggih,
kami menyempurnakan penelusuran sehingga mencakup lebih banyak bahasa dari seluruh dunia dengan bantuan AI skala besar. ”