Bağımsızlık Demokrasi Özgürlük Eşitlik Birlik

‘Common Voice çalışması Çerkes halkının ortak projesi haline gelmeli’

Aralık 2024’te sosyal medyada Mozilla – Common Voice Circassian adlı sayfanın açıldığını gördük. Ocakta da “2025 Çerkesçenin yılı olacak”, “Çerkesçe unutuluyor”, “Çerkesçe kırılgan” türü paylaşımları… Konunun ayrıntılarını, çalışmayı organize eden İstanbul Okan Üniversitesi Çeviribilim Bölüm Başkanı Dr. Öğr. Üyesi Murat Topçu’ya (Papşu) sorduk.


-Öncelikle konuya dair malumatı olmayanlar için Mozilla nedir, Common Voice nedir anlatır mısınız?

-Common Voice, daha çok Firefox tarayıcısı ile tanınan Mozilla şirketine ait, bir topluluğun gönüllüleri öncülüğünde veri seti oluşturmaya yönelik ücretsiz, açık kaynaklı bir platform. Mozilla, dünyada ses veri setlerinin çoğunun büyük şirketlere ait olduğundan ve bunun da inovasyonu engellediğinden, ayrıca dünyadaki her dil ve demografik topluluğun yeterince temsil edilmediğinden hareketle 2019’da bu projeyi başlattı. Dünyanın her yerinden, farklı diller konuşan insanları, seslerini paylaşmaları için harekete geçirerek bunu değiştirmek istiyorlar. Common Voice’ta bugüne kadar 130 dile ulaşıldı ve bu sayı giderek artıyor.

-Çalışmanın açık kaynak olacağını ve yapay zekâya Çerkesçe öğretileceğini biliyoruz, bunu biraz açar mısınız?

-Yapay zekâ artık hayatımızın önemli bir parçası. Bilimkurgu filmlerinin artık gerçek olduğunu görüyoruz; gelecekte yapay zekânın neler yapabileceğini öngörmek bile güç. Common Voice platformunda yapay zekâya öğretilen Çerkesçe, yani toplanan veri seti en başta sesin yazıya, yazının sese aktarılmasında, sesli komutla çalışan programlarda ve cihazlarda, çeviri uygulamalarında, dil öğretiminde, dilbilim araştırmalarında kullanılabilecek.

Çerkesçe gibi tehlike altında olan diller için önemli bir yönü de dilin kayıt altına alınması. Bu şekilde korunması ve gelecek kuşaklara aktarılması mümkün olabilecek. Bu sayede farklı ülkelerde yaşayan ve Türkçe, Rusça, Arapça etkisi altında, farklı lehçe ve ağızlarda konuşan Çerkeslerin konuşmaları kayıt altına alınacak, ki bu kayıtlar büyük bir bütçeyle, büyük bir araştırma ekibiyle yıllarca sürecek bir çalışmayla bile elde edilemez.


https://commonvoice.mozilla.org/
https://bit.ly/cv_circassian_start_here
Telegram: https://bit.ly/cv_circassian_telegram_global
Facebook: https://www.facebook.com/commonvoice.circassian
Instagram: https://www.instagram.com/commonvoice.circassian
X: https://x.com/CV_Circassian
YouTube: https://www.youtube.com/@CommonVoice.Circassian


-Çalışmalara nasıl başladınız?

-Common Voice, dilini teknolojiye öğretmek veya kayıt altına almak isteyen herkese açık bir platform. Başvurarak kendi dilinizi açtırabiliyorsunuz. Ancak organize olmadan, gönüllü çalışacak bir ekip oluşturmadan devamını getirmek çok zor. Daha önce, 2020-2023 yıllarında İstanbul Kafkas Kültür Derneği (İKKD) ve Laz Enstitüsü ortaklığında bir AB projesi yapmış ve yapay zekâ konusunda eğitim aldığımız Bülent Özden ile tanışmıştık. Bülent Özden, Common Voice’ta Türkçeyi organize eden, teknik konuları ve sistemin işleyişini çok iyi bilen bir bilgisayar mühendisi ki o olmasa bu projeye başlayamaz ve yürütemezdik.

Mozilla’nın “kırılgan ve kaynakları yetersiz” dilleri Common Voice’a katılmaya teşvik etmesi ve tanışıklığımız sonucu Çerkesçe için bunu organize etme önerisi geldi. Ağustos 2024’te küçük bir ekiple işe giriştik. İki lehçeyi Çerkesçe (Circassian) adı altında iki varyant olarak açtırmayı başaramadık. Çünkü International Language Association (ILA) tarafından bunlar Adyghe (ady) ve Kabardian (kbd) olarak kaydedilmiş ve iki ayrı dil kabul ediliyor. İlke gereği her dilin adı ve arayüzü Common Voice’ta o dilde olmak zorunda. Dolayısıyla Адыгабзэ ve Адыгэбзэ (Къэбэрдей) adları altında iki arayüz hazırladık ve zorunlu çevirileri tamamlayarak sayfaların açılmasını sağladık. Eylül 2024’te deneme kayıtlarına başladık.

-Sistem nasıl işliyor?

-Common Voice esas olarak ses ve yazının eşleştirilmesi mantığıyla çalışıyor. Karşınıza bir cümle çıkıyor, okuyor ve kaydediyorsunuz. Common Voice deyişiyle ‘sesinizi bağışlıyorsunuz’. Yapay zekâ açısından aynı cümleyi ne kadar farklı kişi seslendirirse o kadar iyi. Burada doğru telaffuz değil, cümlenin/kelimelerin tam olarak okunması önemli. Her insanın konuşma şekli, telaffuzu farklı olabiliyor. Yaşa, cinsiyete, lehçe ve ağızlara bağlı farklılıklar var. Bütün bu farklılıkların olduğu gibi kaydedilmesi önemli. Kayıt yaptığınız her cümleyi dinleyip beğenmediyseniz tekrar kayıt yapabilirsiniz. Beş cümlelik kayıttan sonra sisteme gönderiyorsunuz.

Her iki lehçe için Kafkasya’daki yazı dilini esas aldık. Dolayısıyla cümleler Kiril alfabesiyle yazılıyor ve içlerinde Rusçadan alıntı kelimeler olabiliyor. Bu nedenle kayıtlara önce Kiril alfabesini bilenlerle başladık. Türkiye’de Çerkesçe bilip Kiril alfabesi bilmeyen büyük çoğunluğun kayıt yapabilmesi için Şubat 2025 itibariyle Latin transliterasyonu devreye soktuk. Ancak ne kadar başarılı olacağını henüz bilmiyoruz.

Diğer önemli bir gelişme de, Common Voice’un Beta projesi olarak geliştirilen doğaçlama konuşma özelliğinin yakında devreye girecek olması. Burada okunması istenen cümleler değil, cevap verilmesi istenen sorular olacak. Kaydedilen konuşmalar daha sonra deşifre edilecek. Yazılı olarak çıkacak soruların sesli de olabilmesi için öneride bulunduk.

-Veri girişinde nasıl bir yol izliyorsunuz? Örneğin bir kitaptan/gazeteden pasajlar okunsa olur mu?

-Her iki lehçe için ayrı ayrı olmak üzere 150 karakteri ve 14 kelimeyi geçmeyen cümleler hazırlanıyor. Bu cümleler en az iki kişi tarafından kontrol edildikten ve onay aldıktan sonra sisteme yükleniyor. Dörder bin cümle ile başladık, şimdi ayda 800-1.000 cümle ekliyoruz. Telif sorunu nedeniyle kitaplardan cümle alınması istenmiyor, biz de topluluk olarak günlük hayatla ilgili cümleleri bulutta, ortak bir alanda birlikte yaratıyoruz. Bu kriterlere uyan cümleleri isteyen herkes Common Voice sayfasından sisteme yükleyebilir veya iletişim gruplarına katılarak dosya olarak bize iletebilir.

Bir kitaptan cümle ya da pasaj okunması sistemin işleyişi bakımından mümkün değil. Sisteme girilen cümleler tesadüfi olarak karşınıza çıkıyor. Öncelikle en az kayıt alan cümleler gösteriliyor. Zor görünen, okumak istemediğiniz cümleler olursa atlayabiliyorsunuz ve bir daha karşınıza çıkmıyor.

Okuyup kaydettiğiniz cümlelerin tekrar karşınıza çıkmaması için hesap oluşturup kayıtlı kullanıcı olmanız gerekiyor. Verilerin sağlığı ve doğru analizi (yaş aralığı, cinsiyet, lehçe ağız vb.) bakımından da kayıtlı olmak önemli.

-Kaydedilen veriler ne tür bir süzgeçten geçiyor, nasıl onaylanıyor?

-İsteyen herkes ‘dinle’ bölümünden başkalarının yaptığı kayıtları dinleyebilir, evet-hayır butonlarıyla onay verebilir veya reddedebilir. Ancak kullanım kılavuzunda yer alan değerlendirme kriterlerini okumadan bunu yapmak sakıncalı. İki onay oyu alan kayıt, sistem tarafından kabul ediliyor ve veri kümesine ekleniyor, iki ret alansa çöpe gidiyor. Bir evet bir hayır durumundaysa sonucu üçüncü oy belirliyor. Cümlelerde yazım veya gramer hatası fark ederseniz; ırkçı, ayrımcı, aşağılayıcı ifadeler görürseniz; başka bir dilden cümle karşınıza çıkarsa raporlayabilirsiniz. Yazım hataları elbette en sık raporlananlar. Rusça kelime olan cümleleri ‘başka dil’ diye raporlayanlar da az değil…

“Çalışmanın Çerkesçe gibi tehlike altında olan diller için önemli bir yönü de dilin kayıt altına alınması. Bu şekilde korunması ve gelecek kuşaklara aktarılması mümkün olabilecek. Bu sayede farklı ülkelerde yaşayan ve Türkçe, Rusça, Arapça etkisi altında, farklı lehçe ve ağızlarda konuşan Çerkeslerin konuşmaları kayıt altına alınacak, ki bu kayıtlar büyük bir bütçeyle, büyük bir araştırma ekibiyle yıllarca sürecek bir çalışmayla bile elde edilemez”

-Çalışma grubunda yer alan kişiler ne tür vasıflara sahip?

-Common Voice tamamen gönüllülük esasına göre çalışan bir sistem. Hazırlık aşamasında Düzce ve Kayseri merkezli iki gönüllü ekip oluştu. Arayüz çevirilerini çoğunlukla onların özverili çalışmalarıyla yaptık. Eğitim almadığımız, genelde konuşma dilinden ibaret dil becerilerimizle Çerkesçede olmayan bir terminolojiyi yaratmak hiç kolay olmadı. Aslında tam olarak da bitmedi, yapılanların da iyileştirilmesi gerekiyor. Bu aşamada, beklemediğim şekilde, anavatandan hemen hiç destek alamadık. Bireysel veya kurumsal olarak dille ilgilendiğini bildiğim aktivist, öğretmen, eğitmen vd. tüm tanıdıklar ya kendi projeleriyle meşguldü ya da bilmediğim sebeplerle konuyla ilgilenmediler.

Neyse ki ilerleyen zamanlarda doğru kişilere ulaşmayı başardık. Burada, artık Eskişehirli olan Elizaveta Gogunokova’nın adını anmadan geçemem. Dahil olduğundan beri hem kişisel katkılarıyla hem de ekibe kattığı kişilerle bizi çok ileriye taşıdı.

-Çerkesçeye ilişkin sosyal medyadaki ilgi çekici duyurularınız neyi amaçlıyor? Ne tür bir çalışma başlattınız?

-Common Voice, benim ya da belli bir ekibin sahibi olduğu bir proje değil. Anadili için kaygı duyan, gelecekte ve hatta günümüzde yapay zekânın önemine, ona Çerkesçe öğretmenin gereğine inanan herkesin katılabileceği, sadece ‘sesini bağışlayarak’ destek verebileceği bir proje. Biz sadece hazırlığını ve organizasyonunu yaptık, tekerleğin ilk kez dönmesini sağladık. İlk hedefimiz mart ayı sonuna kadar 10’ar saat kayıt süresine ulaşmaktı. Bu hedefimize şubat ortasında ulaştık.

Yapay zekâ bir dilde ortalama 100 saatlik kaliteli veri setiyle işe yarar bir şeyler üretmeye başlıyor. Fakat Common Voice ekibi Çerkesçenin harflerini ve seslerini gördükten sonra bu süre 1.000 saate çıktı. Yapay zekâ birbirine yakın sesleri zor ayırt ettiğinden ve bu sesler bizim dilimizde bol miktarda bulunduğundan herhangi bir dilden on kat fazla veri gerekiyormuş.

Dolayısıyla bu, belli bir süre sonra bitecek bir proje değil. Yıllarca sürecek, yüzlerce binlerce kişinin katılımıyla amacına ulaşabilecek bir proje. Common Voice Çerkes halkının ortak projesi haline gelmeli. Kampanyamız da işte bunu sağlamayı amaçlıyor. Hazırlıklarımızı büyük ölçüde tamamladıktan, belli süre kayıt aldıktan sonra kampanyaya başladık. Mümkün olduğunca çok kişiye bunun önemini anlatmayı, az ya da çok katkı vermelerini sağlamayı hedefliyoruz.

Yapay zekâ açısından ideal olan, aynı kişilerin uzun süre kayıt yapması değil, farklı kişilerin az süre de olsa kayıt yapması. En az 1.000 cümle okuyarak kayıt yapmak yeterli sayılıyor. Yani Çerkesçe bilenlerin hayatından 4-5 saati buna ayırmasını istiyoruz. Birkaç günde bir 10-15 dakika kayıt yapmak zor değil ama çok değerli bir katkı olacak.

-Çalışmaya katılmak isteyenler ne yapmalı?

-Katılmak isteyenler https://commonvoice.mozilla.org sitesine girip kayıt olabilir. Çalışmak istediği dili seçip okuma-kayıt yapmaya, kayıtlara onay vermeye başlayabilir. Fakat gerekli bilgileri edinmeden bunu yapmayı önermiyorum. CV-Çerkesçe (TR) Telegram grubunda katılımcılara her türlü bilgi, gerekirse görüntülü eğitim veriliyor, sorular cevaplanıyor, teknik sorunlara çözümler bulunuyor. Facebook, Instagram, YouTube vd. sosyal medya hesaplarımızdan (CommonVoice Circassian) bilgi alınabilir, bizimle iletişime geçilebilir.

-Sesin kötü amaçlı kullanılması çok tartışılan konulardan biri. Bu konuda çekincesi olanlar için neler söylersiniz?

-Yapay zekânın kötü amaçlı kullanımına sıklıkla rastlıyoruz. İnsanların sesleri görüntülere eklenerek farklı amaçlarla kullanılabiliyor. Ancak bunun için ses-görüntü eşleşmesi zorunlu. En azından sesin sahibinin kimliği biliniyor olmalı. Bu tür suiistimaller genelde sesine ve görüntüsüne kolay ulaşılabilen ünlülerle yapılıyor.

Bizim durumumuzda kaygı duyulacak bir şey olmadığını düşünüyorum. Çünkü, birincisi, profil oluştururken açık kimlik bilgilerinizi vermiyorsunuz (Görünen kullanıcı adınız gerçek adınızdan farklı olmalı, mail adresiniz kullanıcı adınız olmamalı). Dolayısıyla sesinizle kimliğinizin eşleşmesi mümkün değil. İkincisi, Çerkesçe banka veya herhangi bir dolandırıcılıkta kullanılamaz. Binde bir ihtimal, kötü amaçlı bir videoda kullanılırsa, sesinizi tanıyanlar olabilir belki. Elbette çekincesi olanların kararına saygı duymak zorundayız.

-Bizler yani kullanıcılar bu veri havuzundan nasıl yararlanacağız?

-Mozilla diğer şirketlerden farklı olarak ‘açık erişim’ politikası uyguluyor, isteyen herkes her dilin veri setine ulaşabiliyor. Veri seti belli bir hacme ya da süreye ulaştıktan sonra erişime açılıyor. Common Voice anasayfasından her dilin mevcut verileri indirilebilir. Profil sayfanızdan kendi kayıtlarınızın verilerini de her zaman indirebilirsiniz.

 

Erdoğan Yılmaz
Erdoğan Yılmaz
1959 yılında Pınarbaşı-Kayseri’de doğdu. Mimar Sinan Güzel Sanatlar Üniversitesi Mimarlık Bölümü’nde lisansını 1984’te tamamladı. Gerek yurtiçinde gerek yurtdışında pek çok mimari yapı proje ve uygulama alanında mimar olarak çalıştı. Bahçeşehir Üniversitesi bünyesinde Milli Eğitim Bakanlığı seçmeli ders kitaplarından Adığabze Doğu Diyalekti’nin ilk modülünün hazırlanmasında yer aldı. Adığabzeden yaptığı çeviriler pek çok internet sitesinde ve Jıneps gazetesinde yayımlandı. 1980’den itibaren çeşitli dönemlerde İstanbul Kafkas Kültür Derneği bünyesinde halk dansları ekibinde görev aldı. 2018-2019’da İstanbul Bilgi Üniversitesi’nin “Türkiye’de Kültürel Çoğulluğun Bağımsız Araştırmacıları ve Sivil Toplum Kuruluşları İçin Ağ Oluşturma ve Eğitimi”ne katıldı. Aralık 2018’den bu yana Jıneps gazetesi yayın kurulu üyesidir.

Yazarın Diğer Yazıları

‘İlk amacımız daha güçlü bir STK haline gelmek’

Abhazya’da Alabaşa Apsnı Derneği’nin adını duyduğumuzda Yayın Kurulu Üyemiz Zafer Süren’in gazetemizde Nisan 2018’de kaleme aldığı “Alabaşa”* başlıklı yazısında geçen şu atasözünü anımsadık: “Bilge...

Seslerin izinde zamana yolculuk…

Erciyes Üniversitesi Öğretim Üyesi Dr. Madina Pashtova ile geçen eylül ayında gerçekleştirdikleri, “En ilginç çalışmalarımdan biriydi” diye nitelediği lehçebilim ağırlıklı saha çalışmasını konuştuk. -Madina,...

‘Bir coğrafyayı fetih yöntemleri artık silah, top tüfek değil, banknotlar…’

İstanbul Abhaz Kültür Derneği, İstanbul Kafkas Kültür Derneği, Kafkas Vakfı, MarmaraKaf, YıldızKaf ile Şamil Eğitim ve Kültür Vakfı’nın 6 Mart’ta düzenledikleri ortak etkinliğin konuğu...

Sosyal Medyalarımız

4,890BeğenenlerBeğen
1,353TakipçilerTakip Et
4,000TakipçilerTakip Et

Son Yazılar

- Advertisement -spot_img