NVIDIA'dan gerçekçi deneyimiyle öne çıkan çift yönlü konuşma modeli: PersonaPlex

NVIDIA’nın Yeni Konuşma Modeli PersonaPlex, Konuşma Deneyimini Yeniden Tanımlıyor

Geçtiğimiz haftalarda NVIDIA, yeni çift yönlü konuşma modeli PersonaPlex’i duyurdu. PersonaPlex, konuşma yapay zekası için açık sinir ağı olarak tanımlanıyor ve gerçekçi bir konuşma deneyimi sunmakta başarılı oluyor. Asistan, öğretmen ve müşteri temsilcisi gibi farklı rollerde hizmet verebilen PersonaPlex, 16 farklı hazır ses profili sunarak kullanıcılara stil ve sunum açısından çeşitlilik sunuyor.

NVIDIA’nın paylaştığı bilgilere göre geleneksel konuşma sistemleri kullanıcıları garip duraklamalar, kesintiler ve doğal olmayan konuşma sırası ile karşı karşıya bırakabiliyor. Tam çift yönlü modeller, örneğin Moshi gibi, gerçek zamanlı dinleme ve konuşma ile yapay zeka konuşmalarını doğal hale getirse de kullanıcıları tek bir sabit ses ve role kilitleyebiliyor. Bu nedenle NVIDIA PersonaPlex, sesler arasından seçim yapma imkanı sunarken aynı zamanda metin komutlarıyla herhangi bir rolü tanımlayabilme özelliği sunuyor.

PersonaPlex, seçtiğiniz kişiliği koruyarak doğal konuşmaları yönetirken kesintileri ve özgün konuşma ritmini etkili bir şekilde yönetiyor. Bu sayede kullanıcılar, ihtiyaç duydukları özelleştirmeye erişebilirken konuşmaların doğal ve insan gibi hissettiren bir deneyim yaşamaktadır.

NVIDIA’nın yaklaşımı, kullanıcıların iç durumunu güncelleyen ve yanıtı hemen geri gönderen tek bir model kullanmaktadır. Konuşma davranışını tanımlamak için sesli ve metin komutlarını kullanan bu model, tutarlı bir kişilik oluşturmak için girdileri birlikte işlemektedir. Ayrıca PersonaPlex’in, 7 milyar parametreli Moshi mimarisi üzerine geliştirildiği belirtilmektedir.

NVIDIA’nın belirttiğine göre, PersonaPlex diğer açık kaynaklı ve ticari sistemlere göre soru-cevap asistanı ve müşteri hizmetleri rollerinde daha iyi performans göstermektedir. PersonaPlex’in kod ve model ağırlıkları, MIT Lisansı ve NVIDIA Açık Model Lisansı altında yayınlanmaktadır. Ayrıca temel Moshi modelinin Kyutai tarafından CC-BY-4.0 lisansıyla lisanslandığını da belirtmek gerekir.