Google Cloud Text-To-Speech Geliştiricilerin Kullanımına Sunuldu

Google bulut araçlarının en son üyesi yeni bir yapay zeka ürününü tanıttı. Google Cloud Text-To-Speech, adı verilen ürün bir geliştiricinin veya işletmenin talebi üzerine uygulama, web sitesi ya da akıllı asistan farketmeksizin konuşmaları sentezleyebiliyor.

Google’ın yeni ürününde dikkat çeken önemli konulardan biri de WaveNet ile yapılan iş birliğidir. Çünkü WaveNet sesli asistanlarda aşina olduğumuz robotik ses tonunun asıl nedeni olan hece parçalarını birleştirerek çalışmıyor. Bunun yerine, WaveNet daha doğal bir sesin ortaya çıkmasını sağlayan ham ses üzerine çalışan makine öğrenme modelini kullanıyor.Bu da Google’ın daha gerçekçi bir ses tonunu yakalamaya çalıştığını gösteriyor.

Cloud Text to Speech’İn aynı zamanda 12 dilde 32 farklı ses seçeneği bulunuyor. Geliştiriciler sistemin ürettiği MP3 veya WAV sesin düzeyini, konuşma hızını da kişiselleştirebiliyorlar. Ancak yinede bazı tonlarda mükemmel telafuzun yakalanamayacağını da belirtmek gerekiyor.

Yapılan testlerde kullanıcıların WaveNet’in sesini standart seslerden yüzde 20 daha iyi bulduğu belirtiliyor. Cloud Text-To-Speech modelinin, konuşurken eskiye oranla artık 1.000 kat daha hızlı oluğu da gelen haberler arasında yer alıyor.

Markalar Ses Stratejisi Geliştirmeli

İşin alt yapısını algılamak biraz karmaşık olsa da aslında bizim vurgulamak istediğimiz yer sesin kullanımının yaygınlaşmasının pazarlama sektöründe yaşatacağı değişimdir. Sesin kullanımı kolaylaştıkça ve yaşanan pürüzler azaldıkça kullanımı da yaygınlaşacaktır. Mesela kullanımın yaygınlaşmasıyla sesli aramalarda çoğalacaktır. Tüm bu gelişmeler ise markaları şimdiden bir ses stratejisi hazırlamaya yönlendiriyor.

Yapılan araştırmalar 2020 yılında aramaların %50’sinin sesle yapılacağını söylüyor. Sesli asistanların hayatımızdaki rolü gitgide artacağa benziyor. Sesli asistanlar konusunda kaleme aldığımız diğer haberleri okumak için buraya tıklayabilirsiniz.