Ağız ve Dudak Hareketlerini Okuyan Gözlük: EchoSpeech
Ağız ve Dudak Hareketlerini Okuyan Gözlük: EchoSpeech

Yukarıdaki videoda, doktora öğrencisi olan Ruidong Zhang kendi kendine konuşuyor gibi görünebilir fakat aslnda akıllı telefonunun kilidini açmak veya çalma listesindeki bir sonraki şarkıyı oynatması için  fısıldayarak konuşuyor ve geliştirilen EchoSpeech adındaki, görünüşte sıradan fakat ağız ve dudak hareketlerine dayalı olarak 31 adede kadar seslendirilmemiş komutu sürekli tanıması için akustik algılama ve yapay zeka kullanılarak geliştirilen gözlükle bunu başarıyor.

Bu akıllı gözlüğü geliştiren Cornell Üniversitesi’ndeki araştırmacılar, komutları tanıması ve bir akıllı telefonda çalıştırılabilmesi için yalnızca birkaç dakikalık kullanıcı eğitimi verisi gerektirdiğini belirttiyorlar. Kalem silgisinden daha küçük bir çift mikrofon ve hoparlörle donatılan, yüze ses dalgaları gönderip alan ve ağız hareketlerini algılayan, yapay zeka destekli giyilebilir bir sonar sistem olan EchoSpeech yine Cornell Üniversitesi’ndeki araştırmacılar tarafından geliştirilen bir derin öğrenme algoritmasıyla, bu yankı profillerini gerçek zamanlı olarak yaklaşık %95 doğrulukla tahmin ediyor.

Cornell Üniversitesi’ndeki araştırmacılar, daha önceden de makine öğrenimi ve giyilebilir minyatür video kameralar kullanarak vücut, el ve yüz hareketlerini izleyen birkaç giyilebilir cihaz geliştirdiler. Son zamanlarda araştırmacılar, pil ömrünün iyileştirilmesini amaç edinerek yüz ve vücut hareketlerini izlemek için kameralardan uzaklaşıp, akustik algılama üstünde çalışmalara başladı ve  daha sıkı güvenlik ve gizlilik ve daha küçük, daha kompakt donanım olan giyilebilir kulaklık EarIO adlı benzer akustik algılama cihazını geliştirdiler.

Peki bu gözlük nerelerde kullanılması planlanıyor? Ses tellelerinde veya farklı sebeblerden dolayı sesleri çıkmayan kişiler için bu sessiz konuşma teknolojisi hastalara seslerini geri veremese de sesli komutla yapılacak işlemleri ses çıkarmadan ağız ve dudak hareketleriyle rahat bir şekilde yapabilecekler. Ayrıca kütüphane gibi konuşmanın uygunsuz olduğu yerlerde, başkalarıyla akıllı telefon aracılığıyla iletişim kurmak için kullanılabilecek. Sessiz konuşma arabirimi ayrıca bir kalemle eşleştirilebilecek ve çizim programlarıyla birlikte kullanılabilecek, bu da klavyeye ve fareye ihtiyaç duymadan rahatlıkla sessizce çizim yapılabilmesine olanak sağlayacaktır.

EchoSpeech gibi akustik algılama teknolojisi, giyilebilir video kameralara olan ihtiyacı ortadan kaldıracaktır. Cornell Üniversitesi’nde  Profesör olan François Guimbretière, ses verilerinin, görüntü veya video verilerinden çok daha küçük olması nedeniyle, işlenmesi için daha az bant genişliği gerektirdiğini ve gerçek zamanlı olarak bluetooth aracılığıyla bir akıllı telefona aktarılabileceğini ve buna bağlı olarak veriler buluta yüklenmek yerine akıllı telefonda yerel olarak işleneceği için, gizliliğe duyarlı bilgilerin hiçbir zaman kontrolümüzden çıkmayacağını belirtti.

Ayrıcıa akustik algılama teknolojisi, batarya ömrünü de katlayarak artıracaktır. Kameralardaki 30 dakikalık batarya ömrü, akustik algılama teknolojisiyle 10 saate kadar çıkacaktır.

Kaynakça

1) Cornell Üniversitesi Resmi Web Sitesi, https://news.cornell.edu/stories/2023/04/ai-equipped-eyeglasses-can-read-silent-speech

Mahmut Yıldırım
Moskova Ulusal Nükleer Araştırmalar Üniversitesi - Nükleer Enerji Mühendisi | Veri Bilimci & Analisti

0 yorum