Masih ingat blog Machine Learning Journal milik Apple? Blog yang dibuat untuk membagikan beragam riset dan dokumentasi mengenai penggunaan teknologi Machine Learning oleh insinyur di Apple ini punya 3 catatan baru. Semuanya bercerita tentang asisten cerdas Siri dan penggunaan teknologi dari Apple. Yaitu Deep Learning, Inverse Text Normalization (INT) serta Neural Network Acoustic Models.

Bagian pertama yang saya baca adalah Deep Learning. Apple menjelaskan bahwa mulai dari iOS 10, Siri menggunakan teknologi Deep Learning untuk memberikan suara yang lebih natural, halus dan personal. Di artikel “Deep Learning for Siriâ€™s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis”, Apple menjelaskan salah satu proses Deep Learning adalah Speech Synthesis.

Proses ini meliputi proses mencari pengisi suara dengan ucapan yang jelas dan merekam suara mulai dari 10 hingga 20 jam dalam berbagai ucapan. Tentunya hal ini dilakukan dengan perangkat audio profesional. Naskah yang diberikan juga beragam, mulai dari audio book, panduan navigasi serta beberapa humor ringan yang biasa kamu temukan di Siri. Setelah itu proses membuat text-to-speech (TTS) dengan kualitas tinggi dilakukan dan pemetan komponen penting.

Baca Juga:

Berpindah pada catatan Inverse Text Normalization, fitur ini digunakan Apple untuk membuat tampilan teks dari Siri menjadi lebih mudah dibaca. Misalkan untuk input suara atau pertanyaan yang kamu berikan dengan keterangan waktu dan tanggal, tampilannya akan menggunakan angka dengan format yagn sesuai, bukan berupa kalimat.

To understand the important role ITN plays, consider that, without it, Siri would display â€œOctober twenty third twenty sixteenâ€ instead of â€œOctober 23, 2016â€.

Dalam artikel berjudul “Inverse Text Normalization as a Labeling Problem”, Apple membahas banyak hal seputar INT dan kendala di proses labelling yang mungkin saja terjadi jika kamu melakukan riset serupa. Penjelasan yang diberikan mulai dari pengenalan INT, pendekatan masalah, menggunaan label, post-processing hingga contoh penggunaan yang sesuai dan juga penjelasan hasil serta sistem Modelling.

Pindah ke catatan terakhir yaitu Neural Network Acoustic Models ya! Topik ini membahas audio channel bandwidths yang dapat didukung oleh Siri dalam beragam tingkatan. Fokus yang diberikan pada artikel tersebut adalah transmisi audio di 8 kHz pada perangkat earphone bluetooth. Silakan baca langsung di artikel “Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization” ya!