Universitas
Gunadarma
Fakultas
Ilmu Komputer dan Teknologi Informasi
Pengantar Teknologi Sistem Cerdas
Sistem Pengenalan Ucapan (Speech Recognition)
Disusun
Oleh :
Reza Burhanudin (15117101)
Rizky Gerry P.
(15117345)
Salim Sannigo
(15117461)
Sindi Fernanda
(15117693)
Sonya
Natasha (15117753)
Sutamy Tri W.
(15117810)
Yulisma Salsabila (16117349)
Zahrah Nindisya
(16117386)
Gischa Karina HP. (1B118707)
Kelas: 3KA05
2019/2020
ABSTRAK
Pengenalan
suara atau Speech
Recognition adalah
proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan
konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Speech Recognition juga merupakan sistem yang digunakan untuk
mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi
suatu data yang dimengerti oleh komputer. Speech Recognition
kini telah diimplementasikan pada banyak aplikasi. Pada
makalah ini akan dibahas implementasi Speech Recognition
pada Google
Assistant, Siri danWaze.
Tujuan pembahasan Speech
Recognition dalam makalah ini adalah untuk mempelajari cara kerja salah
satu bentuk sistem cerdas dalam perangkat yang dipakai sehari-sehari seperti Google Assistant (Android), Siri (iOS) dan
Waze.
Kesimpulan dari makalah ini adalah terdapat sedikit perbedaan antara Voice Recognition dan Speech Recognition. Voice Recognition hanya
mengenali identitas pemilik suara sedangkan Speech
Recognition mengubah suara menjadi teks. Speech Recognition kini sudah diimplementasikan pada banyak
aplikasi, namun yang paling sering dipakai adalah di aplikasi Google Assistant,
Siri dan Waze. Speech Recognition membuat
penggunaan perangkat elektronik menjadi lebih mudah dan praktis. Namun, di
balik banyaknya keunggulan Speech
Recognition, terdapat juga beberapa kekurangan yang belum bisa diatasi.
BAB I
PENDAHULUAN
1.1
Latar Belakang
Speech Recognition adalah proses identifikasi
suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal
akustik, yang ditangkap oleh audio device
(perangkat input suara). Speech
Recognition juga merupakan sistem yang digunakan untuk mengenali perintah
kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang
dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan
peranan input dari keyboard dan mouse.
Speech Recognition adalah suatu
teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang
diucapkan. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan
cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan
kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu
perangkat. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam
bentuk tulisan atau dapat dibaca oleh perangkat teknologi. Keuntungan
dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata –
kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah
aplikasi seperti command & control,
penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah
tingkat penekanan suara yang kemudian akan dicocokkan dengan template database
yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang
berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas
mengenai Speech Recognition karena
kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker
recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses
Speech Recognition ini
adalah algoritma FFT (Fast Fourier
Transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal
digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini
mengimplementasikan algoritma Divide and
Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah
sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi
masalah menjadi beberapa rupa masalah yang lebih kecil. Kemudian,
setiap rupa masalah diselesaikan dengan cara
melakukan pencocokan pola digital suara.
1.2 Rumusan Masalah
Adapun rumusan masalah dari makalah ini adalah:
·
Apa itu Speech
Recognition?
·
Bagaimanakah cara kerja Speech Recognition?
·
Bagaimanakah implementasi Speech Recognition pada Google
Assistant, Siri dan Waze?
1.3 Tujuan Pembahasan
Tujuan
pembahasan Speech Recognition dalam
makalah ini adalah untuk mempelajari cara kerja salah satu bentuk sistem cerdas
dalam perangkat yang dipakai sehari-sehari seperti Google Assistant (Android), Siri (iOS) dan Waze.
BAB II
ISI
2.1 Pengertian Speech
Recognition
Speech
Recognition
atau yang biasa dikenal dengan Automatic Speech Recognition
(ASR)
merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu
perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara
digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola
tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah
bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi
sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk
mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang
diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh
perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya
penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan
komando suara.
Berdasarkan
kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan ucapan, yaitu:
1. Kata-kata yang terisolasi: Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
2. Kata-kata yang berhubungan: Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.
5. Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
1. Kata-kata yang terisolasi: Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
2. Kata-kata yang berhubungan: Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.
5. Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
2.2 Cara Kerja Speech Recognition
Alat
pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu:
1. Tahap penerimaan masukan: sumber suara diterima melalui media perantara.
2. Tahap ekstraksi: penyimpanan masukan yang berupa suara dan sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui.
1. Tahap penerimaan masukan: sumber suara diterima melalui media perantara.
2. Tahap ekstraksi: penyimpanan masukan yang berupa suara dan sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui.
3. Tahap pembandingan: Tahap ini
merupakan tahap pencocokan data baru dengan data suara (pencocokan
tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara
digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa
dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data
suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya.
Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
4. Tahap validasi identitas pengguna: Alat
pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi
suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara
tersebut menjadi tulisan atau komando.
2.3 Implementasi Speech
Recognition pada Google Assistant (Google Now), Siri dan
Waze
Google
Assistant adalah asisten virtual yang
didukung oleh kecerdasan buatan dan dikembangkan oleh Google yang terutama
tersedia di perangkat seluler dan perangkat rumah pintar. Tidak seperti Google
Now, Google Assistant dapat terlibat dalam percakapan dua arah. Google
Assistant awalnya memulai debutnya pada bulan Mei 2016 sebagai bagian dari
aplikasi perpesanan Google Allo, dan pembicara yang diaktifkan suara Google Home.
Setelah periode eksklusif pada telefon pintar Pixel dan Pixel XL, lalu mulai
dikerahkan di perangkat Android lainnya pada bulan Februari 2017,termasuk
telefon pintar pihak ketiga dan Android Wear, dan dirilis sebagai aplikasi yang
berdiri sendiri pada operasi iOS sistem pada bulan Mei. Di samping pengumuman
perangkat pengembangan perangkat lunak pada bulan April 2017, Google Assistant
telah, dan sedang, diperluas untuk mendukung berbagai macam perangkat, termasuk
mobil. Aplikasi Google Assistant
ini terdapat fitur antarmuka telematika yang merubah suara menjadi tulisan. Google
Assistant dalam penggunaanya cukup mudah, kita hanya mengatakan “Ok, Google”
maka akan muncul kotak voice search, kita tinggal ucapkan apa yang
mau kita cari, maka si Google Assistant yang cerdas ini akan menampilkan hasil
yang dia dapatkan dari internet ke layar smartphone.
Siri adalah asisten pribadi
pintar yang membantu Anda menyelesaikan segala sesuatu cukup dengan
memerintahkannya. Dengan Siri, Anda dapat menggunakan suara Anda untuk mengirim
pesan, menjadwalkan pertemuan, menelepon, dan banyak lagi. Tetapi Siri tidak
seperti perangkat lunak pengenalan suara konvensional yang mengharuskan Anda
untuk mengingat kata kunci dan menyebutkan perintah tertentu. Siri mengerti
cara berbicara Anda seperti biasa dan Siri menanyakan sesuatu jika memerlukan
informasi lebih lanjut untuk menyelesaikan tugas. Dengan Siri,
kita dapat memberi peritah melalui suara untuk mengirim pesan,
menjadwalkan pertemuan, menelepon, dan banyak lagi. Perintahkan Siri untuk
melakukan banyak hal cukup dengan berbicara seperti biasa. Siri dapat
mengerti yang kita ucapkan, mengetahui maksud kita, dan bahkan balas berbicara. Untuk
menggunakan Siri tinggal tekan terus tombol Utama pada iphone anda. lalu akan
akan terdengar bunyi bip cepat sebanyak dua kali dan muncul tulisan “What can I help you with?” (Apa yang
bisa saya bantu?) pada layar. Selanjutnya anda dapat memulai dialog dengan
Siri, ketuk ikon mikrofon untuk berbicara lagi dengannya. Jika Anda
menggunakan iOS 8, Anda dapat menanyakan sesuatu kepada Siri dengan mengucapkan
“Hei Siri”. Anda harus mengaktifkan Hey Siri terlebih dulu dengan membuka
Pengaturan > Umum > Siri > Izinkan Hey Siri. Selain itu, Anda harus
menyambungkan perangkat iOS ke daya untuk menggunakan Hey Siri. Untuk performa
terbaik, minimalkan suara bising di sekeliling dan jauhkan penghalang dari
mikrofon.
BAB III
PENUTUP
3.1 Kesimpulan
Terdapat sedikit
perbedaan antara Voice Recognition dan
Speech Recognition. Voice Recognition hanya
mengenali identitas pemilik suara sedangkan Speech
Recognition mengubah suara menjadi teks. Speech Recognition kini sudah diimplementasikan pada banyak
aplikasi, namun yang paling sering dipakai adalah di aplikasi Google Assistant,
Siri dan Waze. Dengan Google Assistant, pengguna bisa melakukan pencarian
online, membuka aplikasi tertentu, memasang alarm, mencari rute perjalanan
tersingkat, dll. Dengan Siri, pengguna bisa membuka aplikasi, memasang
pengingat, bahkan bercakap-cakap. Dengan Waze, pengguna dimudahkan dengan
adanya Speech Recognition terutama
pengguna yang sedang menyetir karena tidak perlu mengetikkan tujuan, cukup
dengan berbicara, Waze bisa mencarikan rute tersingkat menuju destinasi. Speech Recognition membuat penggunaan
perangkat elektronik menjadi lebih mudah dan praktis. Namun, tentu saja ada
beberapa kekurangan Speech Recognition yaitu
sulitnya mengeliminasi suara bising di sekitar kita sehingga bisa membuat
perangkat kita gagal memahami ucapan kita. Jumlah kata yang dikenali oleh
perangkat juga terbatas. Dan aksen kita juga mempengaruhi karena perangkat kita
hanya deprogram untuk mengenali beberapa bahasa dan aksen.
3.2 Saran
Penulis menyadari bahwa makalah ini
banyak sekali kesalahan dan jauh dari kesempurnaan. Penulis akan memperbaiki
makalah ini dengan berpedoman pada banyak sumber yang dapat
dipertanggungjawabkan. Maka dari itu penulis mengharapkan kritik dan saran
mengenai pembahasan makalah dalam kesimpulan di atas.
Daftar
Pustaka
Apolloni, Bruno,
Harpri (2003). Neural Nets. Springer-Verlag.
hlm. 3. ISBN 3540202277.
Baecker, Ronald
M, Jonathan Grudin, William A. X. Buxton, Saul Greenberg (1995). Human-Computer
Interaction : Toward the Year 2000 (Second Edition). Morgan Kauffman
Publishers, Inc. hlm. 546. ISBN 1558602461.
Benesty, Jacob,
M. Mohan Sondhi, dan Yiteng Huang (2008). Handbook of Speech
Processing. Springer-Verlag. hlm. 6. ISBN 159904840X.
Ilham Efendi.
2015. https://www.it-jurnal.com/apa-itu-siri/
Jelinek,
Frederick (1997). Statistical Methods For Speech
Recognition. Massachusetts Institute of Technology.
hlm. 17. ISBN 0262100665.
Kompas. 2017. https://tekno.kompas.com/read/2017/07/12/15380097/ganti.pemandu.di.waze.dengan.suara.sendiri.begini.caranya
Kusumadewi, Sri. 2003. Artificial Intelligence (Teknik dan
Aplikasinya). Graha Ilmu: Yogyakarta.
Lawrence Thompson. http://www.streetdirectory.com/travel_guide/139545/technology/key_differences_between_speech_recognition_and_voice_recognition.html
Pitowarno, Endro. 2006. Robotika,
Desain, Kontrol, dan Kecerdasan Buatan. Penerbit
Andi.
Waibel, Alex dan
Kai-Fu Lee (1990). Readings in Speech Recognition. Morgan Kauffman
Publishers, Inc. hlm. 1 & 267. ISBN 1558601244.
Video kelompok 4 (Sistem Pengenalan Ucapan (Speech Recognition)) dapat diakses melalui link berikut: https://www.youtube.com/watch?v=KOGS8Smu8fs




Komentar
Posting Komentar