1. Apa Itu Reinforcement Learning & Hubungannya Dengan Machine Learning
Reinforcement Learning (RL) adalah jenis teknik pembelajaran mesin (Machine Learning) yang memungkinkan suatu agent untuk belajar dalam lingkungan interaktif dengan coba-coba menggunakan umpan balik (Feedback) dari tindakan dan pengalamannya sendiri.
Beda dengan jenis Supervised dan Unsupervised Learning yang mengunakan pemetaan antara input dan output, Reinforcement Learning menggunakan sistem hadiah (Reward) dan Hukuman (Punishment). Sebagai sinyal untuk perilaku positif atau negatif
Reinforcement Learning juga memiliki tujuan yang berbeda, ia lebih kepada menemukan model tindakan yang sesuai dimana ia sebaik mungkin membuat Agent AI-nya mendapatkan Hadiah atau Reward paling besar.
2. Tahu Cara Merumuskan Masalah Dasar Reinforcement Learning
Dalam Reinforcement Learning, terdapat 5 elemen dasar yang menjadi permasalahan, yaitu :
- Environment : Dunia fisik tempat agent beroperasi
- State : Situasi agent saat ini
- Reward: Feedback yang didapat dari Environment
- Policy: Metode untuk memetakan status agent untuk mengambil tindakan
- Value : Hadiah yang akan diterima agent dengan mengambil tindakan dalam keadaan tertentu
Masalah Reinforcement Learning bisa dijelaskan dengan mudah melalui permainan. Sebagai contohnya dalam permainan Pacman.
Digame Pacman ini, memiliki tujuan yaitu memakan semua makanan yang ada di grid sambil menghindari hantu yang ada. Grid itu sendiri bisa dikatakan sebagai Environtment interaktif untuk si agent (Pacman).
Agent akan menerima hadiah (Reward / Value) jika berhasil memakan semua makanan tetapi akan menerima hukuman (Punishment) apabila tersentuh oleh hantu (sama saja kalah).
Baca Artikel Tentang Bitcoin :
Sedangkan untuk elemen State-nya yakni lokasi Pacman di dunia Grid dan total hadiah kumulatif dimana Pacman memenangkan permainan.
Untuk membangun kebijakan (Policy) yang optimal, agent menghadapi dilema untuk mengeksplorasi keadaan baru sambil memaksimalkan imbalannya pada saat yang bersamaan. Hal Ini disebut pertukaran Eksplorasi vs Eksploitasi.
Proses Keputusan Markov (MDPs) adalah kerangka kerja matematika untuk menggambarkan lingkungan dalam Reinforcement Learning dan hampir semua masalah RL dapat diformalkan menggunakan MDP.
MDP terdiri dari satu set status lingkungan terbatas S, satu set kemungkinan tindakan A(s) di setiap status, fungsi hadiah bernilai nyata R(s) dan model transisi P(s’, s | a).
Namun, lingkungan dunia nyata lebih cenderung tidak memiliki pengetahuan sebelumnya tentang dinamika lingkungan. Metode RL bebas model berguna dalam kasus seperti ini.
Q-learning adalah contoh pendekatan model gratis yang umum digunakan. Ia bisa digunakan untuk membangun agent PacMan yang bisa bermain sendiri.
Cara Ini berkisar pada gagasan memperbarui nilai Q yang menunjukkan nilai melakukan tindakan a dalam keadaan s. Aturan pembaruan nilai adalah inti dari algoritma Q-learning.
3. Mengenal Algoritma Apa Yang Sering dipakai di Reinforcement Learning
Q-learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa.
Q-learning adalah metode di luar kebijakan di mana agen mempelajari nilai (Value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain,
Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini. .
Kedua metode ini sederhana untuk diterapkan tetapi kurang umum karena mereka tidak memiliki kemampuan untuk memperkirakan nilai untuk keadaan yang tidak terlihat.
4. Implementasi Aplikasi Praktis Reinforcement Learning
Karena Reinforcement Learning (RL) membutuhkan banyak data, Ia seringkali dicocokan untuk domain dimana data simulasi sudah tersedia seperti layaknya game atau hal terkait robotika.
RL cukup banyak digunakan dalam membangun AI untuk bermain game komputer. AlphaGo Zero adalah program komputer pertama yang mengalahkan juara dunia dalam permainan Cina kuno Go. Lainnya termasuk game ATARI, Backgammon, dll
Dalam robotika dan otomasi industri, RL digunakan untuk memungkinkan robot membuat sistem kontrol adaptif yang efisien untuk dirinya sendiri yang belajar dari pengalaman dan perilakunya sendiri.