AI & Data Science

Reinforcement Learning yang Wajib Programmer AI Pahami

Avatar photo
Written by Techfor Id

1. Apa Itu Reinforcement Learning & Hubungannya Dengan Machine Learning

Reinforcement Learning (RL) adalah jenis teknik pembelajaran mesin (Machine Learning) yang memungkinkan suatu agent untuk belajar dalam lingkungan interaktif dengan coba-coba menggunakan umpan balik (Feedback) dari tindakan dan pengalamannya sendiri.

Ide dasar dan elemen yang ada di dalam model Reinforcement Learning Foto : kdnuggets

Beda dengan jenis Supervised dan Unsupervised Learning yang mengunakan pemetaan antara input dan output, Reinforcement Learning menggunakan sistem hadiah (Reward) dan Hukuman (Punishment). Sebagai sinyal untuk perilaku positif atau negatif

Reinforcement Learning juga memiliki tujuan yang berbeda, ia lebih kepada menemukan model tindakan yang sesuai dimana ia sebaik mungkin membuat Agent AI-nya mendapatkan Hadiah atau Reward paling besar.

2. Tahu Cara Merumuskan Masalah Dasar Reinforcement Learning

Dalam Reinforcement Learning, terdapat 5 elemen dasar yang menjadi permasalahan, yaitu :

  • Environment : Dunia fisik tempat agent beroperasi
  • State : Situasi agent saat ini
  • Reward: Feedback yang didapat dari Environment
  • Policy: Metode untuk memetakan status agent untuk mengambil tindakan
  • Value : Hadiah yang akan diterima agent dengan mengambil tindakan dalam keadaan tertentu
Foto : https://www.youtube.com/watch?v=QilHGSYbjDQ

Masalah Reinforcement Learning bisa dijelaskan dengan mudah melalui permainan. Sebagai contohnya dalam permainan Pacman.

Digame Pacman ini, memiliki tujuan yaitu memakan semua makanan yang ada di grid sambil menghindari hantu yang ada. Grid itu sendiri bisa dikatakan sebagai Environtment interaktif untuk si agent (Pacman).

Agent akan menerima hadiah (Reward / Value) jika berhasil memakan semua makanan tetapi akan menerima hukuman (Punishment) apabila tersentuh oleh hantu (sama saja kalah).

Baca Artikel Tentang Bitcoin :

Sedangkan untuk elemen State-nya yakni lokasi Pacman di dunia Grid dan total hadiah kumulatif dimana Pacman memenangkan permainan.

Untuk membangun kebijakan (Policy) yang optimal, agent menghadapi dilema untuk mengeksplorasi keadaan baru sambil memaksimalkan imbalannya pada saat yang bersamaan. Hal Ini disebut pertukaran Eksplorasi vs Eksploitasi.

Proses Keputusan Markov (MDPs) adalah kerangka kerja matematika untuk menggambarkan lingkungan dalam Reinforcement Learning dan hampir semua masalah RL dapat diformalkan menggunakan MDP.

MDP terdiri dari satu set status lingkungan terbatas S, satu set kemungkinan tindakan A(s) di setiap status, fungsi hadiah bernilai nyata R(s) dan model transisi P(s’, s | a).

Namun, lingkungan dunia nyata lebih cenderung tidak memiliki pengetahuan sebelumnya tentang dinamika lingkungan. Metode RL bebas model berguna dalam kasus seperti ini.

Q-learning adalah contoh pendekatan model gratis yang umum digunakan. Ia bisa digunakan untuk membangun agent PacMan yang bisa bermain sendiri.


Foto : kdnugget

Cara Ini berkisar pada gagasan memperbarui nilai Q yang menunjukkan nilai melakukan tindakan a dalam keadaan s. Aturan pembaruan nilai adalah inti dari algoritma Q-learning.

3. Mengenal Algoritma Apa Yang Sering dipakai di Reinforcement Learning

Q-learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa.

Foto : researchgate

Q-learning adalah metode di luar kebijakan di mana agen mempelajari nilai (Value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain,

Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini. .

Kedua metode ini sederhana untuk diterapkan tetapi kurang umum karena mereka tidak memiliki kemampuan untuk memperkirakan nilai untuk keadaan yang tidak terlihat.

4. Implementasi Aplikasi Praktis Reinforcement Learning

Karena Reinforcement Learning (RL) membutuhkan banyak data, Ia seringkali dicocokan untuk domain dimana data simulasi sudah tersedia seperti layaknya game atau hal terkait robotika.

RL cukup banyak digunakan dalam membangun AI untuk bermain game komputer. AlphaGo Zero adalah program komputer pertama yang mengalahkan juara dunia dalam permainan Cina kuno Go. Lainnya termasuk game ATARI, Backgammon, dll

Dalam robotika dan otomasi industri, RL digunakan untuk memungkinkan robot membuat sistem kontrol adaptif yang efisien untuk dirinya sendiri yang belajar dari pengalaman dan perilakunya sendiri.

Baca Artikel Berikutnya, Expert System dalam Artificial Intelligence (AI)

About the author

Avatar photo

Techfor Id

Leave a Comment

Click to ask
Hai, Tanya-Tanya Aja
Hi ini Windy, dari techfor

Windy bisa membantu kamu memahami layanan Techfor
Seperti

1. Kursus Online By Expert
2. Partnership Event dan Konten
3. Layanan liputan multimedia
4. Dan hal lain yg ingin kamu tau

Kirim saja pesan ini serta berikan salah satu nomor diatas atau beritahukan windy lebih jelas agar dapat membantu Kamu