Ingin Menjadi Seorang Data Scientist? Kamu Harus Siap Dengan Masalah Ini

1


Rumit, membingungkan, dan dibayar mahal. Mungkin itu yang terbayang jika membahas tentang data scientist.

Proses kerja yang rumit mungkin menjadi salah satu alasan mengapa di Indonesia masih jarang ditemukan seorang data scientist yang terbilang ahli dibidangnya.

Namun seiring meningkatnya permintaan akan pekerjaan ini, semakin banyak perusahaan yang tumbuh dan banyak pula individu yang menggeluti dunia ini. Salah satunya adalah Bagus Rully Muttaqin.

Seorang head of corporate communication dari PT 247. Sebelum menjabat sebagai head of corporate communication, beliau dulunya adalah seorang programmer.

Selain bekerja di PT 247, beliau juga aktif di Asosiasi Ilmuan Data Indonesia, juga sebagai member DSI. Selain di organisasi saya juga sebagai dosen Universitas Al Azhar Indonesia.

Bagaimana peluang menjadi seorang data scientist untuk saat ini dan kedepannya ?

Sebenarnya banyak sekali yang ingin menjadi data scientist, tapi yang harus kita pahami mereka harus menguasai beberapa ilmu. Ilmu yang pertama yaitu statistik, lalu data analitik, lalu programming dan bisnis analitik. Itu yang harus dimiliki seorang data scientist, dan tentunya penghasilannya sangat luar biasa.

Bagaimana rutinitas seorang data scientist itu?

Seorang data scientist itu melihat hubungan antara data baru dengan data sebelumnya. Setiap perusahaan memiliki report yang harus dikeluarkan setiap hari lalu data scientist tinggal menjalankan programnya sesuai model yang telah mereka buat.

Dan mereka melakukan monitoring terhadap proses – proses tersebut. Seorang data scientist harus memiliki komunikasi yang baik terhadap client dikarenakan kebutuhan analitik data terdapat pada client.

Apa pekerjaannya bisa di remote ?

Sejauh ini teman-teman kebanyakan nge-remote. Walaupun ada client tetap nge-remote juga, tetapi koordinasi dengan client itu tetap dibutuhkan.

Masalah  apa yang sering terjadi bagi data scientist ?

Problem utamanya adalah birokrasi data. Kalau problem harian adalah delivery data, saat seharusnya jam 4 pagi data sudah harus ada dan tinggal mereka jalankan tetapi datanya belum sampai juga mengakibatkan datanya tidak lengkap dan hasilnya tidak sesuai.

Mereka harus follow up mengapa datanya belum sampai sedangkan user inginnya tepat waktu. Contohnya perusahaan sabun cuci, pasta gigi atau susu.

Mereka tidak bisa melakukan profiling customer secara tepat juga salah satu tantangannya campaigns, seperti apa yang harus dilakukan saat yang dulunya hanya membeli satu produk sekarang menjadi dua.

Profiling seperti itu yang menjadi tantangan oleh data scientist. Semua industri membutuhkannya, bahkan ada satu industri yang datang ke kita yaitu industri resleting untuk memasang big data.

Sampai sejauh itu dibutuhkan big data, pemerintah dan lembaga juga sangat membutuhkan adanya data scientist.

Apa yang dibutuhkan industri resleting tersebut ?

Kalau mereka setelah kita gali mereka memiliki masalah pada data processing, sehingga ada beberapa processing data yang membutuhkan waktu berjam-jam dan itu tidak baik bagi bisnis mereka.

Contoh suatu hal di area big datanya dulu salah satu customer kita ditahun 2004, mereka melakukan investasi sekitar 30 Milyar untuk membuat data, dan itu adalah data processing dari data yang belum jadi analitik.

Di tahun 2008-2009 proses yang dulunya selama 1 atau 2 jam sesuai banyaknya data sampai di tahun 2009 mereka membutuhkan waktu 29 jam. Ini terdapat masalah di data processing, lalu kami menawarkan big data dan kami menyediakan sebanyak 40 mesin yang harga satuannya sekitar 80 juta.

Berarti kita investasi kurang dari 5 Milyar jika dibandingkan dengan 30 milyar sebelumnya. dari yang membutuhkan waktu selama 29 jam processing data, kami dapat menyelesaikan semuanya kurang dari 4 jam.

Saat ini implementasi big data terbesar kami yang pegang, dimana sekarang sudah memakai sekitar 1000 server. Perharinya data yang diproses sekitar 180 milyar record, atau sekitar 100-120 terabyte perhari. Dan data tersebut diproses kurang dari 4 jam.

Itulah yang menyebabkan big data itu luar biasa. Kami tidak mengatakan murah, melainkan cost efficient dengan mesin yang harganya tidak seberapa kita bisa processing data.

Hal tersebut yang membuat data scientist saat ini mudah, kalau dulu mereka melakukan analitik data dan sekarang sangat memungkinkan.

Apa alat yang digunakan untuk processing data itu ?

Alat yang digunakan itu sebenarnya server. Dulu kita processing menggunakan server yang vertikal, kalau core server itu suatu server yang besar sampai 100 core harganya milyaran dan punya beberapa server.

Kalau mereka ingin lebih cepat mereka harus menggantinya dengan yang lebih besar lagi seperti 200 core 400 core dan itu harganya luar biasa mahal sekali.

Jadi di big data ini arsitekturnya kita menggunakan mesin – mesin yang kecil, yang mana mesin komoditasnya hanya 8 core tapi mereka punya 100 mesin komoditas, berarti meraka punya 800 core.

Jika 1000 mesin komoditas, berarti mereka punya 8000 core. Dan itu dilihat dari 1 sistem, jadi server 64 core harganya milyaran, server 8 core anggaplah 100 juta.

Misalnya dari 8 core itu mau jadi 64 core ya sudah beli 8 saja sudah selesai yang menghabiskan biasa sekitar 800 juta bahkan tidak sampai 1 milyar dan mereka bisa beli banyak sekali itu. Saat ini mereka punya 1000 server-server kecil tapi mereka cluster banyak sekali. Nanti yang diatasnya itu kita pakai teknologi big data untuk processing datanya.

Berapa sih kisaran gaji data scientist ?

Mengenai 4 kemampuan tadi yaa, seorang yang ahli statistic di Jakarta mendapat gaji 8 juta sebulan. Kalau berbicara seorang data analyst juga sama 8 juta sampai 10 juta sebulan.

Data engineer sedikit lebih rendah sekitar 6 sampai 8 juta untuk yang fresh graduate. Kemudian kalau base analyst yang fresh graduate sama 6 sampai 8 juta.

Kalau kita punya satu team data scientist perusahaan akan mengeluarkan uang sebesar 40 juta sebulan. Kalau mereka butuh dua team datanya banyak mereka akan mengeluarkan 80 juta sebulan untuk 8 orang tersebut.

Tapi seorang data scientist murni satu orang yang menguasai 4 kemampuan itu range gaji mereka 40-60 juta perhari. Seorang scientist murni biasanya hanya membutuhkan 5 hari untuk menyelesaikan masalah data.

Di tempat kita, mereka 5 hari bekerja sesuai dengan keinginannya client dan mereka selama 5 hari tersebut dibayar minimal 200 juta. Setelah itu mereka tidak bekerja lagi, tinggal di rumah saja sampai ada orderan lagi.

Biasanya mereka bekerja secara professional karena perusahaan tidak menerima scientist murni. Perusahaan juga team tersendiri, yaitu data scientist team dan mungkin untuk mengurangi permasalahan data scientist pada masalah birokrasi data.

Jadi, biasanya mereka membentuk team dengan melakukan konsultasi terhadap perusahaan-perusahaan penyedia data scientist seperti kita. Kita ada team data scientist datang ke perusahaan kita mengajarkan teman-teman yang didalam perusahaan tersebut hal – hal mengenai data scientist tadi.

Kita melakukan training selama satu dua bulan lalu kita lepas akhirnya mereka mempunyai team sendiri. Kita membentuk data scientistnya diantara mereka sehingga untuk data mereka akan lebih leluasa membuka data ke internal sendiri. Kita dibayar segitu, nanti ketika sudah 5 tahun pengalaman pasti 2 kali lipatnya.

Pengalaman paling sulit yang dihadapi data scientist  ?

Setiap team memerlukan chemistry masing-masing. Terkadang yang statistiknya cocok sama data analistnya, tapi tidak cocok sama data engineernya sehingga menjadi tidak nyambung.

Ternyata bisnis analisnya tidak nyambung kearah teknisnya. Kemudian ketika building team ternyata ada perilaku data-data yang mereka kuat di area engineering atau statistic, namun ilmu kita juga tidak kuat disana.

Didalam team ada 4 pemikiran yang punya interprestasi masing masing, kadang-kadang koordinasi dengan usernya kurang intens sehingga yang diinginkan user A yang dikerjakan B.

Jadi, nanti ada seorang penghubung antara kebutuhan user dan teknis, kalau teknis mereka mengerjakannya secara praktis mereka bisa mengerjakannya secara teknis tapi kadang yang diinginkan user berbeda dan inilah yang harus kita blend sama-sama.

Jadi, kita build data scientist team untuk mengatasi masalah analitical data. Mereka bekerja sama tidak hanya dengan team data scientist saja, tetapi dengan user juga.

Apa saran untuk para data scientist jika sedang stuck dengan pekerjaanya ?

Jika sedang stuck di browsing aja pasti ketemu. Makanya kita bentuk komunitas data scientist jadi asosiasi yang mewadahi data scientist Indonesia dari sisi akademis.

Kalau dari sisi praktisi ada data scientist yang isinya teman teman dari sisi praktisi  mengenai data scientist.

Secara keilmuan, akademis, dan praktisi hal tersebut tetap harus dilakukan koordinasi karena secara theoretical itu yang paling kuat di area akademisi, tapi yang paling paham untuk melakukan soal data secara praktis yaitu data praktisi.

Hal ini yang sebenarnya harus di blend dengan mereka. Contohnya ada beberapa project yang kita kirim data scientist kita, tetapi kita tetap mengajak teman-teman dari akademisi.

Jadi, kita hadirkan teman-teman dari akademisi untuk membimbing kita dan memastikan teori-teori yang di execute ke beberapa case itu apakah benar secara teorinya karena itu akan mempengaruhi sekali hasilnya.

Saran saya kalau teman-teman dari data scientist tidak hanya melihat dari sisi praktis aja tetapi juga teori harus diperhatikan.

Apakah pada data scientist ada sesuatu yang belum terpecahkan ?

Pasti ada, jadi yang memikirkannya itu bukan hanya teman-teman di klien saja, tetapi  scientist kita juga memikirkan kenapa tidak bisa.

Misalnya, mungkin dulu saat kuliah pernah beli kartu perdana di counter mereka bilang sudah diaktifkan tinggal pakai saja, berarti sudah diaktifkan oleh pemilik counternya.

Dan itu ternyata adalah sebuah vroot. Dan itu ditemukannya seperti ini, misalkan ada operator, operator tersebut punya agen, dan agen tersebut juga punya distributor.

Distributor punya pengecer, setiap pengecer distributor agen mereka punya target untuk mendapatkan bonus. Misalnya dilevel pengecer ketika dia bisa menjual 100 nomer itu, mereka akan dapat bonus sekian juta.

Level distributor jika bisa menjual sekian ribu akan mendapatkan bonus sekian puluh juta, agent juga sama, karena yang dicari oleh operator ialah sebanyak-banyaknya nomer yang aktif.

Semakin banyaknya subscriber,  maka mereka menganggap pendapatan mereka makin tinggi. Ternyata tandanya nomer terjual itu nomernya aktif yang tadinya statusnya nonaktif lalu aktif berarti sudah terjual.

Misalnya dalam sebulan si pengecer ini kalau menjual 100 dapat uang 1 juta, ternyata di tanggal 28 mereka baru menjual 90, dan susah mengejar 10 lagi dalam waktu dua hari.

Lalu mereka mengaktifkan nomer yang belum terjual, yang akhirnya di tanggal 29 mereka sudah punyai 100 penjualan dan lalu dapat bonus.

Kecurangan operator ini bagaimana cara mendeteksinya. Akhirnya berkumpul teman-teman data scientist lalu membicarakan bagaimana caranya mendeteksi jika nomer ini adalah nomer yang sudah dilakukan reactivasi, jadi sebelum dijual sudah diaktifkan.

Ternyata caranya cari saja orang – orang yang sms ke 440 dari data data transaksi berupa sms ke 444 ternyata dari imei yang sama dalam waktu dekat menggunakan imei yang sama.

Kita bisa coret nomer nomer itu agar si pengecer tidak dapat bonus. Tetapi tidak segampang itu, pengecer pintar, mereka beli alat dari china mereka masukkan sim card itu perlu di protect lagi tinggal masukkan saja lalu imeinya diacak.

Dan disini teman-teman bingung bagaimana cara mendeteksinya lalu ternyata itu bisa diketahui dengan metode ini dan ini. Dan itu yang masih belum terpecahkan, namun akhirnya terpecahkan.

Share.

About Author

Bagus Rully

Head Of Corporate Communications at SOLUSI 247 Lecturer Universitas Al Azhar Indonesia

1 Komentar

Leave A Reply