Pendahuluan
Data konsumsi listrik adalah salah satu contoh time series dunia nyata yang menarik untuk dianalisis. Polanya tidak sederhana: ada fluktuasi harian, musiman, dan perubahan perilaku dari waktu ke waktu. Karena itu, sebelum membangun model prediksi, langkah penting yang tidak boleh dilewatkan adalah Exploratory Data Analysis (EDA).
Pada tulisan ini, saya membahas proses EDA awal pada data konsumsi listrik per jam dari Open Power System Data, mulai dari preprocessing hingga insight awal yang bisa diperoleh dari visualisasi data.
Mengenal Open Power System Data
Open Power System Data (OPSD) merupakan inisiatif data terbuka yang menyediakan berbagai data kelistrikan, khususnya dari kawasan Eropa. Dataset ini sering digunakan dalam penelitian dan eksperimen data science karena:
- Datanya terbuka dan terdokumentasi dengan baik
- Memiliki rentang waktu panjang
- Merepresentasikan kondisi dunia nyata
Pada eksplorasi ini digunakan dataset time series resolusi 60 menit (per jam), yang berisi data konsumsi listrik dalam satuan tertentu untuk periode beberapa tahun.
Resolusi per jam dipilih karena:
- Lebih stabil dibanding data frekuensi tinggi
- Pola musiman harian dan tahunan terlihat jelas
- Cocok untuk eksplorasi dan pemodelan awal
Tahapan Preprocessing Data
1. Parsing Waktu dan Indexing
Langkah pertama adalah mengonversi kolom waktu ke format datetime dan menjadikannya sebagai index. Ini penting agar data dikenali sebagai time series dan bisa dianalisis secara kronologis.
from google.colab import drive
import pandas as pd
import matplotlib.pyplot as plt
path='/mnt/MyDrive/postdoc/'
drive.mount('/mnt')
df['utc_timestamp']=pd.to_datetime(df['utc_timestamp'])
df=df.set_index('utc_timestamp')
df=df.sort_index()
Selain itu, dilakukan pengecekan apakah urutan waktu sudah benar. Time series yang tidak tersusun rapi bisa menghasilkan analisis yang menyesatkan, meskipun kodenya tidak error.
df.index.is_monotonic_increasing
2. Menangani Missing Values
Pada data dunia nyata, nilai yang hilang hampir tidak bisa dihindari. Untuk data konsumsi listrik, digunakan interpolasi berbasis waktu, yang menjaga kontinuitas data tanpa merusak pola aslinya.
Pendekatan ini cukup aman untuk tahap eksplorasi dan analisis awal.
3. Menangani Outlier
Data konsumsi listrik sering memiliki nilai ekstrem, misalnya lonjakan atau penurunan tajam dalam waktu singkat. Nilai ini bisa muncul karena anomali sistem, gangguan operasional, atau kesalahan pencatatan.
Pada tahap EDA, digunakan pendekatan IQR-based clipping, yaitu membatasi nilai ekstrem agar tidak terlalu memengaruhi analisis. Metode ini tidak menghapus data dan tetap mempertahankan pola utama time series.
target_col = 'DE_load_actual_entsoe_transparency'
df_ts = df[[target_col]].copy()
df_ts.rename(columns={target_col: 'load'}, inplace=True)
df_ts = df_ts.asfreq('h')
q1 = df_ts['load'].quantile(0.25)
q3 = df_ts['load'].quantile(0.75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
df_ts['load'] = df_ts['load'].clip(lower, upper)
Visualisasi Data
Setelah preprocessing, data divisualisasikan untuk melihat pola umumnya.


Gambar-1 adalah data sebelum dan gambar-2 setelah handle outlier. Dari visualisasi tersebut dapat diamati bahwa:
- Pola musiman harian dan tahunan sangat jelas
- Fluktuasi data cukup tinggi
- Setelah penanganan outlier, pola utama tetap terjaga
- Variabilitas ekstrem menjadi lebih terkendali
Visualisasi ini membantu memahami karakter data sebelum masuk ke tahap analisis atau pemodelan lanjutan.
Insight Awal dari EDA
Beberapa insight awal yang bisa diperoleh dari EDA ini antara lain:
- Data konsumsi listrik memiliki pola musiman yang kuat
- Terdapat fluktuasi signifikan dalam skala harian
- Data tidak sepenuhnya stasioner
- Preprocessing yang tepat sangat membantu menjaga kualitas analisis
Insight ini penting sebagai dasar sebelum melanjutkan ke tahap seperti dekomposisi, uji stasioneritas, atau pembangunan model prediksi.
Penutup
Exploratory Data Analysis adalah langkah awal yang krusial dalam analisis time series. Melalui EDA pada data konsumsi listrik per jam dari Open Power System Data, kita bisa memahami karakteristik data, mengantisipasi potensi masalah, dan menyiapkan fondasi yang lebih kuat untuk analisis selanjutnya.
Pada tulisan berikutnya, eksplorasi dapat dilanjutkan ke:
- uji stasioneritas
- dekomposisi time series
- atau pembangunan model prediksi sederhana
Semoga tulisan ini bermanfaat bagi pembaca yang tertarik pada analisis data dan time series.
