Python ile Veri Bilimi Pandas ve NumPy Giriş Rehberi
Python ile veri bilimi öğrenmek isteyenler için Pandas ve NumPy kütüphanelerini temel seviyede açıklayan bu kapsamlı rehber, veri analizine sağlam bir başlangıç sunuyor.
Python ile Veri Bilimi: Pandas ve NumPy Giriş Rehberi
Veri çağında yaşıyoruz ve bu verileri anlamlı bilgiye dönüştürmek her geçen gün daha önemli hale geliyor. Bu noktada Python ile veri bilimi alanı devreye giriyor. Python, esnek yapısı ve güçlü kütüphaneleriyle veri analizi için en çok tercih edilen dillerden biridir. Bu yazıda, veri biliminin temel taşlarından olan Pandas ve NumPy kütüphanelerine giriş yapacağız.
Python ile Veri Bilimi Neden Bu Kadar Popüler?
- Açık kaynaklı ve ücretsiz
- Okunabilir sözdizimi
- Geniş topluluk ve kaynaklar
- Veri analizi, görselleştirme ve makine öğrenimi için güçlü kütüphaneler
NumPy Nedir?
NumPy (Numerical Python), Python'da bilimsel hesaplamalar için geliştirilmiş temel bir kütüphanedir. En büyük avantajı çok boyutlu dizileri (array) hızlı ve verimli şekilde işlemesidir.
NumPy ile Dizi Oluşturma:
import numpy as np
dizi = np.array([1, 2, 3, 4])
print(dizi)
NumPy, normal Python listelerine göre çok daha hızlı çalışır ve çok büyük veri kümeleriyle başa çıkabilir.
NumPy Özellikleri:
- Çok boyutlu array (ndarray)
- Matematiksel işlemler
- Rastgele sayı üretimi
- İstatistiksel analiz
Matematiksel İşlemler:
import numpy as np
a = np.array([10, 20, 30])
b = np.array([1, 2, 3])
print(a + b) # Toplama işlemi
print(a * b) # Çarpma işlemi
Pandas Nedir?
Pandas, veri analizi için geliştirilen en popüler Python kütüphanelerinden biridir. En güçlü yapısı DataFrame nesnesidir. Pandas, veri okuma, düzenleme, filtreleme ve analiz işlemleri için oldukça kolay bir kullanım sunar.
Excel / CSV Dosyası Okuma:
import pandas as pd
veri = pd.read_csv("veriler.csv")
print(veri.head())
DataFrame Nedir?
DataFrame, satır ve sütunlardan oluşan bir veri yapısıdır. Excel tablosuna benzer.
data = {
"Ad": ["Ali", "Ayşe", "Mehmet"],
"Yaş": [25, 30, 22]
}
df = pd.DataFrame(data)
print(df)
Sütunlara Erişim:
print(df["Ad"]) # Belirli bir sütunu getirir
print(df[["Ad", "Yaş"]]) # Birden fazla sütun getirir
Veri Temizleme (Data Cleaning)
Veri analizi sürecinde ilk adım genellikle veri temizlemedir. Eksik, hatalı ya da tekrar eden verilerin düzeltilmesi gerekir.
df.dropna() # Eksik verileri siler
df.fillna(0) # Eksik verileri 0 ile doldurur
df.duplicated().sum() # Tekrarlayan satır sayısı
Veri Filtreleme ve Koşullu Seçim
df[df["Yaş"] > 25] # Yaşı 25’ten büyük olanlar
df[df["Ad"] == "Ali"]
Gruplama ve İstatistik
df.groupby("Yaş").count()
df["Yaş"].mean() # Yaş ortalaması
df["Yaş"].max() # En büyük yaş
df["Yaş"].min() # En küçük yaş
Veri Görselleştirme (Bonus)
Pandas, veri görselleştirme için Matplotlib veya Seaborn ile birlikte çalışır.
import matplotlib.pyplot as plt
df["Yaş"].plot(kind="bar")
plt.show()
Pandas vs NumPy
| Özellik | NumPy | Pandas |
|---|---|---|
| Veri Tipi | Dizi (array) | DataFrame / Series |
| Esneklik | Daha az | Çok yüksek |
| Veri Analizi | Sınırlı | Kapsamlı |
| Veri Kaynağı | Manuel | CSV, Excel, SQL, JSON |
Gerçek Hayatta Kullanım Örnekleri
- Satış analizleri (ürün, tarih, kategori bazlı satışlar)
- Öğrenci başarı analizi (not ortalamaları, sınıf geçme)
- Müşteri segmentasyonu (yaş, bölge, satın alma alışkanlığı)
Python ile veri bilimi alanına adım atmak için Pandas ve NumPy kütüphaneleri vazgeçilmez araçlardır. Veri analizi, temizlik ve görselleştirme gibi işlemleri kolayca yapmanızı sağlarlar. İster öğrenci olun, ister bir iş yerinde veriyle çalışan biri, bu iki araç sayesinde kararlarınızı veriye dayalı alabilir ve işlerinizi daha verimli hale getirebilirsiniz.
Bu temel bilgilerle artık kendi veri analizlerinizi yapmaya başlayabilir, Python’un gücünü gerçek dünyada kullanabilirsiniz.