Veri Analizi için Python'un Pandas Kütüphanesini Keşfetmek

Pandas, veri işleme ve analizi için kullanılan güçlü bir Python kütüphanesidir. Yapılandırılmış verilerle sorunsuz bir şekilde çalışmak için gereken veri yapıları ve işlevleri sağlar. Kullanımı kolay veri yapılarıyla Pandas, özellikle veri temizleme, dönüştürme ve analiz için kullanışlıdır. Bu makale, Pandas'ın temel özelliklerini ve verileri verimli bir şekilde işlemek için nasıl kullanabileceğinizi inceler.

Pandas'a Başlarken

Pandas'ı kullanmaya başlamak için pip kullanarak yüklemeniz gerekir. Bunu aşağıdaki komutu çalıştırarak yapabilirsiniz:

pip install pandas

Çekirdek Veri Yapıları

Pandas iki temel veri yapısı sağlar: Seri ve Veri Çerçevesi.

Seri

Bir Seri, tam sayılar, dizeler ve kayan nokta sayıları dahil olmak üzere çeşitli veri türlerini tutabilen tek boyutlu dizi benzeri bir nesnedir. Bir Serideki her öğenin ilişkili bir dizini vardır.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

Veri Çerçevesi

Bir DataFrame, etiketli eksenlere (satırlar ve sütunlar) sahip iki boyutlu, boyut değiştirilebilir ve heterojen bir tablo veri yapısıdır. Esasen bir Seri koleksiyonudur.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Veri Manipülasyonu

Pandas, indeksleme, dilimleme ve filtreleme gibi verileri işlemek için geniş bir yelpazede işlevsellik sunar.

Dizinleme ve Dilimleme

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

Verileri Filtreleme

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Veri Temizleme

Veri temizleme, veri analizinde önemli bir adımdır. Pandas, eksik verileri, yinelenen kayıtları ve veri dönüşümünü ele almak için çeşitli yöntemler sunar.

Eksik Verilerin İşlenmesi

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

Yinelenenleri Kaldırma

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

Çözüm

Pandas, Python'da veri analizi için olmazsa olmaz bir araçtır. Güçlü veri yapıları ve işlevleri, verileri işlemeyi, düzenlemeyi ve analiz etmeyi kolaylaştırır. Pandas'ta ustalaşarak, veri analizi yeteneklerinizi önemli ölçüde artırabilir ve iş akışınızı düzene sokabilirsiniz.