Merhaba arkadaşlar bu yazımda python programlama dilinde en çok kullanılan kütüphanelerden biri olan pandas kütüphanesi nedir ve nasıl kullanıyoruz açıklamaya çalışacağım.

Pandas Nedir ve Nasıl Kullanılır ?

Merhaba arkadaşlar bu yazımda python programlama dilinde en çok kullanılan kütüphanelerden biri olan pandas kütüphanesi nedir ve nasıl kullanıyoruz açıklamaya çalışacağım.

Pandas python programlama dili için yüksek performanslı, kullanımı kolay veri yapıları ve veri analiz araçları sağlayan açık kaynaklı bir BSD lisanslı kütüphanedir. Csv ve text dosyalarını açmaya ve  içerisinde bulunan verileri okuyarak istenen sonuca  kolayca ulaşmak için kullanılmaktadır. Yani bir excel dosyasını açarak içerisinde bulunan bir sütunu veya satırı seçerek işlemleri yapabiliriz. Numpy kütüphanesinde yapılan verilerin şekillendirilmesi daha detaylı bir biçimde kullanılabilmektedir. 

Time series data analizinde kullanılmaktadır. Örnek verecek olursak x ve y denklemimiz olduğunu varsayalım. X ekseninin zaman olduğunu varsayalım Y ekseninin ise hız olduğunu düşünecek olursak zamana bağlı veriyi bu şekilde depolayabilir. Hız aralıkları ve değişimlerini kolay bir şekilde bulabiliriz.

Pandas hız konusunda optimize edilmiş çok hızlı bir şekilde işlemleri yapabilmektedir. Aşağıdaki kodlarda pandas kütüphanemizi nasıl kullanıyoruz öğrenelim.


import pandas as pd #Kütüphaneyi projeye dahil ediyoruz.

#Bir tane ( sözlük )dictionary oluşturalım.
dictionary = {"isim":["merve","yasar","ozan","hilal","ayse","ali"],
              "yas":[23,46,17,33,45,36],
              "maas": [3400,1440,2540,3350,1150,2520]}  

dataFrm = pd.DataFrame(dictionary) 
#Dataframe yaratır. Excel verisi konumlandırır,
#Satır ve sütuna göre konumlandırarak yerleştirdi.

#Dataframe içerisinde ilk 5 satırı verir. Yani ali hariç hepsini verir.
head = dataFrm.head()  

#Dataframe içerisinden son 5 satırı verir.
tail = dataFrm.tail()

#Frameler içerisinden istediğiniz sayı kadar veri almak için içerisine sayı göndermek gerekir.

head=dataFrm.head(6) #İlk altı veriyi vermesini istedik.

Yukarıda yazılan kod  aşağıdaki resimdeki gibi şekillenmektedir. 

Data 

Pandast a tek bir sütunu almak için columns kullanarak görebiliriz. info ile içerisinde bulunan verilerin özelliklerini, sütun ve sayısı, boş olup olmadığını, veri tiplerini, ne kadar hafıza kullandığını gösterir. 


print(dataFrm.columns)
#Çıktı: Index(['isim', 'yas', 'maas'], dtype='object')

print(dataFrm.info())
""" Çıktı :
Index(['isim', 'yas', 'maas'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
isim    6 non-null object
yas     6 non-null int64
maas    6 non-null int64
dtypes: int64(2), object(1)
memory usage: 224.0+ bytes """

 

descripe fonksiyonu ile nümerik olan veriler analiz edilebilir. Aşağıdaki örnekte görebileceğiniz gibi isim hariç yaş ve maaş için minumum ve maximum verileri, medyan değerlerini bulabiliriz. İsim string bir veri olduğu için işlem yapılamaz.

print(dataFrm.describe())

""" Çıktı :
             yas         maas
count   6.000000     6.000000
mean   33.333333  2400.000000
std    11.639015   940.276555
min    17.000000  1150.000000
25%    25.500000  1710.000000
50%    34.500000  2530.000000
75%    42.750000  3147.500000
max    46.000000  3400.000000

"""

Dizin oluşturma ve veri seçme işlemleri kolay bir şekilde yapılabilmektedir. Belirli bir sütundaki veriyi seçmek için adını yazmanız yeterlidir.

print(dataFrm["yas"]) 
print(dataFrm.yas)

""" Her ikiside aynı işi yapar çıktı:
0    23
1    46
2    17
3    33
4    45
5    36
Name: yas, dtype: int64  şeklinde olacaktır """

print(dataFrm.loc[:,"yas"])#Bu şekilde de yas sütununu alabiliriz.

print(dataFrm.loc[:3,"yas"])#Bu şekilde ise yas sütununun 3.indexine kadar alabiliriz.

"""
0    23
1    46
2    17
3    33
"""

Dataframe içerisinde bulunan verileri filtreleme işlemi için kullanabiliriz. Örneğin maaşı belli bir fiyattan yüksekten ise listeleyelim. Dönen sonuç bize mantıksal olarak dönmektedir. Eğer maaşımızın 2000 liradan yüksek olanları listelersek 2000 bin liradan fazla olan maaşlar  true küçük olan maaşlar false olarak bize dönecektir.

filtre1 = dataFrm.maas > 2000  #Maaşı 2000 den büyük olanlar
filtrelenen_veriler=dataFrm[filtre1] 

filtre2=dataFrm.yas>23 #YAŞI BÜYÜK 23

#iki Filtreyi aynı anda uygulayabiliriz.
dataFrm[filtre1 & filtre2]

Yukarıdaki kodda maaşı 2000'den büyük olma filtresi uygulandığında karşımıza çıkan sonuç resimdeki gibidir.

Veriler

Pandas kütüphanesi hakkında bilinmesi gereken temel komutları anlatmaya çalıştım eğer pandas kütüphanesi hakkında detaylı bir bilgiye sahip olmak isterseniz  https://pandas.pydata.org/ ziyaret ederek daha detaylı bilgiye ulaşabilirsiniz. Bir başka yazımda görüşmek üzere.

 

Bu Gönderiyi Paylaş

Yorumlar (1)

  • ender

    güzel bilgiler kardeşim sağol.

    2019-01-05 17:46:20

İçerik Hakkında Yorum Yapın

www.000webhost.com