Reading Excel files in Python

কিভাবে পাইথন দিয়ে এক্সেল ফাইল পড়া যায়

আপনি কি পাইথনে এক্সেল ফাইল পড়তে চান? পাইথনের সাথে এক্সেল ফাইল পড়া, ডেটা প্রক্রিয়া, এবং বিশ্লেষণ করা সহজ করে তুলতে পারে।

এই নিবন্ধে, আমরা পাইথনে এক্সেল ফাইলগুলি কীভাবে পড়তে হয় তা শিখব।

পূর্বশর্ত

আমরা শুরু করার আগে, আসুন নিশ্চিত করি যে আমাদের কাছে প্রয়োজনীয় সরঞ্জামগুলি ইনস্টল করা আছে। আমাদের প্রয়োজন হবে:

  • Python 3.x
  • Pandas প্যাকেজ (এক্সেল ফাইল পড়ার জন্য)

আপনি pip ব্যবহার করে pandas প্যাকেজ ইনস্টল করতে পারেন:

pip install pandas

এক্সেল ফাইলগুলি বোঝা

আমরা পাইথনে এক্সেল ফাইল পড়া শুরু করার আগে, আসুন সংক্ষেপে এক্সেল ফাইলের গঠন পর্যালোচনা করি। একটি এক্সেল ফাইলকে ওয়ার্কশীটে সংগঠিত করা হয়, যা সারি এবং কলামে সাজানো ঘরের সংগ্রহ। প্রতিটি কক্ষে বিভিন্ন ধরনের ডেটা থাকতে পারে, যেমন সংখ্যা, টেক্সট বা সূত্র।

এক্সেল ফাইলের জন্য সবচেয়ে সাধারণ ফাইল ফরম্যাট হল XLSX। এই বিন্যাসটি Office Open XML (OOXML) স্ট্যান্ডার্ডের উপর ভিত্তি করে ; ডেটা এবং মেটাডেটা সঞ্চয় করতে XML ফাইল ব্যবহার করে।

পাইথনে এক্সেল ফাইল পড়া

এখন যেহেতু আমরা প্রয়োজনীয় টুল ইনস্টল করেছি এবং এক্সেল ফাইলগুলির গঠন পর্যালোচনা করেছি, আমরা পাইথন দিয়ে সেগুলি পড়া শুরু করতে পারি। আমরা Pandas প্যাকেজটি ব্যবহার করব, যা ডেটা ম্যানিপুলেশন এবং বিশ্লেষণের জন্য একটি শক্তিশালী টুল সরবরাহ করে।

ধাপ 1: Pandas প্যাকেজ ইম্পোর্ট করা

প্রথম ধাপ হল আপনার পাইথন স্ক্রিপ্টে Pandas প্যাকেজ ইম্পোর্ট করা:

import pandas as pd

ধাপ 2: এক্সেল ফাইল লোড করা

পরবর্তী ধাপ হল এক্সেল ফাইলটিকে Pandas ডেটাফ্রেমে লোড করা। একটি ডেটাফ্রেম হল এক্সেলের একটি ওয়ার্কশীটের মতো সারি এবং কলাম সহ ডেটার একটি দ্বি-মাত্রিক সারণী।

আপনি Pandas এ read_excel() ফাংশন ব্যবহার করে একটি এক্সেল ফাইল লোড করতে পারেন:

df = pd.read_excel('file.xlsx')

ডিফল্টরূপে, read_excel() এক্সেল ফাইলের প্রথম শীটটি পড়ে। এছাড়াও আপনি sheet_name প্যারামিটার ব্যবহার করে শীটের নাম বা সূচী নির্দিষ্ট করতে পারেন:

df = pd.read_excel('file.xlsx', sheet_name='Sheet2')

ধাপ 3: ডেটা অ্যাক্সেস করা

একবার যখন আপনি ডেটাফ্রেমে এক্সেল ফাইল লোড করে ফেলেছেন, আপনি স্ট্যান্ডার্ড Pandas ফাংশন ব্যবহার করে ডেটা অ্যাক্সেস করতে পারেন। উদাহরণস্বরূপ, আপনি head() ফাংশন ব্যবহার করে ডেটার প্রথম পাঁচটি সারি প্রদর্শন করতে পারেন:

print(df.head())

এছাড়াও আপনি iloc[] ফাংশন ব্যবহার করে নির্দিষ্ট সেল বা সেলের রেঞ্জ অ্যাক্সেস করতে পারেন, যা শূন্য-ভিত্তিক ইন্ডেক্সিং ব্যবহার করে:

# সারি 2, কলাম 3-এ সেল অ্যাক্সেস করতে
print(df.iloc[1, 2])

# সারি 2 থেকে 4, কলাম 3 থেকে 5 পর্যন্ত ডাটা অ্যাক্সেস করতে
print(df.iloc[1:4, 2:5])

ধাপ 4: অনুপস্থিত মানগুলি পরিচালনা করা

এক্সেল ফাইলগুলিতে অনুপস্থিত বা খালি সেল থাকতে পারে, যা ডেটা প্রক্রিয়া করার সময় সমস্যা সৃষ্টি করতে পারে। অনুপস্থিত মানগুলি পরিচালনা করার জন্য Pandas বিভিন্ন ফাংশন প্রদান করে, যেমন dropna() অনুপস্থিত মান সহ সারিগুলি সরাতে এবং একটি নির্দিষ্ট মান বা পদ্ধতির সাথে অনুপস্থিত মানগুলি পূরণ করতে fillna() .

# অনুপস্থিত মান সহ সারিগুলি সরাতে
df.dropna(inplace=True)

# কলামের গড় দিয়ে অনুপস্থিত মান পূরণ করতে
df.fillna(df.mean(), inplace=True)

ধাপ 5: ডেটা সংরক্ষণ করা

অবশেষে, আপনি একটি ভিন্ন ফর্ম্যাট বা ফাইলে ডেটা সংরক্ষণ করতে চাইতে পারেন। Pandasবিভিন্ন ফরম্যাটে যেমন CSV, Excel বা SQL ডেটা সংরক্ষণের জন্য ফাংশন প্রদান করে।

# CSV ফাইলে ডেটা সংরক্ষণ করতে
df.to_csv('file.csv', index=False)

# এক্সেল ফাইলে ডেটা সংরক্ষণ করতে
df.to_excel('file.xlsx', sheet_name='Sheet2', index=False)

চূড়ান্ত কোডগুলি

আসুন আমরা যা শিখেছি তা একটি সম্পূর্ণ পাইথন স্ক্রিপ্টে রাখি যা একটি এক্সেল ফাইল পড়ে, ডেটা প্রক্রিয়া করে এবং এটি একটি CSV ফাইলে সংরক্ষণ করে:

import pandas as pd

# ডেটাফ্রেমে এক্সেল ফাইল লোড করতে
df = pd.read_excel('file.xlsx')

# ডেটার প্রথম পাঁচটি সারি প্রদর্শন করতে
print(df.head())

# অনুপস্থিত মান সহ সারি সরাতে
df.dropna(inplace=True)

# কলামের গড় দিয়ে অনুপস্থিত মান পূরণ করতে
df.fillna(df.mean(), inplace=True)

# CSV ফাইলে ডেটা সংরক্ষণ করতে
df.to_csv('file.csv', index=False)

উপসংহার

এই নিবন্ধে, আমরা পান্ডাস প্যাকেজ ব্যবহার করে পাইথনে এক্সেল ফাইলগুলি কীভাবে পড়তে হয় তা শিখেছি। আমরা ডেটাফ্রেমে একটি এক্সেল ফাইল লোড করা, ডেটা অ্যাক্সেস করা, অনুপস্থিত মানগুলি পরিচালনা করা এবং ডেটাকে একটি ভিন্ন ফর্ম্যাট বা ফাইলে সংরক্ষণ করার প্রাথমিক ধাপগুলি শিখেছি।

কিন্তু এটি একটি ছোট অংশ মাত্র। Pandas ডেটা ম্যানিপুলেশন এবং বিশ্লেষণের জন্য প্রচুর সরঞ্জাম সরবরাহ করে এবং পাইথনে এক্সেল ফাইলগুলি পড়ার এবং প্রক্রিয়া করার জন্য আরও অনেক উন্নত কৌশল রয়েছে। আপনি যদি আরও জানতে চান, পান্ডাস ডকুমেন্টেশন দেখুন এবং অনলাইনে অনেক উদাহরণ এবং টিউটোরিয়াল পাওয়া যায়।

এটি কি সহায়ক ছিল?

একটি মন্তব্য করুন

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।