نحوه خواندن دیتاست‌ها (داده‌ها) موجود در پکیج Sklearn پایتون

چطور میتونیم در پکیج sklearn پایتون (یا اسم کاملش scikit-learn) از داده‌های موجود در خودش استفاده کنیم و اونا رو بخونیم؟! در این مطلب، در مورد همین موضوع صحبت میکنیم!

خواندن یک داده به عنوان مثال!

خب قطعه کد زیر رو در نظر بگیرید تا توضیح بدم!


from sklearn.datasets import load_iris
iris=load_iris()

در خط اول اومدیم گفتیم از پکیج sklearn (که اسم کاملش هست Scikit-Learn ! و معروف‌ترین پکیج پایتون برای یادگیری ماشین است!) میخوایم استفاده کنیم! اما همین sklearn یه زیربخش داره به اسم datasets (به معنی مجموعه‌داده‌ها) که مجموعه داده‌های معروف مختلف توووش هست! مثلاً یکی از داده‌های خیلی معروف اسمش هست iris ! که در مورد گل زنبق است (طول و عرض کاسبرگ و طول و عرض گلبرگ مربوط به 150 گل زنبق رو اومدن جمع‌آوری و ثبت کردن)! بماند! بحث ما الان داده iris نیست! باز هم تاکید کنم که این iris فقط یه نمونه بود! وگرنه اون بخش datasets داده‌های دیگه هم داره! هدف ما لیست کردن اون داده‌ها نیست! ولی بدونید iris فقط یه نمونه از اوناست!

داشتم میگفتم! از پکیج sklearn و از زیربخش datasets داریم دستور load_iris رو وارد برنامه می‌کنیم!

در خط بعدی داریم از همون load_iris استفاده می‌کنیم! خروجیش رو میریزیم توی یک متغیری به اسم iris (اسم دلبخواهه! حال کردید میتونستید بذارید Sajjad) !

یه لفظ تخصصی!

یه چیز تخصصی‌تر رو هم بگم که البته اگر متوجه نشدید، اشکال نداره! به کلیت این آموزش خللی وارد نمیشه و میتونید به راحتی بقیه‌ش رو ادامه بدید! ولی برای بهتر فمیدنش باید مبحث شی‌گرایی در پایتون و اینکه شی چی هست و این جور چیزا رو بلد باشید! اگر بلد نیستید هم این تیکه رو بی‌خیال بشید فعلا! نفهمیدن این یه دونه بخشی که الان میخوام بگم، خیلی به کلیت آموزش خللی وارد نمیکنه! اون نکته اینه که اون متغیر iris اصطلاحاً یک Dictionary-like object است! یعنی یک شیء که شبیه دیکشنری است! بازم میگم اگر متوجه نشید، به دلیل اینه که مبحث شی‌گرایی رو بلد نیستید، ولی اشکال نداره! از این جا به بعد رو دوباره پیش بیاید!

ویژگی (attribute)های مختلف متغیر iris !

اولاً از تیتر بالا خوف نکنید! در ادامه سعی میکنیم به صورت کوچه‌بازاری توضیح بدیم!

اون متغیر iris چیز میزای مختلف داره! که میخوایم دونه دونه بررسی کنیم!

data

این میاد داده‌ها رو به ما میده!


x=iris.data
print(x)

بخشی از خروجی [چون کل خروجی که زیاده و 150تا داده است! حوصله ندارم همش رو بیارم اینجا! فقط دوتای اول و دوتای آخرش رو میذارم و بینش سه نقطه میذارم!]

[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]

….

[6.2 3.4 5.4 2.3]
[5.9 3. 5.1 1.8]]

از روی این خروجی، مشخصه که داده‌هایی که ثبت شده، 4 ستون داده بوده! اما شاید بپرسید، حالا اسم ستون اول و دوم و الی آخر چی بوده؟! اینو توی تیتر بعدی توضیح میدم!

feature_names

ایشون اسم ویژگی‌ها (featureها یا به زبون خودمون، اسم همون ستون‌ها) رو به ما میده!


feature_names=iris.feature_names
print(feature_names)

خروجی!:

[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]

که یعنی ستون اول طول کاسبرگ (sepal length) به سانتی‌متر (cm) است! ستون دوم، عرض کاسبرگ (sepal width) به سانتی‌متر (cm) است! ستون سوم، طول گلبرگ (petal length) به سانتی‌متر (cm)! و ستون آخر عرض گلبرگ (petal width) به سانتی‌متر (cm) است!

target

یعنی متغیر هدف! اگر می‌پرسید متغیر هدف چی هست! یعنی شما دارید این آموزش رو اشتباهی میخونید! چون اینکه بدونید متغیر هدف یعنی چی، جزو ابتدائیات یادگیری ماشین هست و فرض این آموزش اینه که این الفاظ رو میدونید یعنی چی! اگر دوست داشتید، دوره یادگیری ماشین خودمون میتونه بهتون کمک کنه! اونجا از صفر صفر شروع میکنیم و خیلی از این مباحث و حتی پیشرفته‌ترش رو با فیلم و کامل توضیح میدیم!

دوره یادگیری ماشین با پایتون خودمون!


y=iris.target
print(y)

در اینجا اومدیم، مقدار label (یا همون برچسب یا همون مقدار متغیر هدف!) هر کدوم از اون 150 داده رو ریختیم توی متغیری به اسم y ! و آخرش هم داریم چاپش می‌کنیم!

خروجی [که برچسب هر کدوم از اون 150 تا داده رو نشون میده] !

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]

همینطور که می‌بینید برچسب‌های این داده iris شامل سه مقدار 0 و 1 و 2 است! حالا شاید بپرسید که خب حالا اسم این سه مقدار چیه؟! اینو توی تیتر بعدی میگم!

target_names

ایشون اسمِ مقادیرِ متغیر هدف (همون target) رو نشون میده!


target_names=iris.target_names
print(target_names)

خروجی!:

[‘setosa’ ‘versicolor’ ‘virginica’]

که این سه‌تا، اسم سه گونه گل زنبق است! در داده iris هدف اینه که براساس طول و عرض گلبرگ و طول و عرض کاسبرگ، بیاد گونه گل زنبق رو شناسایی کنه! یعنی گونه گل زنبق میشه متغیر هدف! و مقادیری که متغیر هدف میتونه به خودش بگیره هم همینایی است که دارید در بالا میبینید! به همین سادگی!

DESCR

این بزرگوار مخفف description (به معنی توضیح و توصیف) است! چون با استفاده از این، میتونید یه توضیحی از داده رو بگیرید! که در این مثال میاد یه توضیحی در مورد دیتاست iris بهتون میده!


print(iris.DESCR)

خروجی! [انصافاً بیست میلیون خط خروجی میده! کپی و paste کردنش اینجا فایده نداره و فقط الکی اینجا فضا رو پُر میکنیم! خودتون برید اجرا کنید و بخونید! به انگلیسی در مورد دیتاست توضیح میده!]

راستی دو نکته هم بگم!

1- ما در شبکه‌های اجتماعی مختلف، مطلب میذاریم (به صورت فیلم و تصویر و غیره)! حتماً ما رو دنبال کنید! آدرس‌هامون در شبکه‌های اجتماعی مختلف رو میتونید از طریق این لینک پیدا کنید!

2- اگر دوست داشتید، ما دوره‌ها مختلفی در زمینه پایتون داریم، که میتونید از طریق این لینک، اونا رو ببینید!

امیدوارم این مطلب براتون مفید بوده باشه!

مطالب مرتبط

آموزش تبدیل فایل های پایتون (py) به فایل اجرایی (exe)

33.9K بازدید 14 دیدگاه

آموزش تبدیل فایل های پایتون (py) به فایل اجرایی (exe) در این آموزش، درقالب یک مثال [و کدی...

فیلم نکات تکمیلی متغیرها در پایتون (Python)

9.2K بازدید 4 دیدگاه

سلام، در این پست با اسم فیلم نکات تکمیلی متغیرها در پایتون (Python) قراره یک سری از نکاتی...

محصولات تصادفی

آموزش زبان با انیمیشن The Wild Robot – بخش 1
قیمت اصلی 285,000 تومان بود.قیمت فعلی 200,000 تومان است.
دوره آموزش Numpy و Matplotlib و Pandas در پایتون
قیمت اصلی 4,500,000 تومان بود.قیمت فعلی 3,150,000 تومان است.
دوره آموزش یادگیری ماشین با پایتون
قیمت اصلی 6,000,000 تومان بود.قیمت فعلی 4,200,000 تومان است.

جزئیات نوشته

تعداد دیدگاه	0
تاریخ انتشار	14/07/2023
تاریخ بروزرسانی	14/07/2023

برای ارسال دیدگاه ابتداواردشوید