در حال بارگزاری

نحوه خواندن دیتاست‌ها (داده‌ها) موجود در پکیج Sklearn پایتون

شما اینجا هستید:
نحوه خواندن دیتاست‌ها (داده‌ها) موجود در پکیج Sklearn پایتون

نحوه خواندن دیتاست‌ها (داده‌ها) موجود در پکیج Sklearn پایتون

چطور میتونیم در پکیج sklearn پایتون (یا اسم کاملش scikit-learn) از داده‌های موجود در خودش استفاده کنیم و اونا رو بخونیم؟! در این مطلب، در مورد همین موضوع صحبت میکنیم!

خواندن یک داده به عنوان مثال!

خب قطعه کد زیر رو در نظر بگیرید تا توضیح بدم!


from sklearn.datasets import load_iris
iris=load_iris()

در خط اول اومدیم گفتیم از پکیج sklearn (که اسم کاملش هست Scikit-Learn ! و معروف‌ترین پکیج پایتون برای یادگیری ماشین است!) میخوایم استفاده کنیم! اما همین sklearn یه زیربخش داره به اسم datasets (به معنی مجموعه‌داده‌ها) که مجموعه داده‌های معروف مختلف توووش هست! مثلاً یکی از داده‌های خیلی معروف اسمش هست iris ! که در مورد گل زنبق است (طول و عرض کاسبرگ و طول و عرض گلبرگ مربوط به 150 گل زنبق رو اومدن جمع‌آوری و ثبت کردن)! بماند! بحث ما الان داده iris نیست! باز هم تاکید کنم که این iris فقط یه نمونه بود! وگرنه اون بخش datasets داده‌های دیگه هم داره! هدف ما لیست کردن اون داده‌ها نیست! ولی بدونید iris فقط یه نمونه از اوناست!

داشتم میگفتم! از پکیج sklearn و از زیربخش datasets داریم دستور load_iris رو وارد برنامه می‌کنیم!

در خط بعدی داریم از همون load_iris استفاده می‌کنیم! خروجیش رو میریزیم توی یک متغیری به اسم iris (اسم دلبخواهه! حال کردید میتونستید بذارید Sajjad) !

یه لفظ تخصصی!

یه چیز تخصصی‌تر رو هم بگم که البته اگر متوجه نشدید، اشکال نداره! به کلیت این آموزش خللی وارد نمیشه و میتونید به راحتی بقیه‌ش رو ادامه بدید! ولی برای بهتر فمیدنش باید مبحث شی‌گرایی در پایتون و اینکه شی چی هست و این جور چیزا رو بلد باشید! اگر بلد نیستید هم این تیکه رو بی‌خیال بشید فعلا! نفهمیدن این یه دونه بخشی که الان میخوام بگم، خیلی به کلیت آموزش خللی وارد نمیکنه! اون نکته اینه که اون متغیر iris اصطلاحاً یک Dictionary-like object است! یعنی یک شیء که شبیه دیکشنری است! بازم میگم اگر متوجه نشید، به دلیل اینه که مبحث شی‌گرایی رو بلد نیستید، ولی اشکال نداره! از این جا به بعد رو دوباره پیش بیاید!

 

ویژگی (attribute)های مختلف متغیر iris !

اولاً از تیتر بالا خوف نکنید! در ادامه سعی میکنیم به صورت کوچه‌بازاری توضیح بدیم!

اون متغیر iris چیز میزای مختلف داره! که میخوایم دونه دونه بررسی کنیم!

data

این میاد داده‌ها رو به ما میده!


x=iris.data
print(x)

بخشی از خروجی [چون کل خروجی که زیاده و 150تا داده است! حوصله ندارم همش رو بیارم اینجا! فقط دوتای اول و دوتای آخرش رو میذارم و بینش سه نقطه میذارم!]

[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]

….

[6.2 3.4 5.4 2.3]
[5.9 3. 5.1 1.8]]

از روی این خروجی، مشخصه که داده‌هایی که ثبت شده، 4 ستون داده بوده! اما شاید بپرسید، حالا اسم ستون اول و دوم و الی آخر چی بوده؟! اینو توی تیتر بعدی توضیح میدم!

feature_names

ایشون اسم ویژگی‌ها (featureها یا به زبون خودمون، اسم همون ستون‌ها) رو به ما میده!


feature_names=iris.feature_names
print(feature_names)

خروجی!:

[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]

که یعنی ستون اول طول کاسبرگ (sepal length) به سانتی‌متر (cm) است! ستون دوم، عرض کاسبرگ (sepal width) به سانتی‌متر (cm) است! ستون سوم، طول گلبرگ (petal length) به سانتی‌متر (cm)! و ستون آخر عرض گلبرگ (petal width) به سانتی‌متر (cm) است!

target

یعنی متغیر هدف! اگر می‌پرسید متغیر هدف چی هست! یعنی شما دارید این آموزش رو اشتباهی میخونید! چون اینکه بدونید متغیر هدف یعنی چی، جزو ابتدائیات یادگیری ماشین هست و فرض این آموزش اینه که این الفاظ رو میدونید یعنی چی! اگر دوست داشتید، دوره یادگیری ماشین خودمون میتونه بهتون کمک کنه! اونجا از صفر صفر شروع میکنیم و خیلی از این مباحث و حتی پیشرفته‌ترش رو با فیلم و کامل توضیح میدیم!

دوره یادگیری ماشین با پایتون خودمون!


y=iris.target
print(y)

در اینجا اومدیم، مقدار label (یا همون برچسب یا همون مقدار متغیر هدف!) هر کدوم از اون 150 داده رو ریختیم توی متغیری به اسم y ! و آخرش هم داریم چاپش می‌کنیم!

خروجی [که برچسب هر کدوم از اون 150 تا داده رو نشون میده] !

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]

همینطور که می‌بینید برچسب‌های این داده iris شامل سه مقدار 0 و 1 و 2 است! حالا شاید بپرسید که خب حالا اسم این سه مقدار چیه؟! اینو توی تیتر بعدی میگم!

target_names

ایشون اسمِ مقادیرِ متغیر هدف (همون target) رو نشون میده!


target_names=iris.target_names
print(target_names)

خروجی!:

[‘setosa’ ‘versicolor’ ‘virginica’]

که این سه‌تا، اسم سه گونه گل زنبق است! در داده iris هدف اینه که براساس طول و عرض گلبرگ و طول و عرض کاسبرگ، بیاد گونه گل زنبق رو شناسایی کنه! یعنی گونه گل زنبق میشه متغیر هدف! و مقادیری که متغیر هدف میتونه به خودش بگیره هم همینایی است که دارید در بالا میبینید! به همین سادگی!

DESCR

این بزرگوار مخفف description (به معنی توضیح و توصیف) است! چون با استفاده از این، میتونید یه توضیحی از داده رو بگیرید! که در این مثال میاد یه توضیحی در مورد دیتاست iris بهتون میده!


print(iris.DESCR)

خروجی! [انصافاً بیست میلیون خط خروجی میده! کپی و paste کردنش اینجا فایده نداره و فقط الکی اینجا فضا رو پُر میکنیم! خودتون برید اجرا کنید و بخونید! به انگلیسی در مورد دیتاست توضیح میده!]

 

راستی دو نکته هم بگم!

1- ما در شبکه‌های اجتماعی مختلف، مطلب میذاریم (به صورت فیلم و تصویر و غیره)! حتماً ما رو دنبال کنید! آدرس‌هامون در شبکه‌های اجتماعی مختلف رو میتونید از طریق این لینک پیدا کنید!

2- اگر دوست داشتید، ما دوره‌ها مختلفی در زمینه پایتون داریم، که میتونید از طریق این لینک، اونا رو ببینید!

 

امیدوارم این مطلب براتون مفید بوده باشه!

مطالب مرتبط

آموزش بازکردن فایل های jupyter notebook پایتون (با پسوند ipynb) قطعاً یکی از سوالاتی که تا الان پیش...

آموزش تابع enumerate در پایتون (Python) تابع enumerate یک تابع از پیش‌ساخته شده و موجود در خود برنامه...

جزئیات نوشته
تعداد دیدگاه 0
تعداد بازدید 1.7K
تاریخ انتشار 14/07/2023
تاریخ بروزرسانی 14/07/2023
نویسنده گروه آموزشی کولاک
برای ارسال دیدگاه ابتداواردشوید