آموزش وب اسکرپینگ با پایتون

وب اسکرپینگ یه مهارت فوق‌العاده کاربردیه که بهت این امکان رو میده تا به صورت خودکار داده‌ های مورد نیازت رو از سایت‌ها جمع‌آوری کنی. تو دنیای امروز که همه‌ چیز داده‌ محوره، این مهارت میتونه توی تحلیل‌ ها و تصمیم‌ گیری‌ هات حسابی کمکت کنه. تو این دوره قراره با ابزارهای حرفه‌ای مثل BeautifulSoup، Scrapy و Selenium کار کنی و یاد بگیری چطور اطلاعات رو پردازش، دسته‌ بندی و ذخیره کنی. هدف این دوره اینه که از پایه همه‌چیز رو یاد بگیری و با انجام پروژه‌های عملی، حسابی مسلط بشی. اگر با پایتون آشنایی داری و دنبال یادگیری یه مهارت جذاب مثل داده‌کاوی و تحلیل اطلاعات هستی، این دوره دقیقاً برای تو ساخته شده!

تعداد دانشجو 127 نفر

مدت زمان دوره 3 ساعت و52 دقیقه

سطح دوره متوسط

روش دریافت تماشای آنلاین

پیش نیاز دارد

• آشنایی با پایتون

آخرین بروزرسانی 1405/02/21

وب اسکرپینگ چیست؟

وب اسکرپینگ یعنی "استخراج داده‌ ها از وب" . به زبان ساده، یعنی جمع‌ آوری خودکار اطلاعاتی مثل متن، تصاویر، لینک‌ها یا هر چیزی که روی سایت‌ها می‌بینی. ابزارها و برنامه‌های وب اسکرپینگ این داده‌ها رو میگیرن و توی قالبی مرتب، مثل فایل CSV یا دیتابیس، ذخیره میکنن تا بتونی به راحتی ازشون استفاده کنی. این مهارت کاربرد زیادی داره:

تحلیل بازار: میتونی قیمت‌ها، نظرات کاربران یا اطلاعات محصولات رو از سایت‌های فروشگاهی جمع کنی.
تحقیق و داده‌ کاوی: برای کارهای علمی یا تجاری، داده‌های مورد نیازت رو سریع جمع‌ آوری کنی.
مانیتورینگ رقبا: تغییرات سایت رقبا مثل قیمت‌ ها یا محصولات جدید رو راحت دنبال کنی.
خبرخوانی: اخبار رو به‌ صورت خودکار از سایت‌های خبری بگیری.
ایجاد پایگاه داده: اطلاعات تماس، آدرس‌ها یا هر داده‌ای که لازم داری رو از سایت‌ها استخراج کنی.
هوش مصنوعی و یادگیری ماشین: داده‌های مورد نیاز برای آموزش الگوریتم‌ ها رو تأمین کنی.

برای این کار ابزارهایی مثل BeautifulSoup، Scrapy و Selenium خیلی به دردت میخورن و کار استخراج داده‌ها رو برات آسون میکنن. وب اسکرپینگ نه‌ تنها جذابه، بلکه کلی بهت کمک میکنه توی دنیای داده‌ها حرفه‌ای بشی!

سرفصل های دوره

تعداد ویدیوها : 16

برای مشاهده ویدیوها ابتدا دکمه شرکت در دوره را بزنید

فصل اول : مقدمات و نصب ابزارها

در این بخش از آموزش وب اسکریپنگ، با مقدمات و نصب ابزارهای لازم برای شروع پروژه‌های وب اسکرپینگ آشنا می‌شویم. این مراحل شامل راه‌اندازی محیط مجازی، نصب وابستگی‌ها و نصب IDE مناسب و معرفی HTML است.

راه‌اندازی محیط مجازی (Virtual Environment)

8 دقیقه

راه‌اندازی محیط مجازی (Virtual Environment) به شما کمک می‌کند تا کتابخانه‌ها و وابستگی‌های پروژه‌های مختلف را به صورت جداگانه مدیریت کنید. این کار از تداخل نسخه‌ها و مشکلات احتمالی جلوگیری می‌کند و به شما امکان می‌دهد تا محیط توسعه‌ای تمیز و قابل مدیریت داشته باشید.

نصب وابستگی‌ها (Dependencies)

14 دقیقه

نصب وابستگی‌ها برای هر پروژه وب اسکرپینگ ضروری است. وابستگی‌ها شامل کتابخانه‌ها و ابزارهایی هستند که برای استخراج و پردازش داده‌ها به کار می‌روند. در این جلسه، نحوه نصب وابستگی‌های مورد نیاز برای پروژه وب اسکرپینگ با پایتون را یاد می‌گیرید.کتابخانه های مورد نیاز در این قسمت BeautifulSoup، Requests میباشد.

نصب وابستگی‌ها بر روی یک کامپیوتر جدید

8 دقیقه

در این جلسه، یاد می‌گیرید که چگونه وابستگی‌های پروژه وب اسکرپینگ خود را بر روی یک کامپیوتر جدید نصب کنید. این فرآیند شامل انتقال فایل‌های لازم و نصب مجدد وابستگی‌ها با استفاده از فایل requirements.txt است که قبلاً تهیه کرده‌اید.

آشنایی با HTML برای وب اسکرپینگ

23 دقیقه

HTML (HyperText Markup Language) زبان استانداردی است که برای ساخت صفحات وب استفاده می‌شود. در وب اسکرپینگ، HTML بسیار مهم است زیرا داده‌هایی که می‌خواهیم استخراج کنیم، اغلب درون تگ‌های HTML قرار دارند. در این بخش با مبانی HTML آشنا می‌شویم و می‌بینیم چگونه می‌توانیم از این زبان برای وب اسکرپینگ استفاده کنیم.

نصب IDE برای وب اسکرپینگ

8 دقیقه

برای شروع کار با وب اسکرپینگ، نیاز است که یک محیط توسعه یکپارچه (IDE) مناسب نصب کنید. یک IDE ابزارهایی را فراهم می‌کند که به شما در نوشتن، اشکال‌زدایی و اجرای کدهایتان کمک می‌کند. در این راهنما، نصب یکی از محبوب‌ترین IDEها یعنی Visual Studio Code را بررسی می‌کنیم.

فصل دوم : شروع اسکرپینگ

ارسال درخواست به یک وب‌سایت

11 دقیقه

یکی از مراحل اصلی در وب اسکرپینگ، ارسال درخواست (ریکوئست) به یک URL و دریافت پاسخ از سرور است. در این بخش، یاد می‌گیریم که چگونه با استفاده از کتابخانه requests در پایتون، این کار را انجام دهیم و در نهایت با استفاده از کتابخانه BeautifulSoup داده های مورد نظر را استخراج میکنیم.

تجزیه HTML با BeautifulSoup

11 دقیقه

پس از دریافت محتوای HTML، می‌توانیم از BeautifulSoup برای تجزیه و تحلیل آن استفاده کنیم.کتابخانه BeautifulSoup مجموعه‌ای از متدها را برای تجزیه و تحلیل اسناد HTML و XML فراهم می‌کند. در اینجا به برخی از متدهای مهم و کاربردی این کتابخانه اشاره می‌کنیم.

استخراج عنوان‌ها

13 دقیقه

برای استخراج عنوان‌ها از یک وب‌سایت خبری، می‌توانیم از کتابخانه‌های requests و BeautifulSoup استفاده کنیم. در اینجا مثالی آورده شده است که عنوان‌ها را از یک وب‌سایت خبری نمونه استخراج می‌کند.در این قسمت با متدهای find و find_all در BeautifulSoup آشنا میشوید.

استخراج URL های اخبار

18 دقیقه

در این قسمت همانند قسمت قبل به استخراج URL های اخبار و متن آن از طریق متد get میپردازیم.

استخراج جزئیات هر خبر - قسمت اول

10 دقیقه

تا اینجای کار ما توانسته ایم به لینک صفحات اخبار دسترسی داشته باشیم، حال در این قسمت وارد صفحه هرخبر شده و اطلاعات مورد نظر از آن صفحه را در فایل یا دیتابیس مورد نظر ذخیره میکنیم.

استخراج جزئیات هر خبر - قسمت دوم

18 دقیقه

استخراج تاریخ اخبار

20 دقیقه

در این قسمت به پیدا کردن تگ مربوط به تاریخ انتشار هر خبر و استخراج آن از هر صفحه خبر میپردازیم.

مرور جلسات قبلی

26 دقیقه

فصل سوم: کار با Pandas

Pandas یک کتابخانه قدرتمند برای تحلیل و پردازش داده‌ها در پایتون است. این کتابخانه به ویژه برای کار با داده‌های جدولی و سری‌های زمانی بسیار مناسب است. در اینجا به برخی از مفاهیم و عملیات پایه‌ای که می‌توان با Pandas انجام داد، اشاره می‌کنیم.

خواندن فایل های tsv ,csv با Pandas

15 دقیقه

برای خواندن فایل TSV از همان تابع read_csv استفاده می‌شود، اما جداکننده ستون‌ها در فایل‌های TSV کاراکتر تب (\t) است. برای مشخص کردن این جداکننده، باید از پارامتر delimiter استفاده کنید.

فصل چهارم: ثبت داده ها در دیتابیس

استفاده از SQLite3 برای افزودن داده به پایگاه داده

18 دقیقه

SQLite3 یک سیستم مدیریت پایگاه داده رابطه‌ای سبک و بدون نیاز به سرور است که به طور گسترده در برنامه‌های کوچک و متوسط استفاده می‌شود. در اینجا نحوه استفاده از SQLite3 برای ایجاد پایگاه داده، ایجاد جداول، و افزودن داده‌ها به آن را بررسی میکنیم.

ذخیره داده‌ها در DataFrame

11 دقیقه

Pandas یکی از کتابخانه‌های محبوب پایتون برای کار با داده‌ها است. DataFrame ساختار اصلی داده در Pandas است که به شما اجازه می‌دهد داده‌های جدولی را به راحتی مدیریت و تحلیل کنید. در اینجا نحوه ذخیره داده‌ها در یک DataFrame توضیح داده شده است.

نظرات شما

قیمت دوره: 290,000 شرکت در دوره

نظرات دانشجویان

مهندس مصطفایی

سعید مصطفایی

کارشناس ارشد مهندسی فناوری اطلاعات از دانشگاه تربیت مدرس تهران و مدرس دوره‌های پایتون و هوش مصنوعی در آموزشگاه تحلیل داده است.

او بیشتر از ۱۲ سال در حوزه پروژه‌های نرم‌افزاری فعالیت داشته و در زمینه تحلیل، طراحی نرم‌افزار و اجرای فرایندهای Agile با شرکت‌ها و تیم‌های مختلف همکاری کرده است.

در کنار فعالیت حرفه‌ای، سابقه تدریس دوره‌های مختلفی مثل:

پایتون و برنامه‌نویسی وب
تحلیل نرم‌افزار
مدیریت پروژه چابک (Agile)
تحلیل کسب‌وکار
طراحی سیستم‌های نرم‌افزاری

را هم در کارنامه خودش دارد.

سبک تدریس ایشان بیشتر روی آموزش کاربردی، مثال‌های واقعی و قابل استفاده در پروژه‌ها متمرکز است.

درصد تکمیل دوره 100%

این دوره به سبد خرید اضافه شد

آموزش وب اسکرپینگ با پایتون 290,000

رفتن به سبد خرید