قیمت این دوره: 700,000 350,000 تومان
  • مدرس دوره : قائم تقی پور
  • تعداد ویدیوها : 79 ویدیو
  • مدت زمان دوره : 13:49:00
  • سطح دوره : پیشرفته
  • وضعیت دوره : به اتمام رسیده
  • تاریخ آخرین بروزرسانی : 1402/12/02
ثبتـــ نام در این دوره ثبت نام در دوره
آموزش جامع یادگیری تقویتی (Reinforcement Learning) در پایتون

آموزش جامع یادگیری تقویتی (Reinforcement Learning) در پایتون

یادگیری تقویتی (Reinforcement Learning) یک زیرشاخه جذاب از هوش مصنوعی است که بر تعامل با یک محیط و انجام کنش هایی به منظور حل مسائل کنترلی توسط یک عامل هوشمند تمرکز دارد. این شاخه از هوش مصنوعی به ماشین‌ها اجازه می‌ دهد تا از تجربیات خود بیاموزند و تصمیمات خود را بر اساس الگوریتم های تعریف شده اتخاذ کنند. برخلاف یادگیری نظارت شده که در آن مدل‌ ها بر اساس مجموعه داده ‌های برچسب‌ زده آموزش می ‌بینند، و یا یادگیری بدون نظارت که در آن شباهت ها کشف می ‌شوند، یادگیری تقویتی بر تعامل عامل‌ها با محیط ‌های مربوطه تمرکز دارد.

کاربردهای یادگیری تقویتی در دنیای واقعی بسیار گسترده و تاثیرگذار است، چرا که ماشین‌ها در این شاخه از هوش مصنوعی به صورت خودکار و بدون نیاز به ‌کمک انسانی عمل می‌کنند،  و این تکنیک برای حل مسائل متنوع در دنیای واقعی از اهمیت بسزایی برخوردار است. از این حوزه در زمینه های مختلفی از جمله رباتیک، خودروهای خودران، پرنده های بدون سرنشین، بازی های ویدئویی، پزشکی، سیستم های معاملاتی و مسائل دیگری که در آن نیاز به یک عامل هوشمند جهت اتخاذ تصمیم و انجام اعمال در یک محیط وجود دارد، استفاده می شود.

در این دوره، مباحث مربوط به یادگیری تقویتی، با رویکرد پیاده سازی الگوریتم ها با استفاده از زبان برنامه نویسی پایتون و طبق سرفصل های استاندارد مباحث مربوط به این حوزه، و در قالب 6 فصل اصلی تدریس خواهد شد.

جهت کسب اطلاعات بیشتر در رابطه با این دوره، لطفا جلسه ی معرفی دوره را مشاهده نمایید.

 

سرفصل های دوره:

فصل1 : مفاهیم مقدماتی یادگیری تقویتی
فصل2: برنامه نویسی پویا
فصل3: روش مونت کارلو
فصل4: الگوریتم های Temporal Difference
فصل5: یادگیری عمیق (Deep Learning) و شبکه های عصبی مصنوعی (ANN)
فصل 6: یادگیری تقویتی عمیق (Deep Reinforcement Learning)


پیش نیاز های دوره :

  1. آشنایی با زبان برنامه نویسی پایتون
  2. آشنایی مقدماتی و علاقه مندی به یادگیری ریاضیات و آمار

فهرستـــ ویدیوها

مدت زمان دوره 13:49:00
  • با مشاهده آنلاین جلسات در سایت ، هزینه اینترنت شما به صورت نیم بها محاسبه خواهد شد.

1
  • معرفی دوره

00:21:35

معرفی دوره

2
  • بررسی نقشه راه دوره

00:08:44

بررسی نقشه راه دوره

3
  • آشنایی با برخی از کاربردهای مهم یادگیری تقویتی

00:14:11

آشنایی با برخی از کاربردهای مهم یادگیری تقویتی

4
  • معرفی کتب مرجع و رفرنس های دوره

00:09:08

مرجع مطالب دوره

5
  • فصل 1 - مفاهیم مقدماتی یادگیری تقویتی

00:17:16

فصل 1 - مفاهیم مقدماتی یادگیری تقویتی

6
  • فرایند تصمیم گیری مارکوف

00:12:55

MDP

7
  • تعریف فضاها و مفهوم اپیزود

00:10:09

تعریف فضاها و مفهوم اپیزود

8
  • بررسی مفهوم Trajectory و مقایسه با Episode

00:04:00

بررسی مفهوم Trajectory و مقایسه با Episode

9
  • پاداش و بازده (Reward و Return)

00:04:35

Reward و Return

10
  • مفهوم Discount Factor

00:06:35

مفهوم Discount Factor

11
  • مفهوم Policy

00:06:17

مفهوم Policy

12
  • مقادیر فضای حالت و فضای اکشن

00:06:23

مقادیر فضای حالت و فضای اکشن

13
  • معادله‌ی Bellman

00:06:29

معادلات Bellman

14
  • بررسی حل مساله ی MDP و راه اندازی محیط برنامه نویسی

00:25:54

حل مساله ی MDP و راه اندازی محیط برنامه نویسی

15
  • نصب پیشنیازها

00:11:51

نصب پیشنیازها

16
  • پیاده سازی فرایند تصمیم گیری مارکوف 1

00:19:05

پیاده سازی فرایند تصمیم گیری مارکوف

17
  • پیاده سازی فرایند تصمیم گیری مارکوف 2

00:16:57

پیاده سازی فرایند تصمیم گیری مارکوف

18
  • پیاده سازی فرایند تصمیم گیری مارکوف 3

00:10:28

پیاده سازی فرایند تصمیم گیری مارکوف

19
  • فصل دوم - برنامه نویسی پویا

00:09:10

فصل دوم - برنامه نویسی پویا

20
  • مفهوم Value Iteration

00:09:03

مفهوم Value Iteration

21
  • پیاده سازی Value Iteration - جلسه 1

00:06:08

پیاده سازی Value Iteration - جلسه 1

22
  • پیاده سازی Value Iteration - جلسه 2

00:11:48

پیاده سازی Value Iteration - جلسه 2

23
  • پیاده سازی Value Iteration - جلسه 3

00:09:41

پیاده سازی Value Iteration

24
  • پیاده سازی Value Iteration - جلسه 4

00:17:29

پیاده سازی Value Iteration - جلسه 4

25
  • مفهوم Policy Iteration

00:04:41

Policy Iteration

26
  • پیاده سازی Policy Iteration - جلسه 1

00:11:17

پیاده سازی Policy Iteration

27
  • مفهوم Policy Evaluation

00:04:47

مفهوم Policy Evaluation

28
  • پیاده سازی Policy Iteration - جلسه 2

00:09:15

پیاده سازی Policy Iteration - جلسه 2

29
  • مفهوم Policy Improvement

00:04:06

مفهوم Policy Improvement

30
  • پیاده سازی Policy Iteration - جلسه 3

00:08:29

پیاده سازی Policy Iteration - جلسه 3

31
  • پیاده سازی Policy Iteration - جلسه 4

00:10:14

پیاده سازی Policy Iteration - جلسه 4

32
  • آشنایی با Policy Iteration تعمیم یافته

00:07:38

GPI

33
  • فصل سوم - روش مونت کارلو

00:13:56

روش مونت کارلو

34
  • بررسی حل مسائل با روش مونت کارلو و نگاهی به مساله راهزن چند دست

00:18:36

بررسی حل مسائل با روش مونت کارلو و نگاهی به مساله راهزن چند دست

35
  • حل مسائل به روش مونت کارلو با تکنیک On-Policy

00:14:39

حل مسائل به روش مونت کارلو با تکنیک On-Policy

36
  • پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 1

00:13:18

پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 1

37
  • پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 2

00:12:52

پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 2

38
  • پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 3

00:18:26

پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 3

39
  • پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 4

00:06:02

پیاده سازی روش مونت کارلو با تکنیک On-Policy - جلسه 4

40
  • پیاده سازی مونت کارلو با روش آلفا

00:07:07

پیاده سازی مونت کارلو با روش آلفا

41
  • تکنیک Off-Policy در مونت کارلو

00:13:04

تکنیک Off-Policy در مونت کارلو

42
  • پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 1

00:15:34

پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 1

43
  • پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 2

00:10:17

پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 2

44
  • پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 3

00:03:40

پیاده سازی تکنیک Off-Policy در مونت کارلو - جلسه 3

45
  • فصل چهارم - الگوریتم های Temporal Difference

00:08:11

الگوریتم های Temporal Difference

46
  • حل مسائل کنترلی با روش TD

00:08:29

حل مسائل کنترلی با روش TD

47
  • مقایسه الگوریتم های TD و MC

00:05:53

مقایسه الگوریتم های TD و MC

48
  • معرفی الگوریتم SARSA

00:08:20

معرفی الگوریتم SARSA

49
  • پیاده سازی الگوریتم SARSA - جلسه 1

00:06:24

پیاده سازی الگوریتم SARSA

50
  • پیاده سازی الگوریتم SARSA - جلسه 2

00:15:16

پیاده سازی الگوریتم SARSA

51
  • معرفی Q-Learning

00:07:55

معرفی Q-Learning

52
  • پیاده سازی الگوریتم Q-Learning - جلسه 1

00:05:48

پیاده سازی الگوریتم Q-Learning - جلسه 1

53
  • پیاده سازی الگوریتم Q-Learning - جلسه 2

00:08:16

پیاده سازی الگوریتم Q-Learning

54
  • الگوریتم TD چند مرحله ای

00:08:28

الگوریتم TD چند مرحله ای

55
  • الگوریتم TD چند مرحله ای 2

00:13:42

الگوریتم TD چند مرحله ای

56
  • الگوریتم SARSA در حالت چند مرحله ای

00:08:23

الگوریتم SARSA در حالت چند مرحله ای

57
  • پیاده سازی الگوریتم SARSA در حالت چند مرحله ای

00:12:08

پیاده سازی الگوریتم SARSA در حالت چند مرحله ای

58
  • فضای حالت پیوسته

00:26:10

کار با فضای حالت پیوسته

59
  • فضای حالت پیوسته 2

00:09:34

کار با فضای حالت پیوسته

60
  • روش تجمیع فضای حالت

00:07:26

روش تجمیع فضای حالت

61
  • معرفی روش Tile Coding

00:10:35

روش Tile Coding

62
  • فصل پنجم - یادگیری عمیق (Deep Learning) و شبکه های عصبی مصنوعی (ANN)

00:07:09

یادگیری عمیق (Deep Learning) و شبکه های عصبی مصنوعی (ANN)

63
  • تعریف تخمین تابع

00:13:28

تعریف تخمین تابع

64
  • شبکه های عصبی مصنوعی (ANN)

00:12:57

شبکه های عصبی مصنوعی (ANN)

65
  • شبکه های عصبی Feed Forward

00:07:48

شبکه های عصبی Feed Forward

66
  • نکات تکمیلی شبکه های عصبی

00:07:45

نکات تکمیلی شبکه های عصبی

67
  • کاهش گرادیان تصادفی

00:07:02

کاهش گرادیان تصادفی

68
  • نکات تکمیلی شبکه های عصبی 2

00:07:32

نکات تکمیلی شبکه های عصبی 2

69
  • فصل ششم - یادگیری تقویتی عمیق (Deep Reinforcement Learning)

00:08:40

یادگیری تقویتی عمیق (Deep Reinforcement Learning)

70
  • الگوریتم Deep SARSA

00:07:57

الگوریتم Deep SARSA

71
  • به کارگیری شبکه عصبی در الگوریتم SARSA

00:13:26

اعمال شبکه عصبی در الگوریتم SARSA

72
  • الگوریتم Deep Q-Learning

00:08:40

الگوریتم Deep Q-Learning

73
  • توضیح برخی نکات مهم

00:08:35

توضیح برخی نکات مهم

74
  • نصب پیش نیاز های پروژه DRL

00:08:47

پروژه DRL

75
  • پروژه‌ی DRL - جلسه 1

00:12:24

پروژه‌ی DRL - جلسه 1

76
  • پروژه‌ی DRL - جلسه 2

00:13:39

پروژه‌ی DRL

77
  • پروژه‌ی DRL - جلسه 3

00:16:32

پروژه‌ی DRL

78
  • پروژه‌ی DRL - جلسه 4

00:05:20

پروژه‌ی DRL

79
  • نکات پایانی دوره

00:07:28

نکات پایانی دوره

دوره های دیگر مدرس

مشاهده همه دوره ها

نظرات کاربران در رابطه با این دوره

لطفا سوالات خود را راجع به این آموزش در این بخش پرسش و پاسخ مطرح کنید به سوالات در قسمت نظرات پاسخ داده نخواهد شد و آن نظر حذف میشود.
جهت ثبت نظر باید در سایت عضو شوید و یا وارد سایت شده باشید .