چرا آتاماتای یادگیر در عین سادگی محاسباتی کارآمد است: یک بحث ریاضی

در تعریف یادگیری یک عامل، از آن به عنوان فرآیندی یاد میشود که منجر به افزایش بهره وری عامل یادگیرنده از طریق تجربیات اکتسابی در طول زمان می شود؛ با این شرط که عامل یادگیرنده، اطلاعات کاملی از محیطی را که در آن عمل میکند نداشته باشد.

آتاماتای یادگیر تصادفی یک واحد تصمیم گیرنده تطبیقی است که فرآیند یادگیری در آن از طریق تعاملش با محیط صورت میگیرد. آتاماتای یادگیر، مجموعه ای از اقدام های قابل انجام دارد. این اقدام ها به تصادف و بر اساس یک بردار توزیع احتمال، انتخاب شده و به عنوان ورودی به محیط اعمال میشوند. محیط، اقدام انجام شده را به کمک یک سیگنال تقویتی بازخوردی، مورد ارزیابی قرار میدهد. آتاماتای یادگیر بر اساس سیگنال بازخوردی حاصل، بردار توزیع احتمال انتخاب اقدام ها را به روزرسانی میکند. هدف آتاماتا پیداکردن اقدام بهینه در میان مجموعه اقدامهای قابل انجام است؛ اقدامی که کمترین جریمه را از محیط دریافت کند.

برای دریافت فایل لینک دریافت را ذخیره کنید لینک دریافت

لطفا نظر خود را بنویسید

یک دیدگاه