শক্তিবৃদ্ধি শেখা বনাম। গভীর শক্তিবৃদ্ধি শিক্ষা: পার্থক্য কী?

কন্টেন্ট

শক্তিবৃদ্ধি শিক্ষা কি?
কোনও বাগ নেই, কোনও স্ট্রেস নেই - আপনার জীবনকে বিনষ্ট না করে জীবন-পরিবর্তনশীল সফটওয়্যার তৈরির ধাপে গাইড আপনার ধাপ
ডিপ রিইনফোর্সমেন্ট লার্নিং কী?

ছাড়াইয়া লত্তয়া:

আমরা বিশেষজ্ঞদের কাছে গিয়ে তাদের শক্তিবৃদ্ধি শেখার এবং গভীর শক্তিবৃদ্ধি শেখার মধ্যে গুরুত্বপূর্ণ পার্থক্যের উত্তর দিতে বলেছি

মেশিন লার্নিং অ্যালগরিদমগুলি জীবন ও কাজকে সহজ করে তুলতে পারে, আমাদের সম্পূর্ণ দলের চেয়ে দ্রুত - এবং স্মার্ট - কাজ করার সময় অপ্রয়োজনীয় কাজ থেকে আমাদের মুক্ত করে। তবে বিভিন্ন ধরণের মেশিন লার্নিং রয়েছে। উদাহরণস্বরূপ, রয়েছে আরও শক্তিবৃদ্ধি শেখার এবং গভীর শক্তিবৃদ্ধি শেখার।

নিউ জার্সির ওয়েইনের উইলিয়াম প্যাটারসন বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞানের একজন সহকারী অধ্যাপক ড। কিহো লিমের মতে, "যদিও রিইনফোর্সমেন্ট লার্নিং এবং ডিপ রিইনফোর্সমেন্ট লার্নিং উভয়ই মেশিন লার্নিং কৌশল যা স্বায়ত্তশাসিতভাবে শিখছে, কিছু পার্থক্য রয়েছে," ড। "রির্নফোর্সমেন্ট লার্নিং গতিশীলভাবে ফলাফলকে সর্বাধিকীকরণের জন্য একটি ট্রায়াল এবং ত্রুটি পদ্ধতিতে শিখছে, যখন গভীর শক্তিবৃদ্ধি শেখা বিদ্যমান জ্ঞান থেকে শিখছে এবং এটিকে একটি নতুন ডেটা সেটে প্রয়োগ করছে।"

কিন্তু এটার ঠিক কি মানে? আমরা বিশেষজ্ঞদের কাছে গিয়েছিলাম - এবং তাদের প্রচুর উদাহরণ সরবরাহ করতে বলেছি!

শক্তিবৃদ্ধি শিক্ষা কি?

লিম যেমন বলেছেন, শক্তিবৃদ্ধি শেখা হচ্ছে পরীক্ষা এবং ত্রুটি দ্বারা শেখার অনুশীলন - এবং অনুশীলন। "এই বিভাগে, একজন মডেল ক্রমবর্ধমানভাবে একটি সঠিক ভবিষ্যদ্বাণী হিসাবে পুরস্কৃত হয়ে এবং ভুল পূর্বাভাসের জন্য দণ্ডিত হয়ে মোতায়েনের বিষয়টি শিখেন," ডাব্লুএর রেডমন্ডের ডেটা সায়েন্স ডোজোতে ডেটা বিজ্ঞানী প্রশিক্ষক হুনাইদ হামিদ জানিয়েছেন। (পড়ুন রিইনফোর্সমেন্ট লার্নিং মার্কেটিংকে একটি দুর্দান্ত ডায়নামিক স্পিন দিতে পারে))

"এআই-তে গেমস খেলতে এবং সময়ের সাথে সাথে গেমটি খেলতে উন্নতি করতে সাধারণত রিইনফোর্সমেন্ট শিখতে দেখা যায়।"

শক্তিবৃদ্ধি শেখার তিনটি প্রয়োজনীয় উপাদান হ'ল এজেন্ট, ক্রিয়া এবং পুরষ্কার। সিএ এর মাউন্টেন ভিউয়ের ফিডলার ল্যাবসের ডেটা সায়েন্সের প্রধান ডাঃ অঙ্কুর টালির মতে, "রিইনফোর্সমেন্ট লার্নিং একটি নির্দিষ্ট পদ্ধতি অনুসরণ করে এবং সেরা ফলাফল অর্জনের সর্বোত্তম উপায় নির্ধারণ করে।" "এটি আমরা কীভাবে একটি ভিডিও গেম খেলি তার কাঠামোর সাথে খুব মিল, যেখানে চরিত্রটি (এজেন্ট) সর্বোচ্চ স্কোর (পুরষ্কার) অর্জনের জন্য বিভিন্ন ক্রিয়াকলাপ (ক্রিয়া) জড়িত।"

তবে এটি একটি স্বায়ত্তশাসিত স্ব-শিক্ষার ব্যবস্থা। ভিডিও গেমের উদাহরণ ব্যবহার করে ট্যালি বলেছেন যে স্কোর বা পয়েন্ট বাড়ানো থেকে ইতিবাচক পুরষ্কারগুলি আসতে পারে এবং বাধা হয়ে দাঁড়ানো বা প্রতিকূল পদক্ষেপের ফলে নেতিবাচক পুরষ্কারের ফলস্বরূপ হতে পারে।

সান ফ্রান্সিসকো-এর সিইও ক্রিস নিকোলসন, সিএ-ভিত্তিক স্কিমাইন্ড কীভাবে অ্যালগোরিদমগুলি পরীক্ষা এবং ত্রুটির মাধ্যমে শিখেন তার উদাহরণটি তৈরি করে। "প্রথমবারের জন্য সুপার মারিও ব্রাদার্সকে খেলতে এবং কীভাবে জয়লাভ করবেন তা আবিষ্কার করার চেষ্টা করুন: আপনি স্থানটি অন্বেষণ করুন, আপনি হাঁস, লাফানো, একটি মুদ্রা আঘাত, একটি কচ্ছপের উপর অবতরণ, এবং তারপর আপনি কি দেখতে পাবেন। "

কোনও বাগ নেই, কোনও স্ট্রেস নেই - আপনার জীবনকে বিনষ্ট না করে জীবন-পরিবর্তনশীল সফটওয়্যার তৈরির ধাপে গাইড আপনার ধাপ

কেউ যখন সফ্টওয়্যার মানের সম্পর্কে চিন্তা না করে আপনি আপনার প্রোগ্রামিং দক্ষতা উন্নত করতে পারবেন না।

ভাল ক্রিয়া এবং খারাপ ক্রিয়া শিখিয়া, গেমটি আপনাকে কীভাবে আচরণ করা যায় তা শেখায়। "রিইনফোর্সমেন্ট লার্নিং যে কোনও পরিস্থিতিতে তা করে: ভিডিও গেমস, বোর্ড গেমস, রিয়েল-ওয়ার্ল্ড ব্যবহারের ক্ষেত্রে সিমুলেশনগুলি।" বাস্তবে নিকোলসন বলেছিলেন যে তাঁর সংস্থা সংস্থাগুলিকে একটি জটিল পরিস্থিতির মধ্য দিয়ে সর্বোত্তম সিদ্ধান্তের পথ নির্ধারণে সহায়তা করার জন্য শক্তিবৃদ্ধি শেখার এবং সিমুলেশন ব্যবহার করে।

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, কোনও এজেন্ট বৃহত্তর লক্ষ্য অর্জনের জন্য কয়েকটি ছোট ছোট সিদ্ধান্ত নেয়। তবুও আরেকটি উদাহরণ হ'ল রোবটকে হাঁটতে শেখানো। "এক পা ওঠার জন্য কঠোর কোডিং দিকনির্দেশের পরিবর্তে, হাঁটু বাঁকানো, এটি নীচে রেখে দেওয়া, এবং আরও একটি শক্তিবৃদ্ধি শেখার পদ্ধতির চলনগুলির বিভিন্ন ক্রমগুলির সাথে রোবট পরীক্ষা থাকতে পারে এবং এটি তৈরিতে কোন সংমিশ্রণগুলি সবচেয়ে সফল তা আবিষ্কার করতে পারে which "এগিয়ে যান," স্টিফেন বেইলি বলেছেন, কলেজ পার্কের ইমমুটার ডেটা বিজ্ঞানী এবং বিশ্লেষণ সরঞ্জাম বিশেষজ্ঞ, এমডি।

ভিডিও গেমস এবং রোবোটিকগুলি ছাড়াও, এমন আরও কয়েকটি উদাহরণ রয়েছে যা শক্তিবৃদ্ধি শেখার কাজ কীভাবে তা ব্যাখ্যা করতে সহায়তা করতে পারে। ওয়াশিংটন, ডিসির বাবেল স্ট্রিটের প্রধান তথ্য বিজ্ঞানী ব্র্যান্ডন হ্যানি এটিকে সাইকেলের সাথে চলা মানব শিক্ষার সাথে তুলনা করেছেন। "যদি আপনি স্থির থাকেন এবং পেডালিং ছাড়াই আপনার পা উঠান, একটি পতন - বা জরিমানা - আসন্ন।"

তবে, আপনি যদি পেডেল করা শুরু করেন, তবে আপনি বাইকটিতে থাকবেন - পুরষ্কার - এবং পরবর্তী অবস্থায় অগ্রসর হন।

হেনি বলেন, "রিইনফোর্সমেন্ট লার্নিংয়ের বিভিন্ন আর্থিক ক্ষেত্রের সিদ্ধান্ত, রসায়ন, উত্পাদন, এবং অবশ্যই রোবোটিক্স সহ বিভিন্ন ক্ষেত্র রয়েছে applications

ডিপ রিইনফোর্সমেন্ট লার্নিং কী?

তবে, শক্তিশালী শেখার পদ্ধতির জন্য সিদ্ধান্তগুলি জটিল হওয়া সম্ভব। হ্যানি বলেছেন যে অ্যালগরিদমটি সমস্ত রাজ্যের কাছ থেকে শিখতে এবং পুরষ্কারের পথটি নির্ধারণ করতে পারে তার জন্য এটি অভিভূত হতে পারে। "এখানেই গভীর শক্তিবৃদ্ধি শেখার সহায়তা করতে পারে: সিদ্ধান্ত গ্রহণের ক্ষেত্রে সমাধানের আরও কার্যকর স্থান তৈরি করার পরিবর্তে, প্রতিটি গভীরতার মানচিত্রের পরিবর্তে রাজ্যগুলির অনুমান করার জন্য 'গভীর' অংশটি নিউরাল নেটওয়ার্ক প্রয়োগকে বোঝায়”

এটি কোনও নতুন ধারণা নয়। হ্যানি বলছেন এটি ১৯ the০ এর দশক থেকেই বিদ্যমান। "তবে সস্তা এবং শক্তিশালী কম্পিউটিংয়ের আবির্ভাবের সাথে স্নায়ুবিক নেটওয়ার্কগুলির অতিরিক্ত সুবিধা এখন সমাধানের জটিলতা কমাতে অঞ্চলগুলি মোকাবেলায় সহায়তা করতে পারে," তিনি ব্যাখ্যা করেন। (পড়ুন কৃত্রিম বুদ্ধিমত্তা এবং নিউরাল নেটওয়ার্কগুলির মধ্যে পার্থক্য কী?)

তাহলে এটা কিভাবে কাজ করে? পিআইডি ম্যাকেনজির মতে, এআই দলের নেতৃত্ব, আমেরিকা যুক্তরাষ্ট্রের টেরাদাতায়, টেবিলগুলিতে সঞ্চয় করার জন্য এটি খুব বেশি তথ্য এবং টেবুলার পদ্ধতিগুলির জন্য এজেন্টকে প্রতিটি রাজ্য এবং ক্রিয়া সংমিশ্রণ পরিদর্শন করতে হবে।

যাইহোক, গভীর শক্তিবৃদ্ধি শেখার ফাংশন সান্নিধ্যের সাথে রাষ্ট্রীয় মানগুলি অনুমানের টেবুলার পদ্ধতিগুলিকে প্রতিস্থাপন করে। "ফাংশন সান্নিধ্য কেবল টেবিলের মধ্যে সমস্ত রাজ্য এবং মান জোড়া সংরক্ষণের প্রয়োজনীয়তা হ্রাস করে না, এজেন্টকে এর আগে কখনও কখনও দেখেনি এমন রাষ্ট্রগুলির মূল্যকে সাধারণীকরণ করতে সক্ষম করে, বা অনুরূপ রাজ্যের মান ব্যবহার করে আংশিক তথ্য রাখে," ম্যাকেনজি বলেছেন।

"গভীর শক্তিবৃদ্ধি শেখার ক্ষেত্রে বেশিরভাগ উত্তেজনাপূর্ণ অগ্রগতি ঘটেছিল কারণ নিউরাল নেটওয়ার্কগুলির প্রচুর রাষ্ট্রীয় স্থানগুলিতে সাধারণীকরণের দৃ ability় দক্ষতার কারণে।" এবং ম্যাকেনজি নোট করেছেন যে গভীর সংবর্ধনা শিক্ষাগুলি এমন কিছু প্রোগ্রামগুলিতে ব্যবহৃত হয়েছে যা কিছু সেরা মানব প্রতিযোগীদের পরাজিত করেছে। দাবা এবং গো এর মতো গেমগুলিতে এবং রোবোটিক্সের অনেকগুলি অগ্রগতির জন্যও দায়ী। (এআই, মেশিন লার্নিং এবং রোবোটিক্সের 7 জন নারী নেতা পড়ুন))

বেইলি রাজি হন এবং যোগ করেন, "এই বছরের শুরুর দিকে, আলফাস্টার নামের একজন এআই এজেন্ট বিশ্বের সেরা স্টারক্রাফ্ট দ্বিতীয় খেলোয়াড়কে পরাজিত করেছিলেন - এবং এটি বিশেষ আকর্ষণীয় কারণ দাবা এবং গোয়ের মতো গেমগুলির বিপরীতে স্টারক্রাফ্টের খেলোয়াড়রা জানেন না যে তাদের প্রতিপক্ষ কী করছে।" পরিবর্তে, তিনি বলেছেন যে তাদের একটি প্রাথমিক কৌশল তৈরি করতে হয়েছিল তখনই তারা খাপ খাইয়ে নেবে কারণ তারা জানতে পেরেছিল যে তাদের প্রতিপক্ষ কী পরিকল্পনা করছে।

তবে কীভাবে এটি সম্ভব? যদি কোনও মডেলটির পাঁচটি অধিক স্তরের নিউরাল নেটওয়ার্ক থাকে, হামেদ বলেছেন যে এটি উচ্চ মাত্রিক ডেটা পূরণ করার ক্ষমতা রাখে। "এই কারণে, মডেলটি কোনও মানব প্রকৌশলী না করে নিজেই প্যাটার্নগুলি সনাক্ত করতে শিখতে পারে এবং শিখতে মডেলটির ইনপুট হওয়া চলকগুলি নির্বাচন করতে পারে" he

উন্মুক্ত সমাপ্তির দৃশ্যে, আপনি সত্যই গভীরতর শক্তিবৃদ্ধি শেখার সৌন্দর্য দেখতে পারেন। ট্যালি কোনও রেস্তোঁরায় একটি টেবিল বুকিং বা কোনও আইটেমের অর্ডার দেওয়ার উদাহরণ ব্যবহার করে - এমন পরিস্থিতিতে যেখানে এজেন্টটিকে অন্য প্রান্ত থেকে যে কোনও ইনপুটটিতে প্রতিক্রিয়া জানাতে হয়।

"ডিপ রিইনফোর্সমেন্ট লার্নিং অন্য প্রান্ত থেকে সরাসরি বা অডিও সিগন্যাল থেকে কোনও কথোপকথনের এজেন্টকে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে," তিনি বলেছেন। "অডিও সিগন্যাল ব্যবহার করার সময়, এজেন্ট অডিওতে সূক্ষ্ম সূত্র যেমন বিরতি, প্রবণতা এবং স্যাটিটারা গ্রহণ করতেও শিখতে পারে - এটি গভীর শক্তিবৃদ্ধি শেখার শক্তি” "

এবং গভীর শক্তিবৃদ্ধি শেখার নতুন অ্যাপ্লিকেশনগুলি অব্যাহত রয়েছে। গ্রাহকের সাথে জড়িত হওয়ার পরবর্তী সেরা ক্রিয়া নির্ধারণের ক্ষেত্রে, ম্যাকেনজি বলেছেন "রাষ্ট্র এবং ক্রিয়ায় সমস্ত পৃথক চ্যানেল জুড়ে পণ্য, অফার এবং ম্যাসেজিংয়ের সমস্ত সংমিশ্রণ অন্তর্ভুক্ত থাকতে পারে, যার মধ্যে প্রতিটি ব্যক্তিগতকৃত - শব্দ, চিত্র, রঙ, ফন্ট রয়েছে” "

আর একটি উদাহরণ সরবরাহ শৃঙ্খলা অপ্টিমাইজেশন, উদাহরণস্বরূপ, মার্কিন যুক্তরাষ্ট্রে ধ্বংসাত্মক পণ্য সরবরাহ করা "সম্ভাব্য রাজ্যগুলির মধ্যে রয়েছে বিভিন্ন ধরণের পরিবহণের বর্তমান অবস্থান, সমস্ত গাছপালা, গুদাম এবং খুচরা আউটলেটগুলির তালিকা এবং সকলের জন্য চাহিদা পূর্বাভাস স্টোর, "ম্যাকেনজি বলেছেন।

"রাষ্ট্র এবং কর্মক্ষেত্রের প্রতিনিধিত্ব করতে গভীর শিক্ষার ব্যবহার এজেন্টকে আরও ভাল লজিস্টিক সিদ্ধান্ত নিতে সক্ষম করে যার ফলে স্বল্প ব্যয়ে আরও সময়োত চালানের ফল পাওয়া যায়।"