Artwork

محتوای ارائه شده توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal
Player FM - برنامه پادکست
با برنامه Player FM !

#66 – Michael Cohen on Input Tampering in Advanced RL Agents

2:32:00
 
اشتراک گذاری
 

Manage episode 366981201 series 2607952
محتوای ارائه شده توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal

Michael Cohen is is a DPhil student at the University of Oxford with Mike Osborne. He will be starting a postdoc with Professor Stuart Russell at UC Berkeley, with the Center for Human-Compatible AI. His research considers the expected behaviour of generally intelligent artificial agents, with a view to designing agents that we can expect to behave safely.

You can see more links and a full transcript at www.hearthisidea.com/episodes/cohen.

We discuss:

  • What is reinforcement learning, and how is it different from supervised and unsupervised learning?
  • Michael's recently co-authored paper titled 'Advanced artificial agents intervene in the provision of reward'
  • Why might it be hard to convey what we really want to RL learners — even when we know exactly what we want?
  • Why might advanced RL systems might tamper with their sources of input, and why could this be very bad?
  • What assumptions need to hold for this "input tampering" outcome?
  • Is reward really the optimisation target? Do models "get reward"?
  • What's wrong with the analogy between RL systems and evolution?

Key links:

  continue reading

87 قسمت

Artwork
iconاشتراک گذاری
 
Manage episode 366981201 series 2607952
محتوای ارائه شده توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal

Michael Cohen is is a DPhil student at the University of Oxford with Mike Osborne. He will be starting a postdoc with Professor Stuart Russell at UC Berkeley, with the Center for Human-Compatible AI. His research considers the expected behaviour of generally intelligent artificial agents, with a view to designing agents that we can expect to behave safely.

You can see more links and a full transcript at www.hearthisidea.com/episodes/cohen.

We discuss:

  • What is reinforcement learning, and how is it different from supervised and unsupervised learning?
  • Michael's recently co-authored paper titled 'Advanced artificial agents intervene in the provision of reward'
  • Why might it be hard to convey what we really want to RL learners — even when we know exactly what we want?
  • Why might advanced RL systems might tamper with their sources of input, and why could this be very bad?
  • What assumptions need to hold for this "input tampering" outcome?
  • Is reward really the optimisation target? Do models "get reward"?
  • What's wrong with the analogy between RL systems and evolution?

Key links:

  continue reading

87 قسمت

همه قسمت ها

×
 
Loading …

به Player FM خوش آمدید!

Player FM در سراسر وب را برای یافتن پادکست های با کیفیت اسکن می کند تا همین الان لذت ببرید. این بهترین برنامه ی پادکست است که در اندروید، آیفون و وب کار می کند. ثبت نام کنید تا اشتراک های شما در بین دستگاه های مختلف همگام سازی شود.

 

راهنمای مرجع سریع