Artwork

محتوای ارائه شده توسط Brian Carter. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Brian Carter یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal
Player FM - برنامه پادکست
با برنامه Player FM !

Automating Scientific Discovery: ScienceAgentBench

7:38
 
اشتراک گذاری
 

Manage episode 446714679 series 3605861
محتوای ارائه شده توسط Brian Carter. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Brian Carter یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal

A scientific paper exploring the development and evaluation of language agents for automating data-driven scientific discovery. The authors introduce a new benchmark called ScienceAgentBench, which consists of 102 diverse tasks extracted from peer-reviewed publications across four disciplines: Bioinformatics, Computational Chemistry, Geographical Information Science, and Psychology & Cognitive Neuroscience. The benchmark evaluates the performance of language agents on individual tasks within a scientific workflow, aiming to provide a more rigorous assessment of their capabilities than solely focusing on end-to-end automation. The paper's experiments test five language models across three frameworks: direct prompting, OpenHands CodeAct, and self-debug, revealing that even the best-performing agent, Claude-3.5-Sonnet with self-debug, can only independently solve 32.4% of the tasks and 34.3% with expert-provided knowledge. The results highlight the limited capacities of current language agents in automating scientific tasks and underscore the need for further development to improve their ability to process scientific data, utilize expert knowledge, and handle complex tasks.

Read more: https://arxiv.org/pdf/2410.05080

  continue reading

58 قسمت

Artwork
iconاشتراک گذاری
 
Manage episode 446714679 series 3605861
محتوای ارائه شده توسط Brian Carter. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط Brian Carter یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal

A scientific paper exploring the development and evaluation of language agents for automating data-driven scientific discovery. The authors introduce a new benchmark called ScienceAgentBench, which consists of 102 diverse tasks extracted from peer-reviewed publications across four disciplines: Bioinformatics, Computational Chemistry, Geographical Information Science, and Psychology & Cognitive Neuroscience. The benchmark evaluates the performance of language agents on individual tasks within a scientific workflow, aiming to provide a more rigorous assessment of their capabilities than solely focusing on end-to-end automation. The paper's experiments test five language models across three frameworks: direct prompting, OpenHands CodeAct, and self-debug, revealing that even the best-performing agent, Claude-3.5-Sonnet with self-debug, can only independently solve 32.4% of the tasks and 34.3% with expert-provided knowledge. The results highlight the limited capacities of current language agents in automating scientific tasks and underscore the need for further development to improve their ability to process scientific data, utilize expert knowledge, and handle complex tasks.

Read more: https://arxiv.org/pdf/2410.05080

  continue reading

58 قسمت

همه قسمت ها

×
 
Loading …

به Player FM خوش آمدید!

Player FM در سراسر وب را برای یافتن پادکست های با کیفیت اسکن می کند تا همین الان لذت ببرید. این بهترین برنامه ی پادکست است که در اندروید، آیفون و وب کار می کند. ثبت نام کنید تا اشتراک های شما در بین دستگاه های مختلف همگام سازی شود.

 

راهنمای مرجع سریع