Humanity's Last Exam

Phan, Long; Gatti, Alice; Han, Ziwen; Li, Nathaniel; Hu, Josephina; Zhang, Hugh; Shi, Sean; Choi, Michael; Agrawal, Anish; Chopra, Arnav; Khoja, Adam; Kim, Ryan; Hausenloy, Jason; Zhang, Oliver; Mazeika, Mantas; Anderson, Daron; Nguyen, Tung; Mahmood, Mobeen; Feng, Fiona; Feng, Steven Y.; Zhao, Haoran; Yu, Michael; Gangal, Varun; Zou, Chelsea; Wang, Zihan; Wang, Jessica P.; Kumar, Pawan; Pokutnyi, Oleksandr; Gerbicz, Robert; Popov, Serguei; Levin, John-Clark; Kazakov, Mstyslav; Schmitt, Johannes; Galgon, Geoff; Sanchez, Alvaro; Lee, Yongki; Yeadon, Will; Sauers, Scott; Roth, Marc; Agu, Chidozie; Riis, Søren; Giska, Fabian; Utpala, Saiteja; Giboney, Zachary; Goshu, Gashaw M.; Xavier, Joan of Arc; Crowson, Sarah-Jane; Naiya, Mohinder Maheshbhai; Burns, Noah; Finke, Lennart; Cheng, Zerui; Park, Hyunwoo; Fournier-Facio, Francesco; Wydallis, John; Nandor, Mark; Singh, Ankit; Gehrunger, Tim; Cai, Jiaqi; McCarty, Ben; Duclosel, Darling; Nam, Jungbae; Zampese, Jennifer; Hoerr, Ryan G.; Bacho, Aras; Loume, Gautier Abou; Galal, Abdallah; Cao, Hangrui; Garretson, Alexis C; Sileo, Damien; Ren, Qiuyu; Cojoc, Doru; Arkhipov, Pavel; Qazi, Usman; Li, Lianghui; Motwani, Sumeet; de Witt, Christian Schroeder; Taylor, Edwin; Veith, Johannes; Singer, Eric; Hartman, Taylor D.; Rissone, Paolo; Jin, Jaehyeok; Shi, Jack Wei Lun; Willcocks, Chris G.; Robinson, Joshua; Mikov, Aleksandar; Prabhu, Ameya; Tang, Longke; Alapont, Xavier; Uro, Justine Leon; Zhou, Kevin; Santos, Emily de Oliveira; Maksimov, Andrey Pupasov; Vendrow, Edward; Zenitani, Kengo; Guillod, Julien; Li, Yuqi; Vendrow, Joshua; Kuchkin, Vladyslav; Ze-An, Ng; Marion, Pierre; Efremov, Denis; Lynch, Jayson; Liang, Kaiqu; Gritsevskiy, Andrew; Martinez, Dakotah; Pageler, Ben; Crispino, Nick; Zvonkine, Dimitri; Fraga, Natanael Wildner; Soori, Saeed; Press, Ori; Tang, Henry; Salazar, Julian; Green, Sean R.; Brüssel, Lina; Twayana, Moon; Dieuleveut, Aymeric; Rogers, T. Ryan; Zhang, Wenjin; Li, Bikun; Yang, Jinzhou; Rao, Arun; Loiseau, Gabriel; Kalinin, Mikhail; Lukas, Marco; Manolescu, Ciprian; Mishra, Subrata; Kamdoum, Ariel Ghislain Kemogne; Kreiman, Tobias; Hogg, Tad; Jin, Alvin; Bosio, Carlo; Sun, Gongbo; Coppola, Brian P; Tarver, Tim; Heidinger, Haline; Sayous, Rafael; Ivanov, Stefan; Cavanagh, Joseph M; Shen, Jiawei; Imperial, Joseph Marvin; Schwaller, Philippe; Senthilkuma, Shaipranesh; Bran, Andres M; Dehghan, Ali; Algaba, Andres; Verbeken, Brecht; Noever, David; P V, Ragavendran; Schut, Lisa; Sucholutsky, Ilia; Zheltonozhskii, Evgenii; Lim, Derek; Stanley, Richard; Sivarajan, Shankar; Yang, Tong; Maar, John; Wykowski, Julian; Oller, Martí; Sandlin, Jennifer; Sahu, Anmol; Hu, Yuzheng; Fish, Sara; Heydari, Nasser; Apronti, Archimedes; Rawal, Kaivalya; Vilchis, Tobias Garcia; Zu, Yuexuan; Lackner, Martin; Koppel, James; Nguyen, Jeremy; Antonenko, Daniil S.; Chern, Steffi; Zhao, Bingchen; Arsene, Pierrot; Goldfarb, Alan; Ivanov, Sergey; Poświata, Rafał; Wang, Chenguang; Li, Daofeng; Crisostomi, Donato; Achilleos, Andrea; Myklebust, Benjamin; Sen, Archan; Perrella, David; Kaparov, Nurdin; Inlow, Mark H; Zang, Allen; Thornley, Elliott; Orel, Daniil; Poritski, Vladislav; Ben-David, Shalev; Berger, Zachary; Whitfill, Parker; Foster, Michael; Munro, Daniel; Ho, Linh; Hava, Dan Bar; Kuchkin, Aleksey; Lauff, Robert; Holmes, David; Sommerhage, Frank; Schneider, Keith; Kazibwe, Zakayo; Stambaugh, Nate; Singh, Mukhwinder; Magoulas, Ilias; Clarke, Don; Kim, Dae Hyun; Dias, Felipe Meneguitti; Elser, Veit; Agarwal, Kanu Priya; Vilchis, Victor Efren Guadarrama; Klose, Immo; Demian, Christoph; Anantheswaran, Ujjwala; Zweiger, Adam; Albani, Guglielmo; Li, Jeffery; Daans, Nicolas; Radionov, Maksim; Rozhoň, Václav; Ma, Ziqiao; Stump, Christian; Berkani, Mohammed; Platnick, Jacob; Nevirkovets, Volodymyr; Basler, Luke; Piccardo, Marco; Jeanplong, Ferenc; Cohen, Niv; Tkadlec, Josef; Rosu, Paul; Padlewski, Piotr; Barzowski, Stanislaw; Montgomery, Kyle; Menezes, Aline; Patel, Arkil; Wang, Zixuan; Tucker-Foltz, Jamie; Stade, Jack; Goertzen, Tom; Kazemi, Fereshteh; Milbauer, Jeremiah; Ambay, John Arnold; Shukla, Abhishek; Labrador, Yan Carlos Leyva; Givré, Alan; Wolff, Hew; Rossbach, Vivien; Aziz, Muhammad Fayez; Kaddar, Younesse; Chen, Yanxu; Zhang, Robin; Pan, Jiayi; Terpin, Antonio; Muennighoff, Niklas; Schoelkopf, Hailey; Zheng, Eric; Carmi, Avishy; Jones, Adam; Shah, Jainam; Brown, Ethan D. L.; Zhu, Kelin; Bartolo, Max; Wheeler, Richard; Ho, Andrew; Barkan, Shaul; Wang, Jiaqi; Stehberger, Martin; Kretov, Egor; Sridhar, Kaustubh; EL-Wasif, Zienab; Zhang, Anji; Pyda, Daniel; Tam, Joanna; Cunningham, David M.; Goryachev, Vladimir; Patramanis, Demosthenes; Krause, Michael; Redenti, Andrew; Bugas, Daniel; Aldous, David; Lai, Jesyin; Coleman, Shannon; Bahaloo, Mohsen; Xu, Jiangnan; Lee, Sangwon; Zhao, Sandy; Tang, Ning; Cohen, Michael K.; Carroll, Micah; Paradise, Orr; Kirchner, Jan Hendrik; Steinerberger, Stefan; Ovchynnikov, Maksym; Matos, Jason O.; Shenoy, Adithya; Junior, Benedito Alves de Oliveira; Wang, Michael; Nie, Yuzhou; Giordano, Paolo; Petersen, Philipp; Sztyber-Betley, Anna; Shukla, Priti; Crozier, Jonathan; Pinto, Antonella; Verma, Shreyas; Joshi, Prashant; Yong, Zheng-Xin; Tee, Allison; Andréoletti, Jérémy; Weller, Orion; Singhal, Raghav; Zhang, Gang; Ivanov, Alexander; Khoury, Seri; Mostaghimi, Hamid; Thaman, Kunvar; Chen, Qijia; Khánh, Tran Quoc; Loader, Jacob; Cavalleri, Stefano; Szlyk, Hannah; Brown, Zachary; Roberts, Jonathan; Alley, William; Sun, Kunyang; Stendall, Ryan; Lamparth, Max; Reuel, Anka; Wang, Ting; Xu, Hanmeng; Raparthi, Sreenivas Goud; Hernández-Cámara, Pablo; Martin, Freddie; Malishev, Dmitry; Preu, Thomas; Korbak, Tomek; Abramovitch, Marcus; Williamson, Dominic; Chen, Ziye; Bálint, Biró; Bari, M Saiful; Kassani, Peyman; Wang, Zihao; Ansarinejad, Behzad; Goswami, Laxman Prasad; Sun, Yewen; Elgnainy, Hossam; Tordera, Daniel; Balabanian, George; Anderson, Earth; Kvistad, Lynna; Moyano, Alejandro José; Maheshwari, Rajat; Sakor, Ahmad; Eron, Murat; McAlister, Isaac C.; Gimenez, Javier; Enyekwe, Innocent; O., Andrew Favre D.; Shah, Shailesh; Zhou, Xiaoxiang; Kamalov, Firuz; Clark, Ronald; Abdoli, Sherwin; Santens, Tim; Meer, Khalida; Wang, Harrison K; Ramakrishnan, Kalyan; Chen, Evan; Tomasiello, Alessandro; De Luca, G. Bruno; Looi, Shi-Zhuo; Le, Vinh-Kha; Kolt, Noam; Mündler, Niels; Semler, Avi; Rodman, Emma; Drori, Jacob; Fossum, Carl J; Jagota, Milind; Pradeep, Ronak; Fan, Honglu; Shah, Tej; Eicher, Jonathan; Chen, Michael; Thaman, Kushal; Merrill, William; Harris, Carter; Gross, Jason; Gusev, Ilya; Sharma, Asankhaya; Agnihotri, Shashank; Zhelnov, Pavel; Usawasutsakorn, Siranut; Mofayezi, Mohammadreza; Bogdanov, Sergei; Piperski, Alexander; Carauleanu, Marc; Zhang, David K.; Ler, Dylan; Leventov, Roman; Soroko, Ignat; Jansen, Thorben; Lauer, Pascal; Duersch, Joshua; Taamazyan, Vage; Morak, Wiktor; Ma, Wenjie; Held, William; Huy, Tran Đuc; Xian, Ruicheng; Zebaze, Armel Randy; Mohamed, Mohanad; Leser, Julian Noah; Yuan, Michelle X; Yacar, Laila; Lengler, Johannes; Shahrtash, Hossein; Oliveira, Edson; Jackson, Joseph W.; Gonzalez, Daniel Espinosa; Zou, Andy; Chidambaram, Muthu; Manik, Timothy; Haffenden, Hector; Stander, Dashiell; Dasouqi, Ali; Shen, Alexander; Duc, Emilien; Golshani, Bita; Stap, David; Uzhou, Mikalai; Zhidkovskaya, Alina Borisovna; Lewark, Lukas; Vincze, Mátyás; Wehr, Dustin; Tang, Colin; Hossain, Zaki; Phillips, Shaun; Muzhen, Jiang; Ekström, Fredrik; Hammon, Angela; Patel, Oam; Remy, Nicolas; Farhidi, Faraz; Medley, George; Mohammadzadeh, Forough; Peñaflor, Madellene; Kassahun, Haile; Friedrich, Alena; Sparrow, Claire; Sakal, Taom; Dhamane, Omkar; Mirabadi, Ali Khajegili; Hallman, Eric; Battaglia, Mike; Maghsoudimehrabani, Mohammad; Hoang, Hieu; Amit, Alon; Hulbert, Dave; Pereira, Roberto; Weber, Simon; Mensah, Stephen; Andre, Nathan; Peristyy, Anton; Harjadi, Chris; Gupta, Himanshu; Malina, Stephen; Albanie, Samuel; Cai, Will; Mehkary, Mustafa; Reidegeld, Frank; Dick, Anna-Katharina; Friday, Cary; Sidhu, Jasdeep; Kim, Wanyoung; Costa, Mariana; Gurdogan, Hubeyb; Weber, Brian; Kumar, Harsh; Jiang, Tong; Agarwal, Arunim; Ceconello, Chiara; Vaz, Warren S.; Zhuang, Chao; Park, Haon; Tawfeek, Andrew R.; Aggarwal, Daattavya; Kirchhof, Michael; Dai, Linjie; Kim, Evan; Ferret, Johan; Wang, Yuzhou; Yan, Minghao; Burdzy, Krzysztof; Zhang, Lixin; Franca, Antonio; Pham, Diana T.; Loh, Kang Yong; Robinson, Joshua; Gul, Shreen; Chhablani, Gunjan; Du, Zhehang; Cosma, Adrian; White, Colin; Riblet, Robin; Saxena, Prajvi; Votava, Jacob; Vinnikov, Vladimir; Delaney, Ethan; Halasyamani, Shiv; Shahid, Syed M.; Mourrat, Jean-Christophe; Vetoshkin, Lavr; Bacho, Renas; Ginis, Vincent; Maksapetyan, Aleksandr; de la Rosa, Florencia; Li, Xiuyu; Malod, Guillaume; Lang, Leon; Laurendeau, Julien; Adesanya, Fatimah; Portier, Julien; Hollom, Lawrence; Souza, Victor; Zhou, Yuchen Anna; Yalın, Yiğit; Obikoya, Gbenga Daniel; Arnaboldi, Luca; Rai; Bigi, Filippo; Bacho, Kaniuar; Clavier, Pierre; Recchia, Gabriel; Popescu, Mara; Shulga, Nikita; Tanwie, Ngefor Mildred; Lux, Thomas C. H.; Rank, Ben; Ni, Colin; Yakimchyk, Alesia; Huanxu; Liu; Häggström, Olle; Verkama, Emil; Narayan, Himanshu; Gundlach, Hans; Brito-Santana, Leonor; Amaro, Brian; Vajipey, Vivek; Grover, Rynaa; Fan, Yiyang; Silva, Gabriel Poesia Reis e; Xin, Linwei; Kratish, Yosi; Łucki, Jakub; Li, Wen-Ding; Xu, Justin; Scaria, Kevin Joseph; Vargus, Freddie; Habibi, Farzad; Long; Lian; Rodolà, Emanuele; Robins, Jules; Cheng, Vincent; Grabb, Declan; Bosio, Ida; Fruhauff, Tony; Akov, Ido; Lo, Eve J. Y.; Qi, Hao; Jiang, Xi; Segev, Ben; Fan, Jingxuan; Martinson, Sarah; Wang, Erik Y.; Hausknecht, Kaylie; Brenner, Michael P.; Mao, Mao; Jiang, Yibo; Zhang, Xinyu; Avagian, David; Scipio, Eshawn Jessica; Siddiqi, Muhammad Rehan; Ragoler, Alon; Tan, Justin; Patil, Deepakkumar; Plecnik, Rebeka; Kirtland, Aaron; Montecillo, Roselynn Grace; Durand, Stephane; Bodur, Omer Faruk; Adoul, Zahra; Zekry, Mohamed; Douville, Guillaume; Karakoc, Ali; Santos, Tania C. B.; Shamseldeen, Samir; Karim, Loukmane; Liakhovitskaia, Anna; Resman, Nate; Farina, Nicholas; Gonzalez, Juan Carlos; Maayan, Gabe; Hoback, Sarah; Pena, Rodrigo De Oliveira; Sherman, Glen; Mariji, Hodjat; Pouriamanesh, Rasoul; Wu, Wentao; Demir, Gözdenur; Mendoza, Sandra; Alarab, Ismail; Cole, Joshua; Ferreira, Danyelle; Johnson, Bryan; Milliron, Hsiaoyun; Safdari, Mohammad; Dai, Liangti; Arthornthurasuk, Siriphan; Pronin, Alexey; Fan, Jing; Ramirez-Trinidad, Angel; Cartwright, Ashley; Pottmaier, Daphiny; Taheri, Omid; Outevsky, David; Stepanic, Stanley; Perry, Samuel; Askew, Luke; Rodríguez, Raúl Adrián Huerta; Dendane, Abdelkader; Ali, Sam; Lorena, Ricardo; Iyer, Krishnamurthy; Salauddin, Sk Md; Islam, Murat; Gonzalez, Juan; Ducey, Josh; Campbell, Russell; Somrak, Maja; Mavroudis, Vasilios; Vergo, Eric; Qin, Juehang; Borbás, Benjámin; Chu, Eric; Lindsey, Jack; Radhakrishnan, Anil; Jallon, Antoine; McInnis, I. M. J.; Hoover, Alex; Möller, Sören; Bian, Song; Lai, John; Patwardhan, Tejal; Yue, Summer; Wang, Alexandr; Hendrycks, Dan

Computer Science > Machine Learning

arXiv:2501.14249 (cs)

[Submitted on 24 Jan 2025]

Title:Humanity's Last Exam

Authors:Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An et al. (562 additional authors not shown)

View PDF HTML (experimental)

Abstract:Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve over 90\% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce Humanity's Last Exam (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. HLE consists of 3,000 questions across dozens of subjects, including mathematics, humanities, and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable, but cannot be quickly answered via internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a significant gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at this https URL.

Comments:	25 pages, 6 figures
Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:	arXiv:2501.14249 [cs.LG]
	(or arXiv:2501.14249v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2501.14249

Submission history

From: Nathaniel Li [view email]
[v1] Fri, 24 Jan 2025 05:27:46 UTC (1,724 KB)

Full-text links:

Access Paper:

view license

Current browse context:

cs.LG

< prev | next >

new | recent | 2025-01

Change to browse by:

cs
cs.AI
cs.CL

References & Citations

export BibTeX citation

Bookmark

Which authors of this paper are endorsers? | Disable MathJax (What is MathJax?)

Computer Science > Machine Learning

Title:Humanity's Last Exam

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Humanity's Last Exam

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators