LLMs for experiment design in scientific domains : are we there yet?
Date
Authors
ORCID
0009-0006-1402-0426Contributor(s)
Advisor(s)
Published in
Conference Date
Conference Place
Publisher
Degree Level
Discipline
Affiliation
Keywords
- Experimental Design
- Batched Bayesian Optimization
- In-context Learning
- Large Language Models
- Nearest-neighbour Sampling
- Conception Expérimentale
- Optimisation Bayésienne par Lots
- Apprentissage en Contexte
- Grands Modèles Linguistiques
- échantillonnage par le plus proche voisin
Funding organization(s)
Abstract
Les grands modèles de langue (LLM) ont récemment été proposés comme agents polyvalents pour la conception expérimentale, avec l’affirmation qu’ils peuvent réaliser une conception expérimentale en contexte. Nous évaluons cette hypothèse à l’aide de LLM open et closed source optimisés pour les instructions à des tâches de perturbation génétique et d’optimisation des propriétés moléculaires. Nous constatons que les agents basés sur les LLM ne montrent aucune sensibilité au retour d’expérience expérimental : la substitution des résultats réels par des étiquettes permutées aléatoirement n’a aucun impact sur les performances. Dans toutes les expériences, les méthodes classiques telles que les bandits linéaires et l’optimisation des processus gaussiens surpassent systématiquement les agents LLM. Nous proposons en outre une méthode hybride simple, l’échantillonnage LLM-guided Nearest Neighbour (LLMNN), qui combine les connaissances préalables des LLM avec l’échantillonnage du plus proche voisin pour guider la conception des expériences. Le LLMNN atteint des performances compétitives ou supérieures dans tous les domaines sans nécessiter d’adaptation contextuelle significative. Ces résultats suggèrent que les LLM open et closed source actuels ne réalisent pas de conception expérimentale contextuelle en pratique et soulignent la nécessité de cadres hybrides qui dissocient le raisonnement basé sur les a priori de l’acquisition par lots avec des postérieurs actualisés.
Recent work has proposed large language models (LLMs) as general-purpose agents for scientific experiment design, suggesting that they can reason and adapt in-context. In this thesis, we rigorously test this claim using both open and closed-source, instruction-tuned LLMs across two domains: single-gene perturbation and molecular property optimization. Our experiments show that these models are largely insensitive to experimental feedback; replacing real outcomes with random ones has little to no effect on their behavior. In contrast, classical approaches such as linear UCB and Gaussian process-based optimization consistently outperform LLM-based methods across all benchmarks. In light of this observation, we further introduce LLM-guided Nearest Neighbour (LLMNN) sampling, a simple hybrid strategy that combines the LLM’s prior knowledge with nearest-neighbor search for candidate selection. Without requiring significant in-context adaptation, LLMNN achieves results that are competitive with, or better than, both LLM and classical baselines in most settings. Our findings suggest that current open and closed-source LLMs do not engage in true in-context experimental design. This underscores the need for hybrid architectures that explicitly separate prior-driven reasoning from posterior-informed batch acquisition strategies.