Towards human-AI co-creation for Hindustani music : modeling and interaction
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Audio Synthesis
- Generative Modeling
- Modélisation hiérarchique
- Musique classique hindoustani
- Music
- Human-Computer Interaction
- Hierarchical Modeling
- Hindustani Classical Music
- Synthèse audio
- Modélisation générative
- Musique
- Interaction hommemachine
Organisme subventionnaire
Résumé
La musique hindoustani est une tradition musicale orale improvisée du nord de l'Inde. L'interaction musicale joue un rôle crucial dans cette forme, se produisant entre l'élève et l'enseignant dans la pédagogie, et entre les artistes interprètes sur scène dans la performance. Dans ce travail, nous visons à étudier la portée et la faisabilité de l'interaction homme-IA guidée par cette forme de musique. À cette fin, nous réalisons deux études : premièrement, le développement d'un modèle génératif pour les contours vocaux hindoustani, et deuxièmement, une étude des attentes, des réactions et des préférences de trois musiciens hindoustani en exercice via une étude préliminaire des utilisateurs. À cette fin, (1) notre modèle proposé, GaMaDHaNi, est une hiérarchie modulaire à deux niveaux, composée d'un modèle génératif sur les contours de hauteur et d'un modèle de contour de hauteur vers synthèse audio. Nous adoptons une représentation intermédiaire de contour de hauteur finement quantifiée pour capturer les mouvements de hauteur fins et continus dans les données. Grâce à un test d'écoute et à une analyse qualitative, nous comparons notre approche aux modèles audio non hiérarchiques et aux modèles hiérarchiques qui utilisent une représentation intermédiaire auto-supervisée. (2) Nous menons ensuite une étude auprès des utilisateurs pour explorer le potentiel d'interaction entre les musiciens et le modèle. Nous notons que leurs défis sont le manque de restrictions dans les résultats du modèle et une incohérence de ces résultats. Nous situons ces défis dans le contexte de la musique hindoustani et cherchons à suggérer des orientations futures pour la conception du modèle afin de combler ces lacunes.
Hindustani music is an improvised performance-driven oral tradition of music from North India. Musical interaction plays a crucial role in this form, occurring between student and teacher in pedagogy, and between performing artists on stage in performance. In this work, we aim to study the scope and feasibility of human-AI interaction guided by this form of music. To that end, we perform two studies: first, the development of a generative model for Hindustani vocal contours, and second, a study of the expectations, reactions, and preferences of three practicing Hindustani musicians via a preliminary user study. To that end, (1) our proposed model, GaMaDHaNi, is a modular two-level hierarchy, consisting of a generative model on pitch contours, and a pitch contour to audio synthesis model. We adopt a finely quantized pitch contour intermediate representation to capture the fine and continuous pitch movements in the data. Through a listening test and qualitative analysis, we compare our approach to non-hierarchical audio models and hierarchical models that use a self-supervised intermediate representation. (2) Further, we conduct a user study to explore the potential of interaction between musicians and the model. We note their challenges as a lack of restrictions in model output and an incoherence of model output. We situate these challenges in the context of Hindustani music and aim to suggest future directions for the model design to address these gaps.