Si por ejemplo tienes un archivo mkv con varios tracks de audio y video:
Track 1 - video - xvid - 1920x1080
Track 2 - video - xvid - 720x576
Track 3 - audio - AAC - 1240kbps - English
Track 4 - audio - AAC - 648kbps - Spanish
Para lo que necesitas debes usar la opción -map con ello podrás seleccionar las zonas que necesitas y poderlos colocar en el video que quieres crear como estás intentando hacer.
Aquí tienes la documentación oficial de -map de comando ffmpeg:
Ejemplos serían que con -map i: s, donde i es el ID del archivo de entrada y s es el ID del track, ambos comienzan con 0. Deberás seleccionar el track que sea el de español.
Ejemplo de comando en uso haciendo eso pasandolo a mp4 de ej:
ffmpeg -i ejemplo.mkv -c: v libx264 -c: a ac3 -crf 20 -map 0: 0 -map 0: 4 ejemplonuevo.mp4
Para poder elegir pista de video y audio o subtitulos, tienes estas opciones:
ffmpeg -i ejemplo.mkv -c: v libx264 -c: a ac3 -crf 20 -map 0: v: 0 -map 0: a: 1 ejemplonuevo.mp4
Aquí, 0: v: 0 es el track 1 de vídeo y 0: a: 1 es el track de audio.
Para más info de esto te dejo este link también: