Mielestäni näihin kannattaa suhtautua samalla tavalla kuin malleihin. Eli ne on täysin vaihdettavissa, oli syy mikä tahansa. Jotkut mallit pyörii hyvin vLLM:llä, toiset vaatii mainlinessa vielä mergeämättömiä patcheja toimiakseen, osa malleista toimii nopeasti ja toiset ei. Llama.cpp:llä, SGLangilla, Ollamalla ym. kaikilla sitten sama tilanne.Jos vauhtia haluaa niin Ollama ei ole ehkä paras vaihtoehto. vLLM pitäisi olla parempi, en ole jaksanut testailla. Ollama on enemmänkin protoiluun ja kevyeen viihdekäyttöön.
Aiemmin suosin LM Studiota mallien nopeaan testailuun vaikka se ei suorityskyvyltään ole lähelläkään parasta. Mutta sittemmin luin jostain että LM Studiolla on iso kasa toisiinsa liittyviä ratkomattomia bugi-tikettejä mitkä liittyy siihen miten LM Studio parsii työkalukutsujen ja aliagenttien välisiä viestejä, ja että se aiheuttaa paljon ongelmia. En jaksanut sen enempää miettiä asiaa, vaan vaihdoin pois. Nykyään ykkösvaihtoehtoina vLLM ja Llama.cpp, ja noiden ongelmien määrä on tosiaan tippunut huomattavasti.