I'm using the following setup on my Apple M2 Max (32 GB) with llama_cpp:
from llama_cpp import Llama
llm = Llama(
model_path="models/VibeThinker-1.5B.Q8_0.gguf",
n_ctx=1024*64,
n_batch=512,
verbose=False,
)
try:
response = llm.create_chat_completion(
messages=QUERY,
max_tokens=1024*32,
stream=True,
temperature=0.6,
)
But getting this (non-stop):
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@...
I'm using the following setup on my Apple M2 Max (32 GB) with llama_cpp:
But getting this (non-stop):