Being a nerd engineer

Tag: mlx

SWE-agent-LM-32B でsmolagentsしてみる

Qwen2.5 Coderよりもエージェントベンチマークで良いスコアとのXで話題が出ていた SWE-agent-LM-32B を使ってみる．モデルがhugging faceにアップロードされたばかりで，MLX量子化版がなかったので，以下のコマンドで量子化してみた． mlx_lm.awq –model SWE-bench/SWE-agent-LM-32B –bits 4 AWQ (activation-aware weight quantization) は v0.24.0 で使える量子化モードで，通常の量子化よりも性能が良いらしい． DWQ (Distilled weight quantization) という量子化もあるらしいが，pipでインストールした mlx_lm v0.24.0 には含まれていないので，今回はAWQで量子化した． import os from smolagents import CodeAgent, DuckDuckGoSearchTool, MLXModel model = MLXModel( model_id=os.path.join(os.environ.get(“MLX_MODELS_PATH”), “SWE-bench/SWE-agent-LM-32B-4bit-AWQ”), max_tokens=4096 ) agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=model) agent.run(“Search for the best music recommendations for a party at…

2025-05-14
APIモデルとローカルモデルの差異

Hugging Faceのagents courseのノートブックノートブックでモデル動作をAPIではなくローカル動作に変更した際に，APIモデルの出力とローカルモデルの出力に差異があった．差異をなくすために試行錯誤した中で気づいた点をまとめておく．まず，TransformersModelを使用してローカルで動かした結果を見てみる． from smolagents import CodeAgent, DuckDuckGoSearchTool, TransformersModel agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=TransformersModel(model_id=”Qwen/Qwen2.5-Coder-32B-Instruct”, device_map=”auto”, torch_dtype=”auto”)) agent.run(“Search for the best music recommendations for a party at the Wayne’s mansion.”) `max_new_tokens` not provided, using this default value for `max_new_tokens`: 5000 Loading checkpoint shards: 0%| | 0/14 [00:00<?, ?it/s] New run Search for the best music recommendations…

2025-05-12
mlx-lmを試してみる

Apple silicon用の推論ライブラリmlx-lmを試したみたのでその備忘録．（検索すればいくらでも出てくる内容）準備 mlxとmlx-lmのインストール pip install mlx mlx-lm インストールされたバージョンは以下の通り Python 3.11.11 mlx 0.25.1 mlx_lm 0.24.0 コマンドラインからの実行 mlx_lm.generate –model mlx-community/Qwen3-8B-4bit \ –prompt “機械学習フレームワークのMLXについて教えて” \ –max-tokens 1024 Qwen3は思考テキストが長く，max-tokensが512だと出力されなかった．以下は出力が長いので，速度だけ記しておく．なおM2 Ultraのmacstudio上で実行した． Prompt: 20 tokens, 130.271 tokens-per-sec Generation: 1024 tokens, 104.712 tokens-per-sec Peak memory: 4.898 GB /no_thinkをプロンプトに追加した場合は以下の通り． Prompt: 24 tokens, 147.129 tokens-per-sec Generation: 1024 tokens, 104.482 tokens-per-sec Peak…

2025-05-08