Tag: LLM
-
mlx-lmを試してみる
Apple silicon用の推論ライブラリmlx-lmを試したみたのでその備忘録. (検索すればいくらでも出てくる内容) 準備 mlxとmlx-lmのインストール pip install mlx mlx-lm インストールされたバージョンは以下の通り Python 3.11.11 mlx 0.25.1 mlx_lm 0.24.0 コマンドラインからの実行 mlx_lm.generate –model mlx-community/Qwen3-8B-4bit \ –prompt “機械学習フレームワークのMLXについて教えて” \ –max-tokens 1024 Qwen3は思考テキストが長く,max-tokensが512だと出力されなかった. 以下は出力が長いので,速度だけ記しておく.なおM2 Ultraのmacstudio上で実行した. Prompt: 20 tokens, 130.271 tokens-per-sec Generation: 1024 tokens, 104.712 tokens-per-sec Peak memory: 4.898 GB /no_thinkをプロンプトに追加した場合は以下の通り. Prompt: 24 tokens, 147.129 tokens-per-sec Generation: 1024 tokens, 104.482 tokens-per-sec Peak…
-
Hugging Face APIの導通確認
Hugging face APIを使用して,LLMの応答試験を行います. ドラフトのコードをChatGPTで生成し,動作するように修正しました. from huggingface_hub import InferenceClient import os from dotenv import load_dotenv # .envファイルから環境変数を読み込む(HF_TOKENを保存) load_dotenv() client = InferenceClient(token=os.getenv(“HF_TOKEN”)) # 1. 英語のテキストでテスト print(“=== 英語テキストのテスト ===”) try: response = client.text_generation(“Hello, world!”, model=”gpt2″) print(“レスポンスの内容:”, repr(response)) except Exception as e: print(“エラーが発生しました:”, str(e)) # 2. 日本語対応モデルでテスト print(“\n=== 日本語対応モデルのテスト ===”) try: response = client.text_generation( “こんにちは、世界!”, model=”rinna/japanese-gpt2-medium” # 日本語対応GPT-2モデル )…