Skip to content

[Bug] Deepseek R1-Q4部署内存占用 #3

Description

@zhaoyukoon

检查清单

  • 1. 我已经搜索过相关问题,但未能获得预期的帮助
  • 2. 该问题在最新版本中尚未修复
  • 3. 请注意,如果您提交的BUG相关 issue 缺少对应环境信息和最小可复现示例,我们将难以复现和定位问题,降低获得反馈的可能性
  • 4. 如果您提出的不是bug而是问题,请在讨论区发起讨论 https://github.com/kvcache-ai/ktransformers/discussions。否则该 issue 将被关闭
  • 5. 为方便社区交流,我将使用中文/英文或附上中文/英文翻译(如使用其他语言)。未附带翻译的非中文/英语内容可能会被关闭

问题描述

我的服务器是AMD 91352, 4824GB内存,4090。按照 KTransformers Optimized编译运行 Deepseek R1-Q4,总是遇到:
numa_sched_setaffinity_v2_int() failed: Invalid argument
set_mempolicy: Invalid argument

我在另外一台2TB内存机器上可以正常运行 fp8和 q4版本Deepseek模型。

复现步骤

我按照 KTransformers Optimized配置编译项目。

配置 GRUB_CMDLINE_LINUX如下:

(kt) ➜  ktransformers git:(optimize-latest) ✗ grep GRUB_CMDLINE_LINUX  /etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX="default_hugepagesz=1G hugepagesz=1G hugepages=950 hugepagesz=2M hugepages=16384"

运行ktransformer:

sudo chown zhao /dev/hugepages

echo 402653184000 > /tmp/kt_per_numa_huge_mem

env LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libstdc++.so.6:/home/zhao/vproxy/mimalloc/out/release/libmimalloc.so MIMALLOC_VERBOSE=1 MIMALLOC_ALLOW_LARGE_OS_PAGES=1 numactl --interleave=0 python -m ktransformers.local_chat --model_path ~/DeepSeek-R1 --gguf_path ~/DeepSeek-R1-Q4_K_M --cpu_infer 63 --max_new_tokens 9186 --cache_lens 9186 --force_think true --optimize_rule_path ./ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat.yaml

numa_sched_setaffinity_v2_int() failed: Invalid argument

set_mempolicy: Invalid argument

环境信息

AMD 91352, 4824GB内存,4090

ubuntu 24.04

torch: 2.6.0+cu126

NVIDIA-SMI 570.124.06 Driver Version: 570.124.06 CUDA Version: 12.8

ktransformers 0.2.3.post1+cu128torch26fancy

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions