gguf

    3热度

    2回答

    在RTX 4090(24G)上 尝试复现视频中llama.cpp与贵工作在 Falcon 40B上的对比效果。 Powerinfer使用的模型是PowerInfer/ReluFalcon-40B-PowerInfer-GGUF ,推理效果优秀。 使用SparseLLM/ReluFalcon-40B所提供的fp16模型在llama.cpp下进行转化 python3 convert-hf-to-ggu

    5热度

    2回答

    问题 运行时出现 CUDA error 1 at /root/PowerInfer/ggml-cuda.cu:8949: invalid argument 所有依赖已经满足,请提供一下解决思路,谢谢 配置 Cpu:Intel(R) Xeon(R) Platinum 8474C Gpu:NVIDIA GeForce RTX 4090 D Cuda: nvcc: NVIDIA (R) Cuda co

    2热度

    1回答

    作者您好!我在3090、4090、A100-80G上进行了复现,复现的细节如下 选用的模型:PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF 通过对输出的结果分析,得到各个指标如下面的柱状图: 当限制输出长度为128时, 当限制输出长度为256时, 从两个图看出,3090和4090表现符合预期,因为4090计算能力上高于3090,但是对于A100来说显示比较异常

    10热度

    11回答

    修复#3638 似乎某些 Linux 发行版可能LC_ALL未定义并被LANG使用,这会导致getwchar()unicode 转换失败,但更重要的是,这会“毒害” stdin( /dev/tty) 导致任何后续无限期getwchar返回WEOF。 此 PR 通过添加一个回退设置区域设置来解决此问题,LANG如果该区域设置也未定义,则将区域设置设置为C.UTF-8确保 IO 处于 unicode

    7热度

    8回答

    检查过 .\build\bin\Release\main.exe -m models\mpt-7B-storywriter\ggml-model-f16.gguf -p "Once upon a time there" --temp 0 -n 32 前: Once upon a timethere 后: Once upon a time there clang还修复了on的构建问题Window

    1热度

    7回答

    嘿伙计们,首先非常感谢这个令人惊叹的项目,特别是语法支持 - 老实说感觉就像魔法<3 我受到@ggerganov 转发的这条推文的启发,尝试将树保姆语法转换为 GBNF 形式。经过一些小问题后,我有一个脚本创建了可以由 llama.cpp 解析的语法,但不幸的是我现在遇到了分段错误。 我将其与这个简单的示例语法隔离: root ::= expression expression ::= (