递归火山软件开发平台

标题: 纯源码基于c++ 和qt界面 本地电脑部署及永久免费使用AI大.... [打印本页]

作者: ok2021    时间: 6 小时前
标题: 纯源码基于c++ 和qt界面 本地电脑部署及永久免费使用AI大....
夸克网盘
pan点quark点cn/s/60121f2045ca(因为限制 自行把点替换.)
纯源码 基于c++ 和qt界面 本地电脑部署大模型
**4GB 显存/内存环境完美运行**:

与本地电脑部署大模型通信的 3 种真实方式(本项目采用方法2 内存映射 断网也可使用 无需任何费用 无限使用)
1. 标准输入输出流(stdin/stdout)→ 最原生、最高效
不联网、不走 HTTP、直接进程间管道通信。
工作方式:
- 启动一个模型推理程序( main.exe ,  llama.cpp )
- 外部程序通过 子进程管道 往它的 stdin 发问题
- 模型把生成的文字逐 token 写到 stdout
- 外部程序实时读 stdout 流式输出


2. 共享内存 / 内存映射(高级用法)
- 模型加载到内存
- 其他进程直接读写内存区域
- 速度极快,但平台绑定强、复杂
- 一般用于 C/C++ 嵌入,


3. HTTP / WebSocket(最通用)
就是 Ollama、vLLM、llama.cpp server 那种。
把流包装成 HTTP JSON 或 SSE 流。


因为推理参数很难调 导致回复 有很多缺点 例如循环问题等 特殊符号问题等 详细见llamaworker.cpp 问了很多ai辅助也没调试好  有经验的自行修改llamaworker.cpp(或使用ai辅助)有大佬能帮完善发来一份最好了 以下是llamaworker.cpp源码中推理参数

核心功能 :
- 重复检测机制,避免生成重复内容
- 高级采样策略(温度采样 + Top-k + Top-p)
- 合理的生成参数设置
- 默认参数 :

- 温度:0.7
- Top-k:40
- Top-p:0.9
- 重复惩罚:1.1
- 生成 token 数量:512




作者: ok2021    时间: 3 小时前
重要补充(否则构建项目失败)
d盘新建文件夹TraeTemp
把整个MyGGUFv2文件夹拖出到电脑d盘TraeTemp文件夹下即可 模型 静态库已在源码使用绝对路径 f需要放其它磁盘的自己修改源码
作者: 4463424    时间: 2 小时前
看上去很高级!




欢迎光临 递归火山软件开发平台 (https://bbs.voldp.com/) Powered by Discuz! X3.4