递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 96|回复: 2
打印 上一主题 下一主题

[视窗] 纯源码基于c++ 和qt界面 本地电脑部署及永久免费使用AI大....

[复制链接]

2

主题

6

帖子

24

积分

新手上路

Rank: 1

积分
24
跳转到指定楼层
楼主
发表于 6 小时前 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
夸克网盘
pan点quark点cn/s/60121f2045ca(因为限制 自行把点替换.)
纯源码 基于c++ 和qt界面 本地电脑部署大模型
**4GB 显存/内存环境完美运行**:

与本地电脑部署大模型通信的 3 种真实方式(本项目采用方法2 内存映射 断网也可使用 无需任何费用 无限使用)
1. 标准输入输出流(stdin/stdout)→ 最原生、最高效
不联网、不走 HTTP、直接进程间管道通信。
工作方式:
- 启动一个模型推理程序( main.exe ,  llama.cpp )
- 外部程序通过 子进程管道 往它的 stdin 发问题
- 模型把生成的文字逐 token 写到 stdout
- 外部程序实时读 stdout 流式输出


2. 共享内存 / 内存映射(高级用法)
- 模型加载到内存
- 其他进程直接读写内存区域
- 速度极快,但平台绑定强、复杂
- 一般用于 C/C++ 嵌入,


3. HTTP / WebSocket(最通用)
就是 Ollama、vLLM、llama.cpp server 那种。
把流包装成 HTTP JSON 或 SSE 流。


因为推理参数很难调 导致回复 有很多缺点 例如循环问题等 特殊符号问题等 详细见llamaworker.cpp 问了很多ai辅助也没调试好  有经验的自行修改llamaworker.cpp(或使用ai辅助)有大佬能帮完善发来一份最好了 以下是llamaworker.cpp源码中推理参数

核心功能 :
- 重复检测机制,避免生成重复内容
- 高级采样策略(温度采样 + Top-k + Top-p)
- 合理的生成参数设置
- 默认参数 :

- 温度:0.7
- Top-k:40
- Top-p:0.9
- 重复惩罚:1.1
- 生成 token 数量:512



回复

使用道具 举报

109

主题

643

帖子

4747

积分

论坛元老

Rank: 8Rank: 8

积分
4747
板凳
发表于 2 小时前 | 只看该作者
看上去很高级!
回复

使用道具 举报

2

主题

6

帖子

24

积分

新手上路

Rank: 1

积分
24
沙发
 楼主| 发表于 3 小时前 | 只看该作者
重要补充(否则构建项目失败)
d盘新建文件夹TraeTemp
把整个MyGGUFv2文件夹拖出到电脑d盘TraeTemp文件夹下即可 模型 静态库已在源码使用绝对路径 f需要放其它磁盘的自己修改源码
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2026-3-22 20:40 , Processed in 0.080367 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表