-
Notifications
You must be signed in to change notification settings - Fork 89
Description
深度求索团队:
你好,
我想写封信, 表达我的看法, 我只是一个普通的使用者, 所以从用户角度写一些观点.
"磨刀不误砍柴工", "工欲善其事必先利其器", 使用过DeepSeek Coder后, 觉得不甚理想,
我领悟到, 或许大众需要的不是某个垂直领域模型, 而是在V3_R1这样的全能通用模型上发展一个偏科分支,
比如相对于编程来说, 总的来说, 我认为"编程"与"代码生成"还是有一定区别的,
"代码生成"似乎仅聚焦于编程语言的语法, 或对某一编程语言的熟练使用上.
而"编程", 概念似乎涵盖了广泛些的作用域, 比如计算理论、计算机科学、PLT等等.
所以, 为何不把程序员、架构师、视觉思维链整合起来创造一个编程专家呢?
我知道, 想要完整模拟[人的五感六觉: 视觉、听觉、触觉、嗅觉、味觉、知觉(下意识)], 目前还太难,
先模仿视觉、触觉思维链, 设计一个比MCP/A2A更为先进的与外部环境交互、通信的实体,
先把程序员、架构师的功能与行为模拟出来, 是否可行?
如果只是压缩数学公式、定理与程序代码, 它们蕴含的逻辑链(再加上STEM、艺术、逻辑), 或许还远远不够,
程序员在编写程序的时候, 除了用视觉观察代码编辑器以外(也就是训练对GUI的认知, 把代码块当图形进行处理),
还有触觉在与环境交互, 比如十指敲键盘、点鼠标等动作,
程序员也不是完整记住整个代码库、或项目, 对应到大模型, 就是目前的大模型想通过极长的上下文窗口来记住项目代码库,
还想一口气处理完全部代码, 这显然是一个不实用的发展方向,
所以, 我的观点是, 在一个通用全能的大模型上(本身具备视觉神经网), 加装眼球(视频处理软件+摄像头),
加装视神经(连接大模型与眼球的通信管道), 实现触觉也是同理.
如此一来, 使其可方便地模拟人(程序员)的编程行为过程,
目前阶段, 不管是从网页chat还是API用法来看, 都是如此, 总感知缺了点什么,
目前通过从网页chat或API用法方式来编程, 只觉得大模型只是个懂单一编程语言语法、一股脑仅生成代码的笨拙又横冲直撞,
它为什么不能像程序员一样编写程序, 像架构师一样设计项目框架与结构?
就是因为还缺一部分组件, 功能还不完善.
目前的大模型, 其输入输出, 皆是以牌token为主,
这严重限制了其性能发展, 人类标注的预训练数据集, 导致大模型产生严重幻觉,
数据集确实重要, 但还不是最重要的部分, 或许改进了输入输出, 可以从别的方向上获得冷启动数据(信息源),
人类婴儿一出生也没有巨大的数据集天生自带, 而是通过五感六觉(输入输出)获得的,
在推理时、强化学习、深度思考的时候, 并不能更新权重,
而预训练时又在一个封闭的数据集易产生幻觉的情况下更新权重,
这导致了一些矛盾与悖论的产生.
如何解决?
除了改进大模型的输入输出外(训练与推理都要全程具备), 还需在架构与算法上, 为大模型的输入输出训练作优化设计,
换言之, 大模型除了要具备类人的输入输出外, 还要懂自己在输入输出.
当下, 大模型理应具备自动编程的能力, 自动软件工程的能力,
有了这样的基本能力, 才好用它设计下一代全能模型, 比如AGI.
所以, 我的看法就是, 先造出一个堪比计算机科学专家的程序员大模型, 之后再用它设计新架构的每个细分部件,
比如编写程序模拟人的五感六觉(输入输出),