当下, 大模型理应具备自动编程的能力, 自动软件工程的能力

深度求索团队:

你好,

我想写封信, 表达我的看法, 我只是一个普通的使用者, 所以从用户角度写一些观点.

"磨刀不误砍柴工", "工欲善其事必先利其器", 使用过DeepSeek Coder后, 觉得不甚理想, 

我领悟到, 或许大众需要的不是某个垂直领域模型, 而是在V3_R1这样的全能通用模型上发展一个偏科分支,

比如相对于编程来说, 总的来说, 我认为"编程"与"代码生成"还是有一定区别的,

"代码生成"似乎仅聚焦于编程语言的语法, 或对某一编程语言的熟练使用上.

而"编程", 概念似乎涵盖了广泛些的作用域, 比如计算理论、计算机科学、PLT等等.

所以, 为何不把程序员、架构师、视觉思维链整合起来创造一个编程专家呢? 

我知道, 想要完整模拟[人的五感六觉: 视觉、听觉、触觉、嗅觉、味觉、知觉(下意识)], 目前还太难,

先模仿视觉、触觉思维链, 设计一个比MCP/A2A更为先进的与外部环境交互、通信的实体,

先把程序员、架构师的功能与行为模拟出来, 是否可行?

如果只是压缩数学公式、定理与程序代码, 它们蕴含的逻辑链(再加上STEM、艺术、逻辑), 或许还远远不够,

程序员在编写程序的时候, 除了用视觉观察代码编辑器以外(也就是训练对GUI的认知, 把代码块当图形进行处理),

还有触觉在与环境交互, 比如十指敲键盘、点鼠标等动作,

程序员也不是完整记住整个代码库、或项目, 对应到大模型, 就是目前的大模型想通过极长的上下文窗口来记住项目代码库,

还想一口气处理完全部代码, 这显然是一个不实用的发展方向,

所以, 我的观点是, 在一个通用全能的大模型上(本身具备视觉神经网), 加装眼球(视频处理软件+摄像头),

加装视神经(连接大模型与眼球的通信管道), 实现触觉也是同理.

如此一来, 使其可方便地模拟人(程序员)的编程行为过程,

目前阶段, 不管是从网页chat还是API用法来看, 都是如此, 总感知缺了点什么,

目前通过从网页chat或API用法方式来编程, 只觉得大模型只是个懂单一编程语言语法、一股脑仅生成代码的笨拙又横冲直撞,

它为什么不能像程序员一样编写程序, 像架构师一样设计项目框架与结构?

就是因为还缺一部分组件, 功能还不完善.



目前的大模型, 其输入输出, 皆是以牌token为主, 

这严重限制了其性能发展, 人类标注的预训练数据集, 导致大模型产生严重幻觉,

数据集确实重要, 但还不是最重要的部分, 或许改进了输入输出, 可以从别的方向上获得冷启动数据(信息源),

人类婴儿一出生也没有巨大的数据集天生自带, 而是通过五感六觉(输入输出)获得的,

在推理时、强化学习、深度思考的时候, 并不能更新权重, 

而预训练时又在一个封闭的数据集易产生幻觉的情况下更新权重,

这导致了一些矛盾与悖论的产生.

如何解决?

除了改进大模型的输入输出外(训练与推理都要全程具备), 还需在架构与算法上, 为大模型的输入输出训练作优化设计,

换言之, 大模型除了要具备类人的输入输出外, 还要懂自己在输入输出.



当下, 大模型理应具备自动编程的能力, 自动软件工程的能力,

有了这样的基本能力, 才好用它设计下一代全能模型, 比如AGI.

所以, 我的看法就是, 先造出一个堪比计算机科学专家的程序员大模型, 之后再用它设计新架构的每个细分部件,

比如编写程序模拟人的五感六觉(输入输出),

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

当下, 大模型理应具备自动编程的能力, 自动软件工程的能力 #6

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

当下, 大模型理应具备自动编程的能力, 自动软件工程的能力 #6

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions