Skip to content

当下, 大模型理应具备自动编程的能力, 自动软件工程的能力 #6

@qwas982

Description

@qwas982

深度求索团队:

你好,

我想写封信, 表达我的看法, 我只是一个普通的使用者, 所以从用户角度写一些观点.

"磨刀不误砍柴工", "工欲善其事必先利其器", 使用过DeepSeek Coder后, 觉得不甚理想,

我领悟到, 或许大众需要的不是某个垂直领域模型, 而是在V3_R1这样的全能通用模型上发展一个偏科分支,

比如相对于编程来说, 总的来说, 我认为"编程"与"代码生成"还是有一定区别的,

"代码生成"似乎仅聚焦于编程语言的语法, 或对某一编程语言的熟练使用上.

而"编程", 概念似乎涵盖了广泛些的作用域, 比如计算理论、计算机科学、PLT等等.

所以, 为何不把程序员、架构师、视觉思维链整合起来创造一个编程专家呢?

我知道, 想要完整模拟[人的五感六觉: 视觉、听觉、触觉、嗅觉、味觉、知觉(下意识)], 目前还太难,

先模仿视觉、触觉思维链, 设计一个比MCP/A2A更为先进的与外部环境交互、通信的实体,

先把程序员、架构师的功能与行为模拟出来, 是否可行?

如果只是压缩数学公式、定理与程序代码, 它们蕴含的逻辑链(再加上STEM、艺术、逻辑), 或许还远远不够,

程序员在编写程序的时候, 除了用视觉观察代码编辑器以外(也就是训练对GUI的认知, 把代码块当图形进行处理),

还有触觉在与环境交互, 比如十指敲键盘、点鼠标等动作,

程序员也不是完整记住整个代码库、或项目, 对应到大模型, 就是目前的大模型想通过极长的上下文窗口来记住项目代码库,

还想一口气处理完全部代码, 这显然是一个不实用的发展方向,

所以, 我的观点是, 在一个通用全能的大模型上(本身具备视觉神经网), 加装眼球(视频处理软件+摄像头),

加装视神经(连接大模型与眼球的通信管道), 实现触觉也是同理.

如此一来, 使其可方便地模拟人(程序员)的编程行为过程,

目前阶段, 不管是从网页chat还是API用法来看, 都是如此, 总感知缺了点什么,

目前通过从网页chat或API用法方式来编程, 只觉得大模型只是个懂单一编程语言语法、一股脑仅生成代码的笨拙又横冲直撞,

它为什么不能像程序员一样编写程序, 像架构师一样设计项目框架与结构?

就是因为还缺一部分组件, 功能还不完善.

目前的大模型, 其输入输出, 皆是以牌token为主,

这严重限制了其性能发展, 人类标注的预训练数据集, 导致大模型产生严重幻觉,

数据集确实重要, 但还不是最重要的部分, 或许改进了输入输出, 可以从别的方向上获得冷启动数据(信息源),

人类婴儿一出生也没有巨大的数据集天生自带, 而是通过五感六觉(输入输出)获得的,

在推理时、强化学习、深度思考的时候, 并不能更新权重,

而预训练时又在一个封闭的数据集易产生幻觉的情况下更新权重,

这导致了一些矛盾与悖论的产生.

如何解决?

除了改进大模型的输入输出外(训练与推理都要全程具备), 还需在架构与算法上, 为大模型的输入输出训练作优化设计,

换言之, 大模型除了要具备类人的输入输出外, 还要懂自己在输入输出.

当下, 大模型理应具备自动编程的能力, 自动软件工程的能力,

有了这样的基本能力, 才好用它设计下一代全能模型, 比如AGI.

所以, 我的看法就是, 先造出一个堪比计算机科学专家的程序员大模型, 之后再用它设计新架构的每个细分部件,

比如编写程序模拟人的五感六觉(输入输出),

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions