中华网 china.com

军事

24小时热点

    专家观点

    • 中国禁止美光芯片?中方雷霆出击以其人之道还治其身,外媒炸锅了
    • 中俄好消息不断,一架俄罗斯专机抵达中国,7成俄民众对华有好感
    • 果然乱套了,英国大罢工将瘫痪80%的救护车,上万台手术被搁置
    • 局势正在失控,梅德韦杰夫再次警告:已扩大生产强大的杀 伤性武器

    全球人工智能发展,可能还会走上核武竞争的老路(4)

    2023-08-14 16:00:15 来源:观察者网

    我今天就和大家分享这些。谢谢大家。

    孙茂松:我长期从事人工智能研究,现在尝试从技术角度延展谈一下。

    去年年底ChatGPT异军突起、一鸣惊人,标志着通用人工智能开始走进人类的视野。而这一点,在一年以前还是不可想象的。

    下面简单讨论一下ChatGPT的主要技术特点。它的核心算法是“下一个词预测”,是由这个基本策略驱动的语言生成模型,貌似简单,但其实不简单。

    举个例子,你随便给机器一句话,然后在任何一个地方停下来,比如说,我昨天晚上吃了。“昨天晚上吃了”叫上文,给定这个上文去猜下一个词应该是什么词,这叫“下一个词预测”。但下一个词我是告诉电脑了,就是“饭”,所以算法就会调动它的人工神经网络机制,使得下一个词出现的应该是“饭”。

    听起来就这么简单,但“把这个事告诉它”这件事,实际上是一个了不起的策略,叫自监督学习。不需要人告诉它,机器自己就知道答案。这一点保证了这个算法可以对互联网上任何一个句子来做这个操作,不需要人的丝毫介入。

    chatGpt/资料图

    我在互联网规模的语料库上去统计,就会得到不同概率分布,比如我昨天晚上吃了“饭”,它有一个概率分布,比如说3.5%;我昨天晚上吃了“菜”,比如说2.8%;我昨天晚上吃了“桌子”,这个概率分布一下就变很小。总之,你可以得到一个给定了上文、它下一词的概率分布。那么,这大概有多少词呢?词典有多大,它就有多大。比如,《现代汉语词典》大概有五六万词,它就有五六万个选项。比如你要基于字来生成,《康熙字典》四万八千个字左右,它就有四万八千个选项。靠着这个大数据,概率统计就可以做得比较准确。

    如果再往前挪一个词,上文就变了。比如“我昨天晚上吃了北京”,第一你知道它肯定没说完,第二大概率后面就应该出现“烤鸭”“烤肉”这类词。“烤鸭”的概率我估计能到百分之二三十。如果说“我昨天晚上吃了上海”,那后面出现“小笼包”,也是大概率;第二估计是上海小馄饨。这样它的分布就变了。所以在大数据的加持下,我任意给定一个上文,就会得到一个比较合理的下一个词的概率分布。这一点实际上是了不得的,因为上文是无限的。

    (责任编辑)
    关闭

    精选推荐

    下一页