国产大模型DeepSeek在写作方面能不能平替Claude

admin · 发表于 7 天前

国内创业公司发布的DeepSeek V3在写作方面能否替代Claude？
大家好，欢迎来到废才俱乐部。许多创作者对这一问题非常关注，因为Claude是目前公认的最佳AI写作模型，但其频繁封号且注册流程复杂，因此不少人期待国内能提供替代方案。那么，DeepSeek V3的表现究竟如何？

本期将从十个方向结合实际案例进行测评。
首先对比的是上下文窗口大小，即模型能记忆的内容量。以DeepSeek V3为例，其上下文窗口为128000 tokens，相当于6-10万字或约200页内容。该容量足以应对文案、文章或短篇小说的创作需求，但对于中篇小说的创作则略显不足。

Claude 3.5的上下文窗口为20万tokens，远超DeepSeek V3的容量。这使得它在处理需要大量上下文记忆的任务时更具优势，例如创作中篇小说或分析长篇报告。Tokens作为大模型理解文字的基本单位，可以是一个单词、汉字或符号。上下文窗口的大小决定了模型能同时记忆的tokens数量，窗口越大，记忆能力越强，在撰写长文或持续对话时能更好地保持上下文连贯性。因此，对于10万至15万字的长文创作，Claude 3.5更为适合。
在长文写作能力方面，两个模型在网页版的表现差异显著，主要体现在单次输出字数上。DeepSeek V3单次可输出8192个tokens，例如要求其创作5000字的穿越故事时，能够一次性完成。而网页版Claude 3.5受限于思考所需的tokens预留，单次仅能输出约1000字（4096个tokens）。虽然Claude 3.5通过API调用可实现8192个tokens的输出，但网页版无法达到这一水平。

第三个对比维度是文本的自然性。我让DeepSeek V3和Claude 3.5各自创作了一段以”雨夜中两位老友在咖啡馆门口重逢”为主题的文学性短篇小说开头。DeepSeek V3擅长场景描写，运用”雨丝如枝”“湿漉漉的地面”等细节营造出强烈的画面感，但偶尔会使用”如被打碎的镜子”这类略显刻意的文艺比喻，透露出AI创作的痕迹。相比之下，Claude 3.5的描写更为自然，如”细密的雨丝”“暖黄的灯光透过玻璃撒在雨幕上”等表述细腻而不做作。综合来看，Claude 3.5在自然性方面表现更优。
再看另一个案例：要求两个AI创作以”男主穿越到古代”为主题的穿越小说开头。这次DeepSeek V3的表现更为出色，其对中国古代场景的描写极具韵味，如”青灰色的砖墙”“檀香味”“月白色长衫”等细节充满古典气息。最突出的是其人物对话设计，“公子可是要参加诗会”等对白既古雅又不失自然，配合”腰间玉佩”“诗会”等中国元素，使整个故事浑然天成。Claude 3.5虽然也描写了”红木家具”“青砖地面”“墙上挂着水墨画”等场景，但整体较为平淡，对话如”少爷您这是怎么了”略显生硬。由此可见，基于中文语料训练的DeepSeek V3在中国文化表达方面确实更具优势。
通过这两个案例可以看出，两个模型各有所长。第四个对比维度是情感表达与语言风格。我让它们模拟同事间对话，场景是在咖啡馆批评对方PPT质量差。两个模型都能写出充满攻击性的对话，但风格迥异：DeepSeek V3更为直接，运用大量国骂和激烈措辞；Claude 3.5虽然也能表达愤怒，但相对克制。这一轮难分高下，选择取决于实际需求。
第五个测试是修改与重现能力，要求将之前的批评对话改写为赞美。两个模型都成功完成了转换。DeepSeek V3的改写更符合中国职场文化，措辞谦逊得体。
Claude 3.5的写作风格较为生活化，层次分明。其中提到”这次真的超出了我的预期，以后公司的重要项目PPT都得靠你了”，这句话颇具职场PUA的意味。总体而言，各AI在修改任务上都表现不错，各具特色。
第六项测试是文案风格的模仿能力。首先，我在网上选取了一段短视频营销文案发送给AI，要求其先分析该文案的语言风格，然后使用相同风格撰写一段关于Sora正式发布的一分钟视频脚本。

DeepSeek V3基本遵循了原文的结构进行创作，逻辑清晰且用词风格相似，但有时模仿痕迹过重，略显机械。

Claude 3.5在文风表现上更为生动，但在技术细节的阐述上略显不足。总体而言，两个大模型均能有效模仿文案风格，但创作质量的关键在于提示词的运用，此处不再赘述。
我们已完成六项基础测试，接下来将采用一篇短篇小说提示词框架进行创作测试，重点评估故事创意、逻辑性、角色塑造和指令遵循四个维度。
在故事创意测试环节，给定”穿越回唐朝”的命题要求生成故事梗概。DeepSeek创作了一个书生穿越到唐朝的故事：主角凭借现代知识和一块玉佩实现人生逆袭，最终成为一代名臣并开创盛世。

Claude创作的故事讲述了一位精通中医与现代医学的医生穿越至武则天时期，凭借医术与现代知识逐步崛起，最终成为影响大唐的重要人物。经过多次测试，发现AI生成的故事存在明显的套路化倾向，这与预训练的小说语料密切相关。
常见剧情包括书生、医生、特种兵、程序员或律师凭借知识与智慧逆袭，或是穿越成为县令或皇帝私生子后一路攀升。无论是DeepSeek还是Claude，若缺乏创意引导，其创作均局限于标准的穿越逆袭模式。
在故事逻辑性方面，基于相同故事梗概的创作方案对比显示，Claude的处理更为合理。其将主角设定为精通中西医的医生，这一设定既解释了主角快速发迹的原因，又为其进入朝廷提供了自然契机。
剧情发展环环相扣：从游医起步，继而救治大臣之女，随后卷入朝廷阴谋。感情线与主线紧密结合，并巧妙设置了文化差异、艺术难题与朝廷阴谋三条冲突线。相比之下，DeepSeek的方案虽具亮点，但主角过度依赖系统，情节转折略显突兀，人物关系与冲突处理也较为简单。

接下来评估角色塑造能力。我要求模型为故事设计角色，包括基本信息、性格特点和目标动机等。两个模型在此方面表现良好，均能完整地刻画角色。
最后是指令遵循能力的测试。从前述步骤可以看出，每个环节均通过指令操控模型，所有指令功能均预先写入提示词框架，采用提示词设计模式中的菜单操作模式。测试结果表明，两个模型在执行具有复杂逻辑嵌套的超长指令时，均展现出优秀的表现。

现在，我要求它们生成小说的目录，以测试指令遵循能力。由于是短篇，我在提示词框架中明确要求仅需20个章节。两个模型都能准确遵循具体指令。
不过，DeepSeek额外添加了内容，为每个章节补充了剧情概括。但这并不能说明问题，因为我的提示词并未要求此项内容。若重新生成，DeepSeek可能就不会再添加这些概括了。

最后我让他们把第一章直接写出来，以评估实际水平。感觉Claude写得更好，开篇直接从手术室切入，立即展开救人情节，节奏紧凑，引人入胜。其中救人的场景运用了不少专业术语，如“用银针封住几处大出血点”等细节描写，显得尤为专业。
DeepSeek虽然同时描写了商人和系统两条线索，但节奏略显缓慢，具体描述也较为平淡，缺乏特色。两个模型的开头都符合男频小说的基本要求，但Claude在故事设定、情节安排和细节描写方面更胜一筹，更能吸引读者继续阅读。
总体而言，Claude 3.5的写作水平目前仍是最优秀的，但DeepSeek V3在中文写作方面差距不大，有时表现甚至更出色，特别是作为国产模型，它不仅完全免费，而且不限制使用次数。

对于无法使用Claude的用户而言，DeepSeek V3是一个优质的替代选择。
文章来源：「来源见截图水印」

国产大模型DeepSeek在写作方面能不能平替Claude

本帖子中包含更多资源

浏览过的版块

关于我们

服务支持

admin@discuz.vip