内容持续更新中
知识蒸馏是一种将复杂的大型模型(教师模型)的知识迁移到较小的模型(学生模型)中的技术。在这个过程中,教师模型的推理能力和知识被提炼并转移到学生模型中,从而使学生模型能够在保持较高性能的同时,具有更低的…
本文内容主要基于 AI 大神、前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 的最新 YouTube 视频教程。Andrej 将带你深入了解 LLM 的技术原理,并探讨 …
爆肝了几篇DeepSeek的文章,发现很多人不知道API和官方APP有什么区别,或者说不知道API有什么用。 其实使用API可是实现很多DIY的功能,比如: 在苹果手机上,通过API将大模型和Siri…
人工智能(AI)技术正在快速渗透到各行各业,从自动驾驶到语音识别,从智能客服到医疗诊断,AI的应用范围已经无处不在。然而,AI技术的强大并不仅仅依赖于先进的算法和模型,更依赖于数据的质量。而在数据的获…
机器学习、深度学习领域中,梯度下降(Gradient descent)算法被广泛应用,它是一种用于优化问题的算法,目的是找到一个函数的最小值。它是一种优化算法,通常用于训练机器学习模型和神经网络。它通…
随着世界向更加多样化和整体化的数据处理转变,传统的检索增强生成(RAG)系统因仅限于文本数据而滞后。为了解决这个问题,多模态 RAG 系统应运而生,成为下一个重要的发展。这些系统使用文本、图像、表格等…
【导读】近年来,大模型技术已经成为全球科技领域的焦点。从 ChatGPT 到各种新兴的 AI 模型,每一次技术突破都能引发广泛的关注和讨论——而最近 AI 界的“新宠”,无疑是 DeepSeek。在本…
一、机器学习(Machine Learning)相关介绍 机器学习(Machine Learning)是一种通过让计算机从大量数据中学习模式和规律,从而能够自动进行任务和做出决策的技术。它是人工智能(…
DeepSeek-AI 提出的 DeepSeek-R1 引起了广泛关注,它通过创新的训练方法,在推理能力上取得了显著进展。今天,就让我们深入探讨一下 DeepSeek-R1 是如何训练的,以及其背后强…