通义听悟

00:00 自注意力网络与词向量嵌入

对话讨论了从固定长度向量输入到可变长度序列输入的转变，指出传统输入模型（如影像处理和预测观看人数）通常处理固定长度向量，但实际应用中可能遇到输入序列长度不一的情况。
提出了处理可变长度序列输入的必要性，特别是在序列长度会变化的情况下，如文本处理等场景，强调了这一转变对模型设计和处理逻辑的影响。
以文字处理为例，阐述了可变长度序列输入的具体应用场景，表明在自然语言处理中，不同句子或文本片段的长度差异是常见的，需要模型能够适应这种变化。
指出在处理可变长度序列输入时，需要考虑模型的灵活性和效率，可能涉及的技术包括循环神经网络（RNN）、长短时记忆网络（LSTM）等，这些技术能够处理长度不一的序列数据。
强调了处理可变长度序列输入对模型泛化能力和实际应用价值的重要性，表明能够适应不同长度输入的模型在处理复杂和多样化数据时更具优势。
对话解释了句子作为输入时，每个句子的长度和词汇数量可能不同，导致模型输入为大小不一的向量集合。
介绍了词汇表示为向量的两种方法：one-hot编码和词嵌入，指出one-hot编码无法体现词汇间的语义关系。
强调词嵌入能够捕捉词汇的语义信息，使语义相近的词汇在向量空间中位置接近。
提到网络上的词嵌入资源，如word2vec，可以为每个词汇生成包含语义信息的向量，使句子成为一排长度不一的向量。
举例说明声音信号也可被视为一排向量，进一步说明了向量序列作为模型输入的普遍性。

03:16 声音信号与图像的向量表示
11. 将声音信号通过设定的25毫秒window长度转换为向量，即frame，以描述语音信息，此方法由古圣先贤优化得出最佳效果。
12. window每次向右移动10毫秒，用于连续描述整段声音信号，形成一系列向量，便于分析处理。
13. 一秒钟的声音信号包含100个向量，一分钟则有6000个，显示语音信息量庞大且复杂。
14. 声音信号的向量表示方法需通过特定技术实现，不同方法存在，但具体实现细节未详细讨论。
15. 除声音信号外，其他可能以向量形式表示的数据类型未在对话中提及，但暗示向量表示是数据分析中的通用方法。

05:14 图结构数据与机器学习应用
16. 在社交网络中，节点与节点之间的关系（如是否为朋友）可以用H表示，每个节点可以被视为一个向量，包含个人资料信息如性别、年龄、职业和言论等，整个社交网络可视为由这些向量构成的图。
17. 除了社交网络，图结构还广泛应用于地图导航，其中节点代表地点，边代表道路，通过图算法可以计算出两点之间的最短路径。
18. 图在计算机网络中也扮演着重要角色，网络中的路由器和交换机可以看作节点，连接它们的线路则是边，通过图论可以优化数据传输路径，提高网络效率。
19. 在生物信息学领域，图被用于表示生物分子的结构和相互作用，如蛋白质相互作用网络，节点代表蛋白质，边表示蛋白质间的相互作用，有助于理解生物系统的复杂性。
20. 图在推荐系统中也发挥着关键作用，用户和物品可以作为节点，用户对物品的评价或行为构成边，通过分析图结构可以为用户推荐可能感兴趣的内容，提升用户体验。
21. 分子结构被视作输入，通过将每个原子表示为向量（如使用one-hot编码），整个分子则构成一系列向量集合，此方法在药物发现领域中被广泛应用，特别是在机器学习技术的支持下，有望实现突破性进展。
22. 输出可能包括但不限于：预测分子的生物活性、评估药物的副作用或预测分子间的相互作用，这些输出对药物发现过程至关重要，能够加速新药的研发流程。
23. 通过将分子结构转化为机器学习模型可处理的数据格式，研究者能够利用先进的算法探索分子空间，寻找具有潜在治疗效果的化合物，这一过程极大地提高了药物发现的效率和精准度。
24. 机器学习在药物发现中的应用不仅限于分子结构的分析，还包括对大量化学、生物学数据的综合处理，以识别潜在的药物靶点和优化药物设计，这为解决复杂疾病提供了新的视角和工具。
25. 该领域的发展受到广泛关注，特别是在COVID-19疫情期间，快速识别有效药物的需求更加迫切，机器学习技术的应用为应对公共卫生危机提供了有力支持，展示了其在药物发现中的巨大潜力。
26. 第一种可能性描述了模型输入与输出长度一致的情况，每个输入向量对应一个输出标签，适用于回归或分类任务。
27. 文字处理中的词性标注（POS tagging）是第一种类型输出的典型应用，每个词汇需对应一个词性标签。
28. 语音识别任务中，每个输入向量需决定其对应的音素或韵母，体现了输入输出长度一致的特点。
29. 模型在处理此类任务时，无需考虑输出数量，直接根据输入向量数量生成相应标签，简化了任务复杂度。
30. 通过具体例子，如“i so so”中第二个“so”作为名词的标注，说明了词性标注任务的挑战性和实际应用场景。
31. 风力作为一种简化版的语音辨识概念，通过音标形式输入，模型需解析并理解其含义，尽管这并非真正的语音识别。
32. 在社交网络场景下，输入为一个图结构，模型需分析每个节点的特性，如预测用户是否会购买特定商品，以指导商品推荐策略。
33. 第一种输出类型是输入与输出数目相等，每个输入元素对应一个输出结果，适用于需要对每个输入元素进行独立判断的场景。
34. 第二种输出类型为整个序列输出单一标签，如在文本分析中判断整体情感倾向，适用于需要对整个输入序列进行综合判断的场景。
35. 无论是风力的音标辨识还是社交网络中的用户行为预测，模型的设计和训练都是为了更准确地理解和预测输入数据的特性或趋势。

09:29 Sequence Labeling与多种输出类型解析
36. Sentiment analysis是一种技术，通过机器分析文本内容，自动判断其情感倾向为正面或负面，适用于产品评价分析等场景，以了解公众对特定产品的看法。
37. 第二类输出的示例包括语音识别中的语者辨认，即机器通过声音识别说话人身份，以及分子性质预测，如预测分子的毒性或亲水性，这些都属于给定输入后输出单一标签的场景。
38. 第三类输出涉及不确定数量的标签预测，机器需自行决定输出标签的数量，这适用于更复杂或多样化的预测任务，但对话中未详细展开具体应用实例。
39. 对话介绍了三种类型的序列任务，但本次课程仅聚焦于第一种类型，即输入与输出数量相同的情况，强调了课堂时间有限，故先不展开讨论其他类型。
40. 第一种类型的任务在作业室中有具体实例，学生可以自行查阅，以了解如何处理输入输出数量一致的问题，这为后续学习奠定了基础。
41. 序列到序列任务的典型例子包括翻译和语音识别，前者涉及不同语言词汇数量的差异，后者则需将语音转换为文字，两者均体现了输入输出长度不一的特点。
42. 作业五将深入探讨序列任务，为学生提供实践机会，通过完成相关作业，学生能更好地理解序列任务的处理方法及其在实际场景中的应用。
43. 对话提及了“N派”的概念，尽管未详述其具体含义，但暗示了机器在决定输出标签数量时的自主性，这为理解机器学习模型的决策过程提供了线索。

12:28 解决序列库问题的挑战与方法
44. 对话首先指出将序列中的每个向量分别输入到全连接网络中处理的局限性，特别是对于词性标注任务，相同词汇在不同上下文中可能需要不同的输出，而全连接网络无法区分。
45. 接着，对话提出通过增加输入向量的窗口大小，将当前向量及其前后多个向量一起输入网络，以此考虑上下文信息，以期解决全连接网络的局限性。
46. 对话进一步讨论，即使扩大窗口大小在某些任务如作业二中能够取得良好效果，但对于需要考虑整个序列信息的任务，这种方法仍存在不足。
47. 对话指出，简单地通过扩大窗口大小以覆盖整个序列的方法不可行，因为序列长度不一，可能导致模型参数过多，增加运算量并容易过拟合。
48. 最后，对话引出需要寻找更好的方法来有效考虑整个序列的信息，为后续讨论如何处理序列数据提供了方向。

16:01 Self Attention技术与Transformer架构解析
49. 自注意力机制通过考虑整个序列信息生成特殊的向量，这些向量被标记为黑色框框，代表它们是在理解整个句子后形成的，不同于普通向量。
50. 这些特殊向量被送入全连接网络，以决定输出的类别或数值，这意味着网络在决策时考虑的是整个序列的上下文，而非局部信息。
51. 自注意力机制可以多次叠加使用，即先通过自注意力和全连接网络处理输入，再将结果再次输入自注意力和全连接网络，以此循环，逐步提炼和深化对输入序列的理解。
52. 通过多次自注意力和全连接网络的迭代处理，最终得到的结果能够更全面、更准确地反映输入序列的整体特征和信息。
53. 这种方法显著提升了模型对序列数据的理解和处理能力，特别是在需要捕捉长距离依赖关系的任务中，如自然语言处理中的文本分类和机器翻译等。
54. 通过交替使用fully connected network和self attention，可以有效处理序列信息，前者专注于单个位置的信息处理，后者则处理整个序列的信息，从而实现信息的全面覆盖和深度挖掘。
55. self attention机制，尤其在《Attention is All You Need》一文中被详细阐述，是处理序列数据的强大工具，能够捕捉序列中各元素之间的长距离依赖关系。
56. 交替使用self attention和fully connected网络的策略，可以先通过self attention处理整个序列，再利用fully connected网络深入分析特定位置的信息，最后再次通过self attention整合序列信息，形成一个循环优化过程。
57. 这种交替使用的方法，不仅提高了模型对序列信息的处理能力，还增强了模型的表达力和泛化能力，是深度学习领域处理序列数据的一种有效策略。
58. 《Attention is All You Need》作为介绍self attention机制的经典论文，对后续研究和应用产生了深远影响，证明了self attention在处理序列数据方面的卓越性能和广泛适用性。
59. Transformer网络架构由Google提出，其中最重要的模块是self attention，这一模块被比喻为变形金刚的火种源，强调了其在模型中的核心地位。
60. 尽管self attention这一概念在更早的论文中已有提及，但“Attention is All You Need”这篇论文通过使用霸气的名字，将self attention模块的功能和重要性推向了新的高度。
61. Self attention模块通过处理输入序列中各元素之间的关系，实现对序列的深度理解，这是其运作的基本原理。
62. 在后续的讲解中，将深入探讨self attention模块的具体运作机制及其在Transformer架构中的作用。
63. 通过对比不同论文中对类似架构的命名，可以了解到self attention模块在自然语言处理领域的广泛应用和重要性。

19:13 自注意力机制的工作原理
64. 自注意力机制的输入可以是一系列向量，这些向量可能是整个网络的输入或某个隐藏层的输出，通常用A表示。
65. 在自注意力机制中，B向量的生成考虑了所有A向量的信息，体现了自注意力机制的核心思想。
66. 通过自注意力机制，每个B向量能够综合所有A向量的信息，实现对输入序列的深度理解与处理。
67. A和B向量之间的关系展示了自注意力机制在处理序列数据时，如何通过权重分配关注到序列中的不同部分。
68. 这种机制允许模型在处理序列数据时，能够动态地调整对不同位置信息的关注程度，提高模型的表达能力。
69. 为了生成b one向量，首先需要根据a one向量找出整个序列中与其相关联的其他向量，通过自注意力机制判断哪些部分对决定a one的标签或回归值最为关键。
70. 自注意力模块通过计算两个向量之间的关联性，自动决定它们的相关程度，这一过程用数值α表示，α值越大说明两个向量之间的关联性越强。
71. 在自注意力机制中，a one向量不仅与自身相关联，还与序列中的其他向量存在不同程度的关联，这些关联程度的计算是生成b one向量的关键步骤。
72. 通过自注意力机制，可以有效筛选出对a one向量分类或预测最有帮助的信息，避免将整个序列的全部信息打包处理，从而提高模型的效率和准确性。
73. 生成b one向量的方法同样适用于生成后续的b two、b three、b four等向量，通过类似的过程，确保每个向量都能考虑到与其最相关的序列信息。

74. 介绍计算attention模组的基本功能，即接收两个向量输入并输出表示关联程度的阿尔法数值。
75. 解释达发达方法计算阿尔法数值的过程，包括将输入向量分别乘以WQ和WK矩阵得到Q和K向量。
76. 描述达发达方法中Q和K向量通过element-wise相乘并求和生成scale值，该scale值即为阿尔法。
77. 强调达发达方法是计算阿尔法数值的常见做法，提供了一种量化两个向量关联程度的途径。
78. 指出通过调整WQ和WK矩阵，可以影响Q和K向量的生成，进而影响阿尔法数值的计算结果。
79. 介绍了additive计算方式，通过将两个向量通过WQWK得到Q和K，串联后经过activation function和transform得到阿尔法，说明了多种计算attention的方法。
80. 强调在后续讨论中将仅使用最常用的方法，即左边的方法，该方法也是Transformer模型中采用的计算阿尔法数值和关联程度的方式。
81. 计划在完成对如何使用两个向量计算出阿尔法的讲解后，进入self attention的应用讲解，以完成当前主题的讨论。
82. 提及即将结束当前讲解部分，准备下课或解答听众可能存在的问题，确保信息传达完整并给予反馈机会。
83. 表达了通过上述过程，听众能够理解如何将计算出的阿尔法应用到self attention机制中，以实现更深层次的模型理解。

23:23 自注意力机制中的关联性计算与信息抽取
84. 通过将a one乘上WQ得到q one，作为query，再将A2、A3、A4分别乘上WK得到K向量，以此计算query与各个key之间的关联性。
85. 使用inner product计算q one与各个K向量（包括自身）之间的关联性，得到的阿尔法值代表attention的分数，即各向量间的关联程度。
86. 通过计算q one与k one的关联性，探索自我关联性的重要性，这一步骤有助于理解向量自身特征对整体计算的影响。
87. 在计算出所有关联性后，进行soft max操作，将这些关联性转化为概率分布，为后续的加权求和做准备。
88. 这一系列计算步骤揭示了在多头注意力机制中，如何量化不同向量之间的相关性，为模型理解和处理复杂信息提供基础。

89. 对话解释了softmax函数在序列模型中的应用，通过乘以潜在值并进行归一化得到α’，强调了softmax并非唯一选择，其他激活函数可能更优。
90. 说明了如何根据α’的值从序列中抽取重要信息，通过将向量乘以WV得到新向量，再乘以attention分数进行组合，强调了高分数向量对结果的主导作用。
91. 强调了softmax在序列模型中的常见性，鼓励尝试其他激活函数以寻找可能更优的结果，体现了实验精神和探索未知的重要性。
92. 描述了α’如何帮助确定序列中各向量与特定元素的关联性，进而指导重要信息的抽取，突出了attention机制在信息筛选中的关键作用。
93. 提到了具体操作步骤，包括向量乘法和attention分数的乘积，以及最终如何通过这些步骤从整个序列中提取出b1，展示了从理论到实践的转化过程。

通义听悟

notebooklm