Python中通用的文本相似度计算方法介绍_F11 - 专业站长和开发者的学习网站

分享到

Python中通用的文本相似度计算方法介绍

python 来源：互联网作者：佚名发布时间：2024-04-20 22:19:59 人浏览

摘要

一、最长公共子序列最长公共子序列（Longest Common Subsequence，LCS）是指两个或多个序列中共同出现的一段连续序列，它在多个序列中都保持相同的顺序和连续性。在计算机科学中，寻找最长公

一、最长公共子序列

最长公共子序列（Longest Common Subsequence，LCS）是指两个或多个序列中共同出现的一段连续序列，它在多个序列中都保持相同的顺序和连续性。在计算机科学中，寻找最长公共子序列是一个经典问题，通常通过动态规划算法解决。
动态规划算法解决最长公共子序列问题的步骤如下：

初始化状态数组：创建一个二维数组dp，其大小为(m+1)×(n+1)，其中m和n分别是两个序列的长度。dp[i][j]表示序列1的前i个字符与序列2的前j个字符的最长公共子序列的长度。

填充状态数组：遍历两个序列，对于每一对字符，如果它们相同，则dp[i][j] = dp[i-1][j-1] + 1；如果不同，则dp[i][j] = max(dp[i-1][j], dp[i][j-1])。

找到最长公共子序列：dp数组的最后一个元素dp[m][n]就是两个序列的最长公共子序列的长度。可以通过回溯的方式找到具体的子序列。

python代码如下：

## 最长公共子序列计算最长公共子串-------------------

def LCS(str_a, str_b):

if len(str_a) == 0 or len(str_b) == 0:

return 0

dp = [0 for _ in range(len(str_b) + 1)]

for i in range(1, len(str_a) + 1):

left_up = 0

dp[0] = 0

for j in range(1, len(str_b) + 1):

left = dp[j-1]

up = dp[j]

if str_a[i-1] == str_b[j-1]:

dp[j] = left_up + 1

else:

dp[j] = max([left, up])

left_up = up

return dp[len(str_b)]

#转换最长公共子序列为0-1之间的数值，结果越接近1，相似度越大

def LCS_Score(str_a, str_b):

return np.round(LCS(str_a, str_b)*2/(len(str_a)+len(str_b)),2)

#LCS_Score(str_a, str_b)

## 对dataframe的2列按照最长公共子序列计算相似度

## df: 数据来源变量

## col_name1、col_name2：用于计算相似度的2个列名

## simarity_score_name：返回的相似度结果的列名

## 返回数据框，则simarity_score_name是用该计算方法对2列文本相似度的计算结果

def df_simarity_lcs(df , col_name1 , col_name2 , simarity_score_name):

df[simarity_score_name] = list(map(lambda str_a, str_b:LCS_Score(str_a, str_b),df[col_name1],df[col_name2]))

return df

二、Jaccard相似度（Jaccard Similarity）

基于集合的交集与并集的比值来计算相似度。

适用于短文本或关键词列表的比较。

## 采用集合的方法计算2个集合的相似度

def similarity(a, b):

try:

return len(a & b) / len(a | b)

except ZeroDivisionError:

return -1e-4

## 采用集合的方法计算一个数据框中2个列的文本相似度

## df: 数据来源变量

## col_name1、col_name2：用于计算相似度的2个列名

## simarity_score_name：返回的相似度结果的列名

## 返回数据框，则simarity_score_name是用该计算方法对2列文本相似度的计算结果

#对dataframe的2列按照集合的方法计算相似度

def df_simarity_jh(df , col_name1 , col_name2 , simarity_score_name):

df[simarity_score_name] = list(map(lambda str_a, str_b:similarity(set(str_a), set(str_b)),df[col_name1],df[col_name2]))

return df

三、余弦相似度（Cosine Similarity）

通过计算两个文本向量在空间中的夹角余弦值来评估它们的相似度。

通常与词袋模型（BOW）或TF-IDF结合使用。

## vec1, vec2:待计算的向量

## 返回2个向量的相似度

def cosine_simi(vec1, vec2):

from scipy import spatial

return 1 - spatial.distance.cosine(vec1, vec2)

## 对dataframe的2列按照最长公共子序列计算相似度

## df: 数据来源变量

## col_name1、col_name2：用于计算相似度的2个列名

## simarity_score_name：返回的相似度结果的列名

## 返回数据框，则simarity_score_name是用该计算方法对2列文本相似度的计算结果

def df_simarity_cosine(df , col_name1 , col_name2 , simarity_score_name):

df[simarity_score_name] = list(map(lambda str_a, str_b:cosine_simi(str_a, str_b),df[col_name1],df[col_name2]))

return df

四、方法补充

除了上文的方法，小编还为大家整理了一些其他Python文件相似度计算的方法，希望对大家有所帮助

TF-IDF

TF-IDF是一种统计方法，用于评估单词在文档集中的重要性。它可以将文本表示为向量，进而计算余弦相似度。

from sklearn.feature_extraction.text import TfidfVectorizer

def calculate_tfidf_cosine_similarity(text1, text2):

vectorizer = TfidfVectorizer()

corpus = [text1, text2]

vectors = vectorizer.fit_transform(corpus)

similarity = cosine_similarity(vectors)

return similarity[0][1]

text1 = "I love Python programming"

text2 = "Python programming is great"

tfidf_cosine_similarity = calculate_tfidf_cosine_similarity(text1, text2)

print(tfidf_cosine_similarity)

Word2Vec

Word2Vec是一种将单词表示为向量的模型，可以捕捉单词之间的语义关系。使用预训练的词向量模型，可以计算文本之间的相似度。

import gensim.downloader as api

from gensim import matutils

import numpy as np

def calculate_word2vec_similarity(text1, text2):

model = api.load("word2vec-google-news-300")

tokens1 = text1.split()

tokens2 = text2.split()

vec1 = np.mean([model[token] for token in tokens1 if token in model], axis=0)

vec2 = np.mean([model[token] for token in tokens2 if token in model], axis=0)

return matutils.cosine(vec1, vec2)

text1 = "I love Python programming"

text2 = "Python programming is great"

word2vec_similarity = calculate_word2vec_similarity(text1, text2)

print(word2vec_similarity)

Doc2Vec

Doc2Vec是一种将文档表示为向量的模型，可以捕捉文档之间的语义关系。与Word2Vec类似，可以使用预训练的Doc2Vec模型计算文本之间的相似度。

from gensim.models import Doc2Vec

from gensim.models.doc2vec import TaggedDocument

def calculate_doc2vec_similarity(text1, text2):

corpus = [TaggedDocument(text1.split(), ["text1"]), TaggedDocument(text2.split(), ["text2"])]

model = Doc2Vec(corpus, vector_size=100, window=5, min_count=1, workers=4)

vec1 = model.docvecs["text1"]

vec2 = model.docvecs["text2"]

return matutils.cosine(vec1, vec2)

text1 = "I love Python programming"

text2 = "Python programming is great"

doc2vec_similarity = calculate_doc2vec_similarity(text1, text2)

print(doc2vec_similarity)

这些方法可以根据具体需求进行选择和组合，为自然语言处理任务提供强大的文本相似度计算能力。在实际应用中，可能会遇到多种场景，例如推荐系统、自动问答和文本聚类等。在这些场景中，选择合适的文本相似度计算方法至关重要。

BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer的预训练模型，用于捕捉上下文相关的单词表示。可以通过BERT模型将文本表示为向量，然后计算余弦相似度。

from sentence_transformers import SentenceTransformer

def calculate_bert_similarity(text1, text2):

model = SentenceTransformer("bert-base-nli-mean-tokens")

embeddings = model.encode([text1, text2])

similarity = cosine_similarity(embeddings)

return similarity[0][1]

text1 = "I love Python programming"

text2 = "Python programming is great"

bert_similarity = calculate_bert_similarity(text1, text2)

print(bert_similarity)

您可能感兴趣的文章 :

原文链接 :

Tag : python(849)

Python实现在PDF中插入单图像水印和平铺图像水印

PDF文档因其跨平台兼容性和内容保真度成为信息交换的标准载体，为应对版权侵犯、内容篡改以及未经授权的传播等风险，向PDF中插入图片
Python实现将PowerPoint转为HTML格式

PPT是传递信息、进行汇报和推广产品的重要工具。然而，有时我们需要将这些精心设计的PPT演示文稿发布到网络上，以便于更广泛的访问和
Python中通用的文本相似度计算方法介绍

一、最长公共子序列最长公共子序列（Longest Common Subsequence，LCS）是指两个或多个序列中共同出现的一段连续序列，它在多个序列中都保持
Python创建一个功能齐全的随机验证码生成器

验证码(CAPTCHA)是一种常用的用于验证用户身份的技术。它通过生成一张包含难以识别的文本、数字或图像的图像,要求用户正确输入其中的内
python3获取视频文件播放时长的三种方法

方法一：VideoFileClip 1 2 3 4 5 6 from moviepy.editor import VideoFileClip def get_duration_from_moviepy(url): clip = VideoFileClip(url) return clip.duration 方法二：CV2 最快
Python实现列表转Excel表格的第一列

在数据处理和分析中，经常需要将Python中的数据（如列表）导出到Excel表格中，以便于数据的查看、分享和进一步处理。本文将详细介绍如何
python条件判断中not、is、is not、is not None、is Non

1.not A 是判断A是否为0、False、空字符串、空列表、空字典、空元组以及None，满足任一条件即返回True 2.is和is not 是不是某种对象 3.is not None和
利用opencv对拍摄图片进行文字识别介绍

代码示例： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
Python实现Excel和CSV之间的相互转换

通过使用Python编程语言，编写脚本来自动化Excel和CSV之间的转换过程，可以批量处理大量文件，定期更新数据，并集成转换过程到自动化工作
Python实现在Word中创建表格并填入数据与图片

在Word中，表格是一个强大的工具，它可以帮助你更好地组织、呈现和分析信息。本文将介绍如何使用Python在Word中创建表格并填入数据、图片