AI智能标记化，词干化和词形化的概念

文章编号：2692 / 分类：技术教程 / 更新时间：2024-05-17 14:44:33 / 浏览：次

恭喜您成为首批注册用户

在本节中，我们将了解什么是标记化，词干化和词形化。

它可以被定义为将给定文本即字符序列分成称为令牌的较小单元的过程。令牌可以是单词，数字或标点符号。它也被称为分词。以下是标记化的一个简单示例-

输入-芒果，香蕉，菠萝和苹果都是水果。

打断给定文本的过程可以通过查找单词边界来完成。单词的结尾和新单词的开头称为单词边界。文字的书写体系和印刷结构会影响边界。

在PythonNLTK模块中，有与标记化有关的不同包，可以根据需要将文本划分为标记。一些软件包如下所示-

顾名思义，这个软件包会将输入文本分成几个句子。可以使用下面的Python代码导入这个包-

这个包将输入文本分成单词。可以使用下面的Python代码来导入这个包-

这个包将输入文本分成单词和标点符号。可以使用下面的Python代码来导入这个包-

在处理文字时，由于语法原因，我们遇到了很多变化。这里的变化的概念意味着必须处理像:democracy,democratic和democratization等不同形式的相同词汇。机器非常需要理解这些不同的单词具有相同的基本形式。通过这种方式，在分析文本的同时提取单词的基本形式将会很有用。

我们可以通过阻止来实现这一点。通过这种方式，可以说干扰是通过切断单词的结尾来提取单词基本形式的启发式过程。

在PythonNLTK模块中，有一些与stemming相关的其它包。这些包可以用来获取单词的基本形式。这些软件包使用算法。一些软件包如下所示-

这个Python包使用Porter算法来提取基础表单。可以使用下面的Python代码来这个包-

fromnltk.stem.porterimportPorterStemmer AI智能标记化词干化和词形化的概念

例如，如果将writing这个词作为这个词干的输入，它们就会在词干之后得到write这个词。

这个Python包将使用Lancaster的算法来提取基本形式。可以使用下面的Python代码来导入这个包-

fromnltk.stem.lancasterimportLancasterStemmer

例如，如果将writing这个词作为这个词干的输入，它们就会在词干之后得到write这个词。

这个Python包将使用雪球算法来提取基本形式。可以使用下面的Python代码来导入这个包-

fromnltk.stem.snowballimportSnowballStemmer

例如，如果将writing这个词作为这个词干的输入，它们就会在词干之后得到write这个词。

所有这些算法都有不同程度的严格性。如果比较这三个词干的话，那么波特词干是最不严格的，兰卡斯特词干是最严格的。雪球词干在速度和严格性方面都很好用。

也可以通过词形化来提取单词的基本形式。它基本上通过使用词汇的词汇和形态分析来完成这项任务，通常旨在仅删除变元结尾。任何单词的这种基本形式都称为引理。

词干化和词性化的主要区别在于词汇的使用和形态分析。另一个区别是，词干最常见的是崩溃派生相关的词汇，而词素化通常只会折拢引理的不同的折点形式。例如，如果提供单词saw作为输入词，那么词干可能会返回单词's'，但词形化会尝试返回单词，看看或看到取决于使用该单词是动词还是名词。

在PythonNLTK模块中，有以下与词形化过程有关的包，可以使用它来获取词的基本形式-

这个Python包将提取单词的基本形式，取决于它是用作名词还是动词。可以使用下面的Python代码的来导入这个包-

fromnltk.stemimportwordNetLemmatizer以上内容是否对您有帮助：在文档使用的过程中是否遇到以下问题：

更多建议：

违法和不良信息举报电话：173-0602-2364|

相关标签： AI智能标记化、词干化和词形化的概念、

本文地址：https://www.badfl.com/article/d291683b25f585187f19.html

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位！
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>

最新资讯