የዓረፍተ ነገር ማስመሰያ ለማድረግ፣ ሪውን መጠቀም እንችላለን። የተከፈለ ተግባር። ይህ ሥርዓተ ጥለት ወደ እሱ በማለፍ ጽሑፉን ወደ ዓረፍተ ነገር ይከፍላል።
Tokenizing የሚለው ቃል ምንድን ነው?
Tokenization ጽሑፍን ቶከኖች ወደ ትናንሽ ቁርጥራጮች የመከፋፈል ሂደት ነው። እነዚህ ትናንሽ ቁርጥራጮች ዓረፍተ ነገሮች፣ ቃላት ወይም ንዑስ ቃላት ሊሆኑ ይችላሉ። ለምሳሌ፣ "አሸነፍኩ" የሚለው አረፍተ ነገር ወደ ሁለት የቃላት ቶከኖች "እኔ" እና "አሸነፍኩ" ማለት ይቻላል።
ማስመሰያ ዓረፍተ ነገር ምንድን ነው?
የአረፍተ ነገር ማስመሰያ ጽሑፍን ወደ ግለሰብ ዓረፍተ ነገር የመከፋፈል ሂደት ነው። … ነጠላ አረፍተ ነገሮችን ከፈጠሩ በኋላ፣ ተገላቢጦሽ ተተኪዎች ይደረጋሉ፣ ይህም በተሻሻሉ አረፍተ ነገሮች ስብስብ ውስጥ ዋናውን ጽሑፍ ወደነበረበት ይመልሳል።
Tokenization በምሳሌ የሚያስረዳው ምንድን ነው?
Tokenization አንድን ጽሑፍ ቶከኖች ወደ ሚባሉ ትናንሽ ክፍሎች የምንለይበት መንገድ ነው። … ቦታን እንደ ገደብ ስናስብ የዓረፍተ ነገሩን ማስመሰያ 3 ምልክቶችን ያስገኛል - በጭራሽ ተስፋ አትቁረጥ። እያንዳንዱ ማስመሰያ ቃል እንደመሆኑ መጠን የቃል ማስመሰያ ምሳሌ ይሆናል። በተመሳሳይ፣ ቶከኖች ቁምፊዎች ወይም ንዑስ ቃላት ሊሆኑ ይችላሉ።
Tokenizing በፓይዘን ውስጥ ምን ያደርጋል?
በ Python ማስመሰያ በመሠረቱ ትልቅ የጽሑፍ አካልን ወደ ትናንሽ መስመሮች፣ ቃላት ለመከፋፈል ወይም እንግሊዝኛ ላልሆነ ቋንቋን ያመለክታል። የተለያዩ የማስመሰያ ስራዎች በ nltk ሞጁል ውስጥ አብሮ የተሰራ እና ከታች እንደሚታየው በፕሮግራሞች ውስጥ ጥቅም ላይ ሊውል ይችላል።