Back to Question Center
0

Google ໃຊ້ການຂັດຂວາງ Semantic Semantic?

1 answers:

ການແບ່ງປັນແມ່ນການດູແລ!

Does Google Use Latent Semantic Semalt?

ມີຜູ້ທີ່ຂຽນກ່ຽວກັບ SEO ຜູ້ທີ່ຍືນຍັນວ່າ Google ໃຊ້ເທກໂນໂລຍີທີ່ເອີ້ນວ່າ Latent Semantic Semalt ເພື່ອດັດແປງເນື້ອຫາໃນເວັບແຕ່ເຮັດໃຫ້ຂໍ້ກ່າວອ້າງເຫຼົ່ານັ້ນໂດຍບໍ່ມີຫຼັກຖານໃດໆທີ່ຈະສະຫນັບສະຫນູນພວກເຂົາ. ຂ້າພະເຈົ້າຄິດວ່າມັນອາດຈະເປັນປະໂຫຍດທີ່ຈະຄົ້ນຫາເຕັກໂນໂລຢີແລະແຫຼ່ງຂໍ້ມູນຂອງມັນໃຫ້ລະອຽດຕື່ມ. ມັນແມ່ນເຕັກໂນໂລຢີທີ່ໄດ້ຖືກຄົ້ນພົບກ່ອນທີ່ເວບໄຊທ໌ແມ່ນຢູ່, ເພື່ອດັດແປງເນື້ອໃນຂອງເອກະສານທີ່ບໍ່ປ່ຽນແປງຫຼາຍ. LSI ອາດຈະຄ້າຍຄືເຄື່ອງຂີ່ລົດໄຟທີ່ໃຊ້ໃນເສັ້ນທາງລົດໄຟ.

ຍັງມີເວັບໄຊທ໌ທີ່ມີ "ຄໍາຫລັກ LSI" ເພື່ອຄົ້ນຫາແຕ່ບໍ່ໃຫ້ຂໍ້ມູນໃດໆກ່ຽວກັບວິທີການສ້າງຄໍາເຫຼົ່ານັ້ນຫຼືນໍາໃຊ້ເຕັກໂນໂລຊີ LSI ເພື່ອສ້າງໃຫ້ເຂົາເຈົ້າ, ຫຼືສະແດງໃຫ້ເຫັນວ່າພວກເຂົາເຮັດໃຫ້ມີຄວາມແຕກຕ່າງໃນວິທີການຄົ້ນຫາ ເຄື່ອງຈັກເຊັ່ນ: Semalt ອາດຈະດັດສະນີເນື້ອຫາທີ່ມີຄໍາທີ່ໃຊ້ເຫຼົ່ານີ້. ວິທີການນໍາໃຊ້ "ຄໍາຫລັກ LSI" ແມ່ນແຕກຕ່າງຈາກຄໍາສັບທີ່ວ່າ Semalt ບອກພວກເຮົາບໍ່ໃຫ້ເຮັດ. Semalt ບອກພວກເຮົາວ່າພວກເຮົາຄວນ:

Semalt ກ່ຽວກັບການສ້າງເນື້ອຫາທີ່ເປັນປະໂຫຍດ, ທີ່ມີຂໍ້ມູນຫຼາຍທີ່ໃຊ້ຄໍາທີ່ເຫມາະສົມແລະໃນສະພາບການ.

ບ່ອນທີ່ LSI ມາຈາກ

ຫນຶ່ງໃນນັກຄົ້ນຄວ້າແລະວິສະວະກອນຄົ້ນຫາຂອງ Microsoft, Susan Dumais ເປັນນັກຄົ້ນຄວ້າທີ່ຢູ່ເບື້ອງຫຼັງເຕັກໂນໂລຢີທີ່ຖືກກ່າວເຖິງວ່າ Indexing Latent Semantic Indexing ເຊິ່ງນາງໄດ້ເຮັດວຽກໃນ Bell Labs. ມີການເຊື່ອມໂຍງໃນຫນ້າທໍາອິດຂອງເຈົ້າທີ່ສະຫນອງການເຂົ້າເຖິງຫລາຍໆເຕັກໂນໂລຢີທີ່ນາງໄດ້ເຮັດໃນຂະນະທີ່ດໍາເນີນການຄົ້ນຄວ້າຢູ່ Microsoft ເຊິ່ງເປັນຂໍ້ມູນທີ່ມີປະໂຫຍດຫຼາຍແລະໃຫ້ຄວາມເຂົ້າໃຈຫຼາຍກ່ຽວກັບວິທີການເຄື່ອງຈັກຊອກຫາວຽກຕ່າງໆ. ໃຊ້ເວລາຕົມກັບພວກເຂົາແມ່ນແນະນໍາໃຫ້ສູງ.

ນາງໄດ້ປະຕິບັດການຄົ້ນຄວ້າກ່ອນຫນ້ານີ້ກ່ອນເຂົ້າຮ່ວມ Microsoft ຢູ່ Bell Labs, ລວມທັງການຂຽນກ່ຽວກັບດັດສະນີໂດຍການວິເຄາະເຊີງລົບໃນຕອນທ້າຍ. ນາງໄດ້ຮັບອະນຸຍາດໃຫ້ສິດທິບັດເປັນຜູ້ຮ່ວມມືກັນໃນຂະບວນການດັ່ງກ່າວ. ຫມາຍເຫດວ່າສິດທິບັດນີ້ຖືກຍື່ນໃນເດືອນເມສາ 1989 ແລະຖືກເຜີຍແຜ່ໃນ Semalt ຂອງປີ 1992. ເວບໄຊທ໌ໂລກບໍ່ໄດ້ດໍາລົງຊີວິດຈົນກ່ວາ Semalt 1991. ສິດທິບັດ LSI ແມ່ນ:

ການຄົ້ນຫາຂໍ້ມູນຄອມພິວເຕີໂດຍໃຊ້ໂຄງສ້າງເຊີງອະນຸພາກ
ຜູ້ປະດິດ: Scott C. Deerwester, Susan T. Dumais, George W Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum, ແລະ Lynn A. Streeter
ການມອບຫມາຍໃຫ້: Bell Communications Research, Inc.
ສິດທິບັດສະຫະລັດ: 4,839,853
ຮັບ: 13 ມິຖຸນາ 1989
ຍື່ນ: 15 ກັນຍາ 1988

Abstract

ວິທີການດຶງຂໍ້ມູນວັດຖຸຂໍ້ມູນແມ່ນເປີດເຜີຍ. ຂໍ້ມູນດັ່ງກ່າວໄດ້ຮັບການປິ່ນປົວໃນໂດເມນສະຖິຕິໂດຍການສົມມຸດວ່າມີໂຄງສ້າງເຊີງອະນຸພາກພື້ນຖານທີ່ຢູ່ພາຍໃຕ້ການນໍາໃຊ້ຄໍາສັບໃນວັດຖຸຂໍ້ມູນ. ການປະສົມປະສານກັບໂຄງປະກອບ latent ນີ້ຖືກນໍາໃຊ້ເພື່ອເປັນຕົວແທນແລະດຶງເອົາວັດຖຸ. ການສອບຖາມຂອງຜູ້ໃຊ້ຖືກລວບລວມຢູ່ໃນໂດເມນສະຖິຕິໃຫມ່ແລະຫຼັງຈາກນັ້ນປະຕິບັດໃນລະບົບຄອມພິວເຕີເພື່ອສະກັດຄວາມຫມາຍທີ່ຖືກຕ້ອງເພື່ອຕອບສະຫນອງຄໍາຖາມ.

ບັນຫາທີ່ LSI ມີຈຸດປະສົງເພື່ອແກ້ໄຂ:

ເນື່ອງຈາກວ່າການນໍາໃຊ້ຄໍາເວົ້າຂອງມະນຸດມີລັກສະນະຄ້າຍຄືກັນແລະສັບສົນ, ລະບົບຄໍາສັບທີ່ກົງກັນຂ້າມແບບກົງໆຈະມີຂໍ້ຜິດພາດທີ່ຮ້າຍແຮງທີ່ຜິດພາດເພາະວ່າຄົນອື່ນໄດ້ອະທິບາຍເລື່ອງດຽວກັບຄໍາທີ່ແຕກຕ່າງກັນແລະເພາະວ່າຄໍາດຽວກັນ ຄວາມຫມາຍທີ່ແຕກຕ່າງກັນ, ອຸປະກອນທີ່ບໍ່ກ່ຽວຂ້ອງຈະຖືກດຶງດູດ. ບັນຫາພື້ນຖານອາດຈະຖືກສະຫຼຸບໂດຍຫຍໍ້ໂດຍກ່າວວ່າປະຊາຊົນຕ້ອງການເຂົ້າເຖິງຂໍ້ມູນໂດຍອີງໃສ່ຄວາມຫມາຍແຕ່ຄໍາທີ່ພວກເຂົາເລືອກນັ້ນບໍ່ໄດ້ຫມາຍຄວາມວ່າຫມາຍຄວາມວ່າແນວໃດ. ບໍ່ພຽງແຕ່ວິທີການເຫຼົ່ານີ້ວິຊາການແຮງງານທີ່ເຂັ້ມແຂງ, ແຕ່ພວກເຂົາເຈົ້າມັກຈະບໍ່ປະສົບຜົນສໍາເລັດຫຼາຍ.

ພາກສະຫຼຸບຂອງສິດທິບັດບອກພວກເຮົາວ່າມີການແກ້ໄຂບັນຫານີ້. ຈື່ໄວ້ວ່ານີ້ໄດ້ຖືກພັດທະນາກ່ອນທີ່ເວັບໄຊທ໌ໂລກຂະຫຍາຍຕົວກາຍເປັນແຫລ່ງຂໍ້ມູນທີ່ມີຂະຫນາດໃຫຍ່ທີ່ສຸດໃນປະຈຸບັນນີ້:

ຂໍ້ບົກຜ່ອງເຫຼົ່ານີ້, ເຊັ່ນດຽວກັນກັບຂໍ້ບົກພ່ອງອື່ນໆແລະຂໍ້ຈໍາກັດຂອງການດຶງຂໍ້ມູນຂ່າວສານ, ຖືກຫລີກລ່ຽງຕາມການປະດິດສ້າງໂດຍການສ້າງພື້ນທີ່ສໍາລັບການຄົ້ນຫາໂດຍກົງໂດຍອັດຕະໂນມັດ. ນີ້ແມ່ນປະຕິບັດໂດຍການປິ່ນປົວຄວາມບໍ່ຫນ້າເຊື່ອຂອງຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບຄໍາສັບທີ່ຫາມາຈາກຂໍ້ຄວາມເປັນບັນຫາທາງສະຖິຕິ. ຂໍ້ຈໍາກັດພື້ນຖານແມ່ນວ່າມີໂຄງສ້າງເຊີງອະນຸພາກທີ່ຢູ່ພາຍໃຕ້ຂໍ້ມູນໃນຂໍ້ມູນການນໍາໃຊ້ຄໍາສັບທີ່ຖືກປິດບັງບາງສ່ວນຫຼືຖືກບັງໄວ້ດ້ວຍຄວາມແຕກຕ່າງຂອງຄໍາທີ່ເລືອກ. ວິທີການທາງສະຖິຕິຖືກນໍາໃຊ້ເພື່ອປະເມີນໂຄງສ້າງທີ່ບໍ່ມີຕົວຕົນນີ້ແລະຄົ້ນພົບຄວາມຫມາຍທີ່ແປກປະຫຼາດ. Semalt, ວັດຖຸວັດຖຸແລະຫຼັງຈາກນັ້ນ, ການສອບຖາມຂອງຜູ້ໃຊ້ຈະຖືກປະຕິບັດເພື່ອສະກັດຄວາມຫມາຍນີ້ແລະໂດເມນໂຄງສ້າງແບບອະນຸກົມໃຫມ່, ຫຼັງຈາກນັ້ນຖືກນໍາໃຊ້ເພື່ອສະແດງແລະດຶງຂໍ້ມູນ.

ເພື່ອສະແດງວິທີການເຮັດວຽກຂອງ LSI, ສິດທິບັດໃຫ້ເປັນຕົວຢ່າງທີ່ງ່າຍດາຍ, ໂດຍນໍາໃຊ້ເອກະສານ 9 ເອກະສານ (ຫຼາຍກ່ວາເວັບທີ່ມີຢູ່ໃນຂະນະນີ້). ຕົວຢ່າງປະກອບມີເອກະສານທີ່ກ່ຽວກັບຫົວຂໍ້ພົວພັນກັບຄອມພິວເຕີ້ / ຄອມພິວເຕີ. ມັນກໍ່ບໍ່ໄດ້ພິຈາລະນາວິທີການຂະບວນການດັ່ງກ່າວນີ້ສາມາດຈັດການບາງສິ່ງບາງຢ່າງຂະຫນາດຂອງເວັບໄດ້ເນື່ອງຈາກວ່າບໍ່ມີຂະຫນາດໃດທີ່ມີຢູ່ໃນແຕ່ລະຈຸດນັ້ນ. ເວັບໄຊຕ໌ມີຂໍ້ມູນຫຼາຍແລະຜ່ານການປ່ຽນແປງເລື້ອຍໆ, ດັ່ງນັ້ນວິທີການທີ່ຖືກສ້າງຂື້ນເພື່ອດັດແປງການເກັບກໍາເອກະສານທີ່ຮູ້ຈັກອາດບໍ່ເຫມາະສົມ. ສິດທິບັດບອກພວກເຮົາວ່າການວິເຄາະຂໍ້ກໍານົດຕ້ອງໃຊ້ເວລາ, "ແຕ່ລະຄັ້ງມີການປັບປຸງທີ່ສໍາຄັນໃນໄຟລ໌ເກັບຮັກສາ. "

ມີການຄົ້ນຄ້ວາຫຼາຍໆຢ່າງແລະການພັດທະນາເຕັກໂນໂລຢີທີ່ສາມາດນໍາໃຊ້ກັບຊຸດເອກະສານຂອງຂະຫນາດຂອງເວັບ. ພວກເຮົາໄດ້ຮຽນຮູ້ຈາກ Semalt ວ່າພວກເຂົາກໍາລັງໃຊ້ວິທີການ Vector Word ທີ່ພັດທະນາໂດຍທີມ Semalt Brain ຊຶ່ງໄດ້ອະທິບາຍໃນສິດທິບັດທີ່ໄດ້ຮັບການອະນຸມັດໃນປີ 2017. ຂ້າພະເຈົ້າຂຽນກ່ຽວກັບສິດທິບັດນັ້ນແລະເຊື່ອມໂຍງກັບຊັບພະຍາກອນທີ່ໃຊ້ໃນບົດນີ້: ວິທີການ Vector ຄໍາສັບສະຫມອງ Semalt. ຖ້າທ່ານຕ້ອງການຄວາມຮູ້ສຶກຂອງເຕັກໂນໂລຢີທີ່ Semalt ສາມາດນໍາໃຊ້ເພື່ອດັດສະນີເນື້ອຫາແລະເຂົ້າໃຈຄໍາສັບຕ່າງໆໃນເນື້ອຫານັ້ນ, ມັນໄດ້ເພີ່ມຂຶ້ນຫຼາຍນັບຕັ້ງແຕ່ວັນເວລາທີ່ Web ໄດ້ເລີ່ມຕົ້ນ. ມີການເຊື່ອມຕໍ່ກັບເອກະສານທີ່ອ້າງອີງຈາກຜູ້ປະດິດສ້າງຂອງສິດທິບັດນັ້ນພາຍໃນມັນ. ບາງຄົນເຫຼົ່ານັ້ນອາດຈະກ່ຽວຂ້ອງກັບວິທີການດັດສະນີ Latent Semantic ຕັ້ງແຕ່ມັນອາດຈະຖືກເອີ້ນວ່າບັນພະບຸລຸດຂອງພວກເຂົາ. ເຕັກໂນໂລຢີ LSI ທີ່ຖືກຄົ້ນພົບໃນປີ 1988 ປະກອບມີວິທີການທີ່ຫນ້າສົນໃຈຫຼາຍ, ແລະຖ້າທ່ານຕ້ອງການຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບມັນ, ກະດາດນີ້ກໍ່ມີຄວາມເຂົ້າໃຈດີ: ວິທີແກ້ໄຂບັນຫາຂອງ Plato: ທິດສະດີການວິເຄາະເຊີງລົບຂອງສັນຍາລັກຂອງການຊື້, ທີ່ຢູ່ ມີຄໍາແນະນໍາກ່ຽວກັບດັດສະນີທີ່ມີຄວາມຫມາຍກ່ຽວກັບການສະຫຼຸບລະອຽດໃນການເຈລະຈາຈາກ Semalt, ເຊິ່ງມັນຖືກນໍາໃຊ້ເປັນວິທີການດັດສະນີຕົວຢ່າງ:

ເຕັກນິກການຈັດປະເພດຂໍ້ຄວາມສາມາດຖືກນໍາໃຊ້ເພື່ອຈັດປະເພດຂໍ້ຄວາມເຂົ້າໃນປະເພດຫນຶ່ງຫຼືຫຼາຍປະເພດ. ການຈັດປະເພດຂໍ້ຄວາມ / ການຈັດປະເພດແມ່ນເຂດການຄົ້ນຄວ້າໃນວິທະຍາສາດຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບການມອບຫມາຍຂໍ້ຄວາມໃຫ້ກັບປະເພດຫນຶ່ງຫຼືຫລາຍປະເພດອີງໃສ່ເນື້ອໃນຂອງມັນ. ເຕັກນິກການຈັດແບ່ງຂໍ້ຄວາມແບບປົກກະຕິແມ່ນອີງໃສ່ການປະສົມປະສານ Semalt, tf-idf, ດັດສະນີນິຍາມທີ່ບໍ່ມີຕົວຕົນ, ເຄື່ອງຈັກ vector ສະຫນັບສະຫນູນແລະເຄືອຂ່າຍ neural ທຽມ, ຕົວຢ່າງ Source .

March 1, 2018