جمعه 3 ژوئن 2022
این هفته، ما یک بهبود الگوریتمی را معرفی کردیم که اسنادی را که در آن عنصر عنوان به زبان یا خطی متفاوت از محتوای آن نوشته شده است، شناسایی میکند و عنوانی را که شبیه زبان و خط سند است انتخاب میکند. این بر اساس این اصل کلی است که عنوان یک سند باید با زبان یا خط محتوای اصلی آن نوشته شود. این یکی از دلایلی است که ممکن است از عناصر عنوان برای عناوین نتایج وب فراتر برویم.
عناوین چند زبانه
عناوین چند زبانه همان عبارت را با دو زبان یا خط متفاوت تکرار می کنند. محبوب ترین الگو این است که یک نسخه انگلیسی را به متن عنوان اصلی اضافه کنید.
गीतांजलि की जीवनी – بیوگرافی گیتنجالی به زبان هندی
در این مثال، عنوان از دو قسمت تشکیل شده است (که با خط فاصله تقسیم می شوند) و مطالب مشابهی را به زبان های مختلف (هندی و انگلیسی) بیان می کنند. در حالی که عنوان به هر دو زبان است، خود سند فقط به زبان هندی نوشته شده است. سیستم ما چنین ناسازگاری را تشخیص میدهد و ممکن است فقط از متن سرفصل هندی استفاده کند، مانند:
गीतांजलि की जीवनी
عناوین با خط لاتین
نویسهگردانی زمانی است که محتوا از یک زبان به زبان دیگری نوشته میشود که از خط یا الفبای متفاوتی استفاده میکند. برای مثال، عنوان صفحهای را برای آهنگی در نظر بگیرید که به زبان هندی نوشته شده اما برای استفاده از نویسههای لاتین بهجای خط بومی هندی دوانگاری ترجمه شده است:
جیس دش من هولی کلی جاتی های
در چنین حالتی، سیستم ما سعی میکند با استفاده از اسکریپتی که در صفحه غالب است، عنوان جایگزین پیدا کند، که در این مورد میتواند این باشد:
जिस देश में होली खेली जाती है
خلاصه
به طور کلی، سیستم های ما تمایل دارند از عنصر عنوان صفحه استفاده کنند. در مواردی که عناوین چند زبانه یا نویسهگردانی شده است، سیستمهای ما ممکن است به دنبال جایگزینهایی باشند که با زبان غالب صفحه مطابقت داشته باشند. به همین دلیل است که ارائه عنوانی که با زبان و/یا اسکریپت محتوای اصلی صفحه مطابقت داشته باشد، تمرین خوبی است.
ما از بازخورد بیشتر در انجمن خود، از جمله موضوعات موجود در مورد این موضوع به زبان انگلیسی و ژاپنی استقبال می کنیم.