2024 年 12 月 2 日消息,國家知識產(chǎn)權局信息顯示,小紅書科技有限公司申請一項名為“圖文模型訓練方法、識別樣本生成方法、設備及介質(zhì)”的專利,公開號 CN 119049073 A,申請日期為 2023 年 5 月。
專利摘要顯示,本申請涉及人工智能技術領域,特別涉及圖文模型訓練方法、識別樣本生成方法、設備及介質(zhì)。該圖文模型訓練方法包括:獲取訓練數(shù)據(jù),訓練數(shù)據(jù)包括與商品相關的文本和圖片;從與商品相關的圖片中提取商品的圖片信息,并且從商品的圖片信息中識別第一字符串;對于第一字符串,從與商品相關的文本中提取第二字符串,其中,相比于從文本中所提取的其它字符串,第二字符串與第一字符串之間的編輯距離最小;利用與第一字符串對應的商品的圖片信息、第一字符串、第一字符串中的每個字符的識別置信度以及第二字符串來訓練預先構建的模型,獲得經(jīng)訓練的圖文模型。本申請能夠進一步提升 OCR 識別的準確率,并且能夠快速生成兼具豐富性和真實性的識別樣本。