3月20日,知乎正式發(fā)布了全新AI功能“發(fā)現(xiàn)·AI搜索”。這也是繼去年發(fā)布“知海圖AI”大模型后,知乎在人工智能方面的又一重要進(jìn)展。
據(jù)知乎創(chuàng)始人、董事長(zhǎng)兼CEO周源介紹,知乎的AI搜索集搜索、實(shí)時(shí)問答和追問功能于一體,而且與其他大模型提供的內(nèi)容不同,知乎AI搜索的內(nèi)容均來自社區(qū)專業(yè)創(chuàng)作者的可信賴內(nèi)容。
上圖為記者測(cè)試知乎AI搜索
記者測(cè)試發(fā)現(xiàn),在知乎AI搜索中提問“如何使用大模型”,除了其他語言大模型都有的文字回答外,知乎AI搜索還在結(jié)果上面列入了內(nèi)容來源,比如記者測(cè)試的問題答案,就有6位答主參與了貢獻(xiàn),并且可以通過點(diǎn)擊直接跳轉(zhuǎn)至這些回答頁面。
知乎COO、高級(jí)副總裁、社區(qū)業(yè)務(wù)負(fù)責(zé)人張寧在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,知乎的AI產(chǎn)品一定是建立在社區(qū)生態(tài)上面的?!拔覀円恢痹谒伎嫉氖?,AI搜索搜出的結(jié)果,如何再反哺給創(chuàng)作者,讓創(chuàng)作者感覺到內(nèi)容是被更多人看到的”。
所以在內(nèi)容呈現(xiàn)上,知乎有別于其他模型,會(huì)在回答內(nèi)容中標(biāo)注內(nèi)容來源,這樣既提升了內(nèi)容的可溯源性,加大了對(duì)創(chuàng)作者的曝光,同時(shí)也大大增強(qiáng)了用戶對(duì)內(nèi)容的信任度。
記者了解到,知乎的AI搜索功能是以AI創(chuàng)業(yè)公司面壁智能的大模型產(chǎn)品為基礎(chǔ)。面壁智能成立于2022年8月,創(chuàng)始成員全部來自清華大學(xué)NLP實(shí)驗(yàn)室。2023年3月,知乎作為領(lǐng)投方參與了面壁智能的天使輪融資,同年4月,知乎聯(lián)合面壁智能發(fā)布了“知海圖AI”中文大模型。
周源此前曾向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,在AI時(shí)代,生產(chǎn)力的三要素分別是應(yīng)用場(chǎng)景、專有數(shù)據(jù)和基礎(chǔ)模型。其中,知乎在應(yīng)用場(chǎng)景和專有數(shù)據(jù)方面,占據(jù)獨(dú)特優(yōu)勢(shì)。而在基礎(chǔ)模型方面,投資面壁智能并與其進(jìn)行模型共建,是知乎構(gòu)建基礎(chǔ)模型層能力時(shí),選擇的一條捷徑。
而這次“AI搜索”功能上線,算是知乎在大模型技術(shù)應(yīng)用上的一個(gè)階段性成果。張寧告訴21世紀(jì)經(jīng)濟(jì)報(bào)道,知乎針對(duì)AIGC的布局,在ToC產(chǎn)品上會(huì)聚焦于“AI搜索”。
“因?yàn)锳I搜索跟知乎用戶的心智是高度對(duì)齊的,用戶希望在知乎解決問題,希望獲得專業(yè)可信賴的優(yōu)質(zhì)解答,而正是AI搜索所提供的能力”。張寧說。
所以接下來,知乎也會(huì)在AI搜索方面投入更多精力,包括在特定的專業(yè)領(lǐng)域上進(jìn)行更多的數(shù)據(jù)標(biāo)注,以提高生成內(nèi)容的可信度。
目前,市面上做AI搜索的公司已經(jīng)不少,對(duì)知乎而言,其擁有的一大優(yōu)勢(shì)就是高質(zhì)量的中文語料。公開數(shù)據(jù)顯示,截至2022年底,知乎累計(jì)擁有6310萬名內(nèi)容創(chuàng)作者,他們貢獻(xiàn)了約5.06億條問答內(nèi)容,覆蓋超過1000個(gè)垂直領(lǐng)域。
在大模型訓(xùn)練過程中,訓(xùn)練預(yù)料質(zhì)量將直接影響大模型輸出內(nèi)容質(zhì)量。各個(gè)廠商為了提升模型質(zhì)量,往往會(huì)投入大量資源對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。但張寧向記者表示,知乎在數(shù)據(jù)標(biāo)注上的投入,遠(yuǎn)低于其他廠商。
張寧進(jìn)一步表示,知乎AI搜索的第一個(gè)版本在春節(jié)前一周就已經(jīng)上線,后面經(jīng)過一個(gè)多月的灰度測(cè)試,“我們收到的整體反饋是,回答質(zhì)量要高于預(yù)期”。
在張寧看來,這個(gè)結(jié)果也印證了知乎中文語料的優(yōu)質(zhì)?!罢f實(shí)話,這么短的時(shí)間內(nèi)我們不太可能做特別大規(guī)模的數(shù)據(jù)標(biāo)注,但取得這樣的結(jié)果,說明我們的數(shù)據(jù)底子好。過去大家一直說知乎的內(nèi)容質(zhì)量高,這次也通過AI訓(xùn)練的方式進(jìn)行了驗(yàn)證”。
不過,按照大模型的發(fā)展速度,知乎儲(chǔ)備的中文語料數(shù)據(jù)未來或也將捉襟見肘。今年年初,周源在接受記者采訪時(shí)也曾提到中文語料短缺的問題。他說,中文優(yōu)質(zhì)數(shù)據(jù)的稀缺,導(dǎo)致國(guó)內(nèi)許多從事大模型開發(fā)的研究機(jī)構(gòu)和企業(yè)在進(jìn)行模型訓(xùn)練時(shí),不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集,或是爬取網(wǎng)絡(luò)數(shù)據(jù)。
在他看來,解決中文語料資源短缺的問題,實(shí)際上應(yīng)該是先構(gòu)建“水庫(kù)”,然后再去合理使用的過程。但是現(xiàn)在,行業(yè)對(duì)構(gòu)建“水庫(kù)”的工作重視不夠,反而都比較看重怎么去“打水”,所以未來幾年,中文語料資源短缺都將是一個(gè)特別嚴(yán)重的問題。(記者 白楊)
來源:21世紀(jì)經(jīng)濟(jì)報(bào)道
責(zé)任編輯:王海山
請(qǐng)輸入驗(yàn)證碼