AI創(chuàng)作

#Ai應(yīng)用

AI目前主要應(yīng)用在哪些領(lǐng)域？AI應(yīng)用非常廣泛，只要有語(yǔ)音識(shí)別，圖像識(shí)別，自然語(yǔ)言處理，智能安防，智能家居，人工智能醫(yī)療，金融智能，智能交通等。

最新AI應(yīng)用

我們收集優(yōu)秀的論文查重、潤(rùn)色論文和論文網(wǎng)站等AI人工智能論文寫(xiě)作網(wǎng)站，幫助學(xué)術(shù)界和學(xué)生們提高論文質(zhì)量和學(xué)術(shù)水平，論文寫(xiě)作效率。

Replicate

在線運(yùn)行開(kāi)源機(jī)器學(xué)習(xí)模型

Evidently AI

開(kāi)源的機(jī)器學(xué)習(xí)模型監(jiān)測(cè)和測(cè)試工具

MMLU

MMLU 全稱 Massive Multitask Language Understanding，是一種針對(duì)大模型的語(yǔ)言理解能力的測(cè)評(píng)，是目前最著名的大模型語(yǔ)義理解測(cè)評(píng)之一，由UC Berkeley大學(xué)的研究人員在2020年9月推出。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI語(yǔ)言模型評(píng)估框架）封裝。

C-Eval

C-Eval是一個(gè)適用于大語(yǔ)言模型的多層次多學(xué)科中文評(píng)估套件，由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)研究人員在2023年5月份聯(lián)合推出，包含了13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別，用以評(píng)測(cè)大模型中文理解能力。

FlagEval

FlagEval（天秤）由智源研究院將聯(lián)合多個(gè)高校團(tuán)隊(duì)打造，是一種采用“能力—任務(wù)—指標(biāo)”三維評(píng)測(cè)框架的大模型評(píng)測(cè)平臺(tái)，旨在提供全面、細(xì)致的評(píng)測(cè)結(jié)果。

SuperCLUE

SuperCLUE 是一個(gè)中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)，從三個(gè)不同的維度評(píng)價(jià)模型的能力：基礎(chǔ)能力、專業(yè)能力和中文特性能力。

OpenCompass

OpenCompass是由上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）于2023年8月正式推出的大模型開(kāi)放評(píng)測(cè)體系，通過(guò)完整開(kāi)源可復(fù)現(xiàn)的評(píng)測(cè)框架，支持大語(yǔ)言模型、多模態(tài)模型各類模型的一站式評(píng)測(cè)，并定期公布評(píng)測(cè)結(jié)果榜單。

CMMLU

CMMLU是一個(gè)綜合性的中文評(píng)估基準(zhǔn)，專門用于評(píng)估語(yǔ)言模型在中文語(yǔ)境下的知識(shí)和推理能力，涵蓋了從基礎(chǔ)學(xué)科到高級(jí)專業(yè)水平的67個(gè)主題。

MMBench

MMBench是一個(gè)多模態(tài)基準(zhǔn)測(cè)試，該體系開(kāi)發(fā)了一個(gè)綜合評(píng)估流程，從感知到認(rèn)知能力逐級(jí)細(xì)分評(píng)估，覆蓋20項(xiàng)細(xì)粒度能力，從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問(wèn)一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評(píng)測(cè)，循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性，基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。

HELM

HELM是由斯坦福大學(xué)推出的大模型評(píng)測(cè)體系，該評(píng)測(cè)方法主要包括場(chǎng)景、適配、指標(biāo)三個(gè)模塊，每次評(píng)測(cè)的運(yùn)行都需要指定一個(gè)場(chǎng)景，一個(gè)適配模型的提示，以及一個(gè)或多個(gè)指標(biāo)。

Chatbot Arena

Chatbot Arena是一個(gè)大型語(yǔ)言模型 (LLM) 的基準(zhǔn)平臺(tái)，以眾包方式進(jìn)行匿名隨機(jī)對(duì)戰(zhàn)，該項(xiàng)目方LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和卡內(nèi)基梅隆大學(xué)合作創(chuàng)立的研究組織。

LLMEval3

LLMEval是由復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出的大模型評(píng)測(cè)基準(zhǔn)，最新的LLMEval-3聚焦于專業(yè)知識(shí)能力評(píng)測(cè)，涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個(gè)學(xué)科門類、50余個(gè)二級(jí)學(xué)科，共計(jì)約20W道標(biāo)準(zhǔn)生成式問(wèn)答題目。

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于評(píng)估和比較 LLM 大模型的開(kāi)放工具，它提供了一個(gè)平臺(tái)來(lái)了解模型在大量任務(wù)和基準(zhǔn)測(cè)試中的性能。無(wú)論你是想使用大模型自動(dòng)化工作流程或任務(wù)，H2O EvalGPT 都可以提供流行、開(kāi)源、高性能大模型的詳細(xì)排行榜，幫助你為項(xiàng)目選擇最有效的模型完成具體任務(wù)。

PubMedQA

PubMedQA是一個(gè)生物醫(yī)學(xué)研究問(wèn)答數(shù)據(jù)集，包含了1K專家標(biāo)注，61.2K 個(gè)未標(biāo)注和 211.3K 個(gè)人工生成的QA實(shí)例，該排行榜目前已收錄18個(gè)模型的醫(yī)學(xué)測(cè)試得分。