OG¶«·½Ìü

EnglishÈÕ±¾ÕZ

AI+°²È«-OG¶«·½ÌüÐÂÒ»´ú°²È«·À»¤ÏµÍ³Ö÷Ìâ > ÈËΪÖÇÄܸ³Äܰ²È«¼¼Êõ½éÉÜ

°²È«´óÄ£ÐÍѵÁ·ÓÅ»¯

×÷ÕߣºOG¶«·½Ìü 2024-11-01

´óÄ£ÐͱÉÈËÓΰ²È«ÁìÓò¹¤×÷Öвû·¢ÍùÍùÇ·¼Ñ£¬£¬£¬Í¨³£±»ÒÔΪÊǼȲ»×ãÁìÓò֪ʶ£¬£¬£¬Ò²²»×ãÀûÓÃÁìÓò֪ʶµÄ·½Ê½¡£¡£¡£


»­Í¼-ÖØÒª¼¼Êõ.jpg


ÉÏͼÖУ¬£¬£¬ÎÒÃÇÁоÙÁË´Ë¿ÌÖ÷Á÷µÄ´óÄ£Ð͵÷Óż¼Êõ¡£¡£¡£¶ÔÓÚL1°²È«ÐÐÒµ´óÄ£ÐÍ£¬£¬£¬ÎÒÃÇʹÓÃÓÒ°ëͼµÄ¼¼Êõ£¬£¬£¬Í¨¹ý¸üÐÂÄ£ÐͲÎÊýÀ´»ñµÃÒ»¸ö¾ß±¸¸üÇ¿°²È«ÖªÊ¶µÄ´óÄ£ÐÍ¡£¡£¡£¶ø¶ÔÓÚL2µÄÀûÓó¡¾°²ã£¬£¬£¬ÎÒÃÇÔò»áʹÓÃ×ó°ëͼµÄ¼¼Êõ£¬£¬£¬Ê¹´óÄ£ÐÍÔÚÏÖʵ³¡¾°ÖÐÎÞÐè²ÎÊý¸üм´¿É¼±¾çÂ䵨¡£¡£¡£


ÎÒÃǽ«ÕâЩ¼¼Êõ·Ö±æÎª¡°×¢Èë֪ʶ¡±ºÍ¡°×¢ÈëÀûÓÃ֪ʶµÄ·½Ê½¡±Á½ÖÖ¡£¡£¡£Ö±¹ÛÀ´½²£¬£¬£¬Ç°Õߣ¨Éϰëͼ£©µÄÖØÒªÖ÷ÕÅÊÇÈôóÄ£ÐÍ»ñµÃ°²È«ÁìÓò֪ʶ£¬£¬£¬¿ÉÄÜÔڻظ²Ê±ÓÐÀíÓоݶø²»ÊÇÆ¾¿Õƾ¿Õ¡£¡£¡£¶øºóÕߣ¨Ï°ëͼ£©µÄÖØÒªÖ÷ÕÅÔòÊǽ̻á´óÄ£ÐÍÀûÓÃ֪ʶ£¬£¬£¬µ«Ô¸´óÄ£Ð͵Ļظ²¿ÉÄÜÒÀÑ­ÌØ¶¨Ìåʽ»òÌØ¶¨Ë¼Â·£»£»³ö¸ñµÄ£¬£¬£¬ÈËÀà·´À¡Ç¿»¯Ñ§Ï°Êǵ«Ô¸´óÄ£ÐÍ¿ÉÄÜ¶ÔÆëÈËÀàÈÏÖª£¬£¬£¬ÔÚºÏÀíµ±ÓÃ֪ʶµÄͬʱ£¬£¬£¬ÌáÉý»Ø¸²µÄ¿ÉÓÃÐԺͰ²È«ÐÔ¡£¡£¡£


ÏÂÃæÎÒÃǽ«±ðÀë½éÉÜÕâЩ¼¼ÊõµÄÀûÓ÷½Ê½ºÍÓű׶Ë¡£¡£¡£


ÔöÁ¿Ô¤ÑµÁ·


ÔöÁ¿Ô¤ÑµÁ·£¨Continuous Pre-train£¬£¬£¬CPT£©ÊÇÒ»ÖÖ³£¼ûµÄ֪ʶעÈ뷽ʽ¡£¡£¡£ËüµÄ˼·ÊÇ£¬£¬£¬´óÄ£ÐÍÊÇͨ¹ýѧϰ´óÁ¿Í¨ÓÃ֪ʶµÃµ½µÄ£¬£¬£¬ÄÇôÎÒ½«ÁìÓò֪ʶºÍͨÓÃ֪ʶ»ìºÏµ½Ò»Â·£¬£¬£¬¶øºóʹÓÃÕâЩÊý¾Ý³ÖÐøÑµÁ·Ô­ÓÐL0»ù´¡´óÄ£ÐÍ¡£¡£¡£»£»»¶øÑÔÖ®£¬£¬£¬Ôö³¤ÁËÁìÓò֪ʶÔÚѵÁ·Êý¾ÝÖеıÈÖØ£¬£¬£¬¼´Ôö³¤ÁËÔ­ÓÐÄ£Ð͵ÄÁìÓò֪ʶ¡£¡£¡£


ÕâÖÖ˼·ÏÔÈ»ÊǺÏÀíÇÒÓÐЧµÄ¡£¡£¡£ÔöÁ¿Ô¤ÑµÁ·µÄ±×¶Ëͨ³£ÔÚÓÚÊý¾ÝºÍËãÁ¦³É±¾¡£¡£¡£Ëü²»½ö¶ÔËãÁ¦µÄÒªÇóÏà¶ÔÆ«¸ß£¬£¬£¬Ò²±ØÒª´óÁ¿¾«ÐÄϴ媵ÄÁìÓò֪ʶÊý¾Ý¡£¡£¡£²»Í⣬£¬£¬ËüµÄÀûÒæÊÇ×¢ÈëÄ£Ð͵ÄÊý¾Ý²»±ØÒªÈËΪ´ò±ê£¬£¬£¬Ò²¾ÍÊÇ˵£¬£¬£¬Ëã·¨ÈËÔ±Ö»±ØÒª¶ÔÊý¾Ý×öÈ¥ÖØ¡¢¡¢È¥¸æ°×µÈϴ媹¤×÷£¬£¬£¬²»±ØÒªÖðÌõ¶ÔÊý¾Ý×ö¾«ÃÜ´¦Öᣡ£¡£Òò¶ø£¬£¬£¬ÔöÁ¿Ô¤ÑµÁ·Ëù»ñÈ¡µÄÊý¾Ýͨ³£¿£¿£Äܹ»ÓнϴóÁ¿¼¶£¬£¬£¬×¢ÈëµÄ֪ʶҲ½ÏÎªÈ«Ãæ¡£¡£¡£


Óмල΢µ÷


Óмල΢µ÷£¨Supervised Fine-tuning£¬£¬£¬SFT£©ÊÇÖ¸»ùÓÚÒÑÓеĴóÄ£ÐÍ£¬£¬£¬ÔÚÓбê×¢Êý¾ÝÉϽøÐÐÄ£ÐÍѵÁ·¡£¡£¡£ÏÖÓеÄSFT¼¼Êõͨ³£ÎÞÐè΢µ÷Ä£Ð͵ÄËùÓвÎÊý£¬£¬£¬½ö΢µ÷ÉÙÁ¿£¨»ò¶îÍ⣩ģÐͲÎÊý£¬£¬£¬´Ó¶øÏÔÖø½µµÍÍÆËãºÍ²¿Êð³É±¾£¬£¬£¬Í¬Ê±²úÉúÓëÈ«Á¿Î¢µ÷Ä£ÐÍÏ൱µÄ»úÄÜ¡£¡£¡£Í¨¹ýÕâÖÖ·½Ê½£¬£¬£¬Äܹ»ÔÚÏû·Ñ¼¶Ó²¼þÉÏѵÁ·ºÍ´æ´¢´óÄ£ÐÍ£¬£¬£¬ÈôóÄ£ÐÍÊÊÓ¦¸÷ÀàÏÂÓÎÀûÓᣡ£¡£


Óмල΢µ÷µÄ±×¶ËÔÚÓÚ£¬£¬£¬ÓÃÓÚ΢µ÷´óÄ£Ð͵ÄÊý¾Ýͨ³£±ØÒª¼«Æä¾«ÃÜ»¯µÄϴ媺ÍÖðÌõµÄÈËΪ´ò±ê£¬£¬£¬ºÃÔÚÐèÒªµÄÊý¾ÝÁ¿²¢²»´ó£¬£¬£¬Ê¹ÓÃ×îµÍ°ÙÌõÊý¾Ý΢µ÷ÍùÍù¾ÍÄÜÈôóÄ£ÐÍѧ»áһЩµ¥Ò»µÄ˼·ÓëÌåʽ¡£¡£¡£


µ½ÕâÀ£¬£¬ÎÒÃǵ«Ô¸Í¨¹ýÒ»¸öÀý×ÓÀ´¸üºÃµÄ½²ÊöÉÏÎÄÌá¼°µÄ¼¼Êõ¸ÅÄî¡£¡£¡£ÔÚ°²È«ÔËÓª³¡¾°ÖУ¬£¬£¬Óû§µ«Ô¸´óÄ£ÐͶÔÒÑÖªµÄ°²È«ÊÂÎñ½øÐнâ¶Á£¬£¬£¬Ô̺¬¸æ¾¯ÄÚÈÝ¡¢¡¢ÊÂÎñÀàÐÍ¡¢¡¢¹¥»÷ÊÖ·¨¡¢¡¢×ʲúÊôÐԵȡ£¡£¡£ÕâÑùµÄÀûÓó¡¾°±ØÒªÕâÑùʵÏÖ£º


1.Ê×ÏÈ£¬£¬£¬ÎÒÃÇʹÓôóÁ¿¹«¿ªµÄÍøÂ簲ȫÓëÖ÷»ú°²È«ÓйØÖªÊ¶¶Ô´óÄ£ÐÍ×öÔöÁ¿Ô¤ÑµÁ·

2.Æä´Î£¬£¬£¬ÎÒÃÇʹÓð²È«×¨¼Ò±ê×¢ºóµÄÈçÏÂÎÊ´ð¶Ô£¬£¬£¬¶ÔOG¶«·½Ìü°²È«´óÄ£ÐͽøÐÐÓмල΢µ÷

{

 "ÎÊÌâ"£ºÓû§Ìá³öµÄÎÊÌâ + ÒÑÖªÊÂÎñÐÅÏ¢ + ½øÕ¹·µ»ØÁ˾Ö,

 "»Ø¸²"£ºÊÂÎñÀàÐÍ + ¹¥»÷ÊÖ·¨ ...

}

3.×îºó£¬£¬£¬¾ÍµÃµ½ÁËÎÒÃÇÄܹ»ÔÚÏÖʵ³¡¾°ÖÐʹÓõÄÄ£ÐÍ¡£¡£¡£


µ«ÊÇ£¬£¬£¬¶Ôÿһ¸öÏÂÓι¤×÷½øÐÐ΢µ÷ÏԵùýÓÚ¸´ÔÓºÍÈßÓàÁË¡£¡£¡£Òò¶ø£¬£¬£¬ÎÒÃÇÒýÈëÁËһЩ²»±ØÒª¸üÐÂÄ£ÐͲÎÊýµÄ¼¼Êõ£¬£¬£¬ËüÃÇͬÑùÄÜÓÐÓÅÁ¼µÄʹÓóÉЧ¡£¡£¡£


¼ìË÷¼ÓÇ¿ÌìÉú


¼ìË÷¼ÓÇ¿ÌìÉú£¨Retrieval Augmented Generation£¬£¬£¬RAG£©ÊÇʱÏÂÈȵãµÄ´óÄ£ÐÍÀûÓýâ¾ö¹æ»®¡£¡£¡£ËüµÄÖØÒªµÀÀíÊÇ£¬£¬£¬Óû§Ìá³öÎÊÌ⣬£¬£¬Í¨¹ýÀàËÆËÑË÷ÒýÇæµÄ·½Ê½´Ó֪ʶ¿âÖÐÕÒµ½ÓйصÄ֪ʶƬ¶Î£¬£¬£¬Ëæºó½«Óû§µÄÎÊÌâÓëËÑË÷µÄÁ˾ÖÒ»ÆðÊäÈë¸ø´óÄ£ÐÍ£¬£¬£¬ÈôóÄ£ÐͶÔךο½å¼´ð°¸¡±ÌìÉú»Ø¸²¡£¡£¡£


»­Í¼-RAG.jpg


ËüµÄÀûÒæ¼«¶ÈÏÔÖø£¬£¬£¬Ïà±ÈÓÚÔöÁ¿Ô¤ÑµÁ·£¬£¬£¬¼ìË÷¼ÓÇ¿ÌìÉúµÄ³É±¾¸üµÍ£¬£¬£¬²¢ÇÒ֪ʶ¸üиü¿ì¡£¡£¡£±×¶ËÔòÊÇ£¬£¬£¬¼ìË÷¼ÓÇ¿ÌìÉú¶Ô֪ʶ¿âµÄÖÊÁ¿ÒªÇó½Ï¸ß£¬£¬£¬ÒªÇó×îºóµÃµ½µÄÓйØÖªÊ¶Æ¬¶ÎµÄÈ·ÌṩÁ˻ظ²Óû§ÎÊÌâËù±ØÒªµÄ֪ʶ£¬£¬£¬ÇÒ¿ÉÄܱ»´óÄ£ÐÍ˳ÀûÀí½â¡£¡£¡£ÐÒÔ˵ÄÊÇ£¬£¬£¬Ê¹ÓÃÔöÁ¿Ô¤ÑµÁ·»¹ÊǼìË÷¼ÓÇ¿ÌìÉú²¢²»ÊÇÒ»¸öµ¥Ñ¡Ì⣬£¬£¬Êµ¼ÊÖÐÎÒÃÇÄܹ»Ñ¡Ôñ¡°ÎÒÈ«¶¼Òª¡±£¬£¬£¬¼´¿ÉͬʱÏíÊÜÁ½ÖÖ¼¼ÊõµÄÀûÒæ¡£¡£¡£


¸ßµÍÎÄѧϰ


¸ßµÍÎÄѧϰ£¨In-context Learning£¬£¬£¬ICL£©ÊÇÒ»ÖÖ¼«¶È·½±ãµÄ²½Öè¡£¡£¡£ËüÖ»±ØÒªÎÒÃÇÔÚ¸ø´óÄ£ÐÍÊäÈëÎÊÌâʱ£¬£¬£¬¶ÔËü¸ø³öһЩ¡°Ê¾·¶¡±ÐÔÖʵÄÌáÐÑ£¬£¬£¬¼´¿ÉÈôóÄ£ÐÍÒÀÕÕʾ·¶À´ÌìÉú»Ø¸²¡£¡£¡£Í¨³£Ê¹ÓøߵÍÎÄѧϰµÄÓû§ÎÊÌâÌåʽÈçÏÂËùʾ¡£¡£¡£


»­Í¼-ICL.jpg


¸ßµÍÎÄѧϰµÄÀûÒæÊÇËüµÄ·½±ãÐÔ£¬£¬£¬¶ø±×¶ËÔòÊÇ£¬£¬£¬¶ÔÓÚ¸´ÔÓµÄÎÊÌ⣬£¬£¬µ¥Ò»µÄÌáÐÑÍùÍùºÜÄÑÆðµ½ÓÅÁ¼µÄ³ÉЧ¡£¡£¡£


ÄÇôµ½ÕâÀ£¬£¬ÎÒÃÇËÆºõÄܹ»²»ÔÙ¶Ôÿһ¸öÏÂÓι¤×÷¶¼½øÐÐÓмල΢µ÷£¬£¬£¬¶øÊÇÓÃÔ½·¢½Ã½ÝµÄ·½Ê½ÊµÏÖÉÏÃæµÄ°²È«ÔËÓª³¡¾°£¨¶ÔÓÚºÍ֮ǰ²½Öè·ÖÆçµÄ´¦Ëù£¬£¬£¬ÎÒÃÇ×öÁ˼Ӵֱê×¢£©£º


1.Ê×ÏÈ£¬£¬£¬ÎÒÃÇʹÓôóÁ¿¹«¿ªµÄÍøÂ簲ȫÓëÖ÷»ú°²È«ÓйØÖªÊ¶¶Ô´óÄ£ÐÍ×öÔöÁ¿Ô¤ÑµÁ·

2.Æä´Î£¬£¬£¬ÎÒÃÇʹÓð²È«×¨¼Ò±ê×¢ºóµÄ¶à¸ö·ÖÆç°²È«¹¤×÷³¡¾°ÏµÄÎÊ´ð¶Ô£¬£¬£¬¶ÔOG¶«·½Ìü°²È«´óÄ£ÐͽøÐÐÓмල΢µ÷

3.ÔٴΣ¬£¬£¬ÎÒÃǶÔÿ¸öµ¥¶ÀµÄÏÂÓι¤×÷£¬£¬£¬Ê¹ÓüìË÷¼ÓÇ¿ÌìÉúºÍ¸ßµÍÎÄѧϰÀ´½øÐе¥¶ÀµÄ¹¤×÷ÌáÐÑ

4.µÃµ½×îÆ½ÌìÉúµÄÁ˾Ö


ÏÖʵÀûÓó¡¾°ÖУ¬£¬£¬´óÄ£ÐÍ»¹±ØÒªÍ¨¹ýÈËÀà·´À¡Ç¿»¯Ñ§Ï°»ñµÃ¸üºÃµÄ°²È«ÐԺͿÉÓÃÐÔ£¬£¬£¬ÎÒÃǽ«³ÖÐø½éÉÜÕâÒ»¼¼Êõ¡£¡£¡£


ÈËÀà·´À¡Ç¿»¯Ñ§Ï°


ÈËÀà·´À¡Ç¿»¯Ñ§Ï°£¨Reinforcement Learning from Human Feedback£¬£¬£¬RLHF£©¼¼ÊõµÄÖØÒªÖ÷ÕÅÊÇͨ¹ý½«ÈËÀàµÄ·´À¡ÄÉÈëѵÁ·¹ý³Ì£¬£¬£¬Îª»úеÌṩÁËÒ»ÖÖÌìÈ»µÄ¡¢¡¢È˵À»¯µÄ»¥¶¯Ñ§Ï°¹ý³Ì¡£¡£¡£Êµ¼ÊÖУ¬£¬£¬ÈËÀà·´À¡Ç¿»¯Ñ§Ï°ÍùÍù±»ÓÃÓÚÌáÉý´óÄ£Ð͵ݲȫÐԺͿÉÓÃÐÔ£¬£¬£¬Ç°Õßͨ³£Ö¸Óû§Ñ¯Îʲ»ºÏ·¨ÄÚÈÝʱ´óÄ£ÐÍÄܹ»¸ø³ö»Ø¾ø»Ø¸²£¬£¬£¬ºóÕßÔòÖ¸´óÄ£Ð͸ø³öµÄ»Ø¸²¿ÉÄÜÇÐʵԮÊÖµ½Óû§¡£¡£¡£



»­Í¼-RLHF.jpg


ÖµÍ×ÌùÐĵÄÊÇ£¬£¬£¬°²È«ÐԺͿÉÓÃÐÔÖ®¼ä´æÔÚ×ŰÂÃîµÄ¹ØÏµ¡£¡£¡£Ò»·½Ã棬£¬£¬¹ýÓÚÑϸñµÄ°²È«´ëÊ©¿ÉÄÜ»áÏÞ¶ÈÄ£Ð͵ıí°××ÔÓɶȣ¬£¬£¬µ¼ÖÂËü²»Äܳä·Öչʾ×Ô¼ºµÄ֪ʶ¿âÀ´Ô®ÊÖÓû§£»£»ÁíÒ»·½Ã棬£¬£¬Èô¹ý¶È×·ÇóÓû§ÂÄÀú¶ø²»¹Ë¼°ÄÚÈÝÉó²é£¬£¬£¬Ôò¿ÉÄÜʹģÐͶ³öÓÚ²úÉú²»µ±Êä³öµÄ·çÏÕÖ®ÖС£¡£¡£Òò¶ø£¬£¬£¬ÔÚRLHFµÄÀûÓùý³ÌÖУ¬£¬£¬±ØÐëÕÒµ½Á½ÕßÖ®¼äµÄƽºâµã£¬£¬£¬ÒÔÔ¤·À³öÏÖ¡°¹Ë´Ëʧ±Ë¡±µÄÇé¿ö¡£¡£¡£ÕâÒªÇ󿪷¢ÕßÃǾ«ÐÄÉè¼Æ¼Î½±»úÖÆ£¬£¬£¬²¢³ÖÐø¼à¿ØÄ£Ð͵IJû·¢£¬£¬£¬È·±£Ã¿Ò»´Îµü´ú¶¼Äܳ¯×żȶ¨µÄÖ¸±êǰ½ø£¬£¬£¬¼´Í¬Ê±Ìá¸ßϵͳµÄ°²È«ÐÔºÍÓû§ÂÄÀúÖÊÁ¿¡£¡£¡£


×ÜÖ®£¬£¬£¬Í¨¹ý½«ÈËÀà·´À¡ÈÚÈ뵽ǿ»¯Ñ§Ï°µÄ¹ý³ÌÖУ¬£¬£¬RLHF²»½öÍÆ½øÁËAIϵͳµÄ×ÔÎÒÓÅ»¯£¬£¬£¬»¹Ê¹µÃÕâЩϵͳ¿ÉÄܸüºÃµØ·þÎñÓÚÈËÀàÉç»á£¬£¬£¬³ÉΪÈËÃÇÈÕ³£ÉúÑĺ͹¤×÷ÖÐÖµµÃÐÅÈεÄͬ°é¡£¡£¡£


×ܽá


±¾ÎĽéÉÜÁ˼¸ÖÖ´óÄ£Ðͼ¼ÊõÔÚÍøÂ簲ȫÁìÓòµÄÀûÓ㬣¬£¬Ô̺¬ÔöÁ¿Ô¤ÑµÁ·¡¢¡¢Óмල΢µ÷¡¢¡¢ÈËÀà·´À¡Ç¿»¯Ñ§Ï°¡¢¡¢¸ßµÍÎÄѧϰºÍ¼ìË÷¼ÓÇ¿ÌìÉú¡£¡£¡£ÕâЩ¼¼Êõͨ¹ý·ÖÆçµÄ·½Ê½Îª´óÄ£ÐÍ×¢Èë֪ʶ£¬£¬£¬ÏÔÖøÌáÉýÁËÍøÂç°²ÕûϵͳµÄ»úÄÜ¡£¡£¡£


Õ°Íû½«À´£¬£¬£¬ÕâЩ´óÄ£Ðͼ¼Êõ½«ÎªÍøÂ簲ȫÁìÓò×¢ÈëеĻîÁ¦¡£¡£¡£ËüÃDz»½ö¿ÉÄÜÌá¸ßϵͳµÄ¼ì²âºÍÏìÓ¦ÄÜÁ¦£¬£¬£¬»¹ÄÜ×Ô¶¯Ô¤¸ÐºÍ·ÀÓùÐÂÐÍÍþв¡£¡£¡£Í¨¹ý³ÖÐøÑ§Ï°ºÍÓÅ»¯£¬£¬£¬ÕâЩ¼¼Êõ½«Ê¹ÍøÂç°²ÕûϵͳԽ·¢ÖÇÄÜ¡¢¡¢¸ßЧ£¬£¬£¬³ÉΪÆóÒµºÍСÎÒÔÚÊý×ÖÊÀ½çÖеļáʵºóÔ®¡£¡£¡£

ÉÏһƪ ÏÂһƪ

7*24Сʱ·þÎñÈÈÏß

400-624-3900


¡¾ÍøÕ¾µØÍ¼¡¿